文章目录
1.课题简介
基于主动学习的分布式大规模网络聚类框架
1.研究背景
当今世界已经进入了大数据信息化时代,这些大数据包含了人们生产活动的各方面信息,具有非常大的挖掘价值。但是,在大数据环境下,传统计算模式无法在规定的时间内完成有价值信息的提取。
2.研究课题
我研究的是AnyScan聚类框架,一种基于主动学习的大规模网络聚类框架。在该框架中,将 anytime 算法应用于 SCAN 算法,用主动学习策略来迭代地细化聚类结果。他是一种聚类算法,聚类算法能够对数据进行有效归类,聚类分析是一个把所有样本点划分到不同类簇的过程,使得每个类簇中的样本点尽可能的相似,而各类簇间的样本点不同。
AnySCAN 聚类框架,计算效率依赖于单机处理能力,不能很好的处理大规模数据。所以我研究的是基于分布式大规模的AnyScan聚类框架,主要是为了提高大规模网络聚类的速度。就用到了分布式框架,分布式框架是一个用于并行处理大数据的计算平台,当前主流的分布式框架主要是 Hadoop、Spark.
2. AnyScan聚类框架的具体流程
- 构建初始聚类;
- 核心顶点的主动学习;
- 从s-邻域的联合计算集群;
4)找到中心点和离群点。
3.并行化的思路
1.并行识别ε邻居与核节点,建立初始聚类子簇。并行地计算顶点间的结构相似度,并获得其对应的ε邻居集合。
2.通过并行地同步簇标签的方式完成簇的扩展来实现聚类归并。
3.分析聚类结果以及识别中心和离群点。
4. 主动学习
我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。
5. AnyTime算法(任意时间算法)
从本质上讲,任意时间算法是一种反复求精算法,它可以很快地生成一个不精确解,然后经过若干次重复过程逐步提高解的质量.由于它可以在任意时刻中断并能输出一定质量的解,所以称之为任意时间算法
6. Hadoop
Hadoop 在分布式计算框架中出现较早,采用 HDFS 存储数据、MapReduce 编程模式来实现对海量数据的并行化处理。用户可在不了解底层关系的情况下进行分布式程序开发,快速实现聚类算法的并行化。
7. Spark
Spark 是近年来最流行的一种分布式计算框架。Spark 利用了弹性分布式内存数据集完美的解决了 Hadoop 框架在执行算法迭代任务效率低的问题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。