2021-09-16

文章目录

1.课题简介

基于主动学习的分布式大规模网络聚类框架
1.研究背景
当今世界已经进入了大数据信息化时代，这些大数据包含了人们生产活动的各方面信息，具有非常大的挖掘价值。但是，在大数据环境下，传统计算模式无法在规定的时间内完成有价值信息的提取。
2.研究课题
我研究的是AnyScan聚类框架，一种基于主动学习的大规模网络聚类框架。在该框架中，将 anytime 算法应用于 SCAN 算法，用主动学习策略来迭代地细化聚类结果。他是一种聚类算法，聚类算法能够对数据进行有效归类，聚类分析是一个把所有样本点划分到不同类簇的过程，使得每个类簇中的样本点尽可能的相似，而各类簇间的样本点不同。
AnySCAN 聚类框架，计算效率依赖于单机处理能力，不能很好的处理大规模数据。所以我研究的是基于分布式大规模的AnyScan聚类框架,主要是为了提高大规模网络聚类的速度。就用到了分布式框架，分布式框架是一个用于并行处理大数据的计算平台，当前主流的分布式框架主要是 Hadoop、Spark.

2. AnyScan聚类框架的具体流程

构建初始聚类；
核心顶点的主动学习；
从s-邻域的联合计算集群；
4)找到中心点和离群点。

3.并行化的思路

1.并行识别ε邻居与核节点，建立初始聚类子簇。并行地计算顶点间的结构相似度，并获得其对应的ε邻居集合。
2.通过并行地同步簇标签的方式完成簇的扩展来实现聚类归并。
3.分析聚类结果以及识别中心和离群点。

4. 主动学习

我们使用一些传统的监督学习方法做分类的时候，往往是训练样本规模越大，分类的效果就越好。但是在现实生活的很多场景中，标记样本的获取是比较困难的，这需要领域内的专家来进行人工标注，所花费的时间成本和经济成本都是很大的。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度。

5. AnyTime算法（任意时间算法）

从本质上讲,任意时间算法是一种反复求精算法,它可以很快地生成一个不精确解,然后经过若干次重复过程逐步提高解的质量.由于它可以在任意时刻中断并能输出一定质量的解,所以称之为任意时间算法

6. Hadoop

Hadoop 在分布式计算框架中出现较早，采用 HDFS 存储数据、MapReduce 编程模式来实现对海量数据的并行化处理。用户可在不了解底层关系的情况下进行分布式程序开发，快速实现聚类算法的并行化。

7. Spark

Spark 是近年来最流行的一种分布式计算框架。Spark 利用了弹性分布式内存数据集完美的解决了 Hadoop 框架在执行算法迭代任务效率低的问题。