分布式计算
Hadoop分布式存储与处理
1.HDFS(分布式数据存储系统)
HDFS 的基本结构
-
数据节点:存储数据块
-
名字节点:维护数据块的备份存储位置等信息
-
读取:名字节点——>数据节点
-
下载:名字节点——>数据节点
总结:
2.MapReduce(分布式数据处理框架)
-
key-value对
-
MapReduce作业过程
Input-Splitting-Mapping-Shuffling-Reducing-Finalresult
-
核心Map阶段和Reduce阶段
-
在MapReduce中,以上通过发送状态信息进行容错的机制称为心跳机制。
Spark:分布式数据分析
-
MapReduce的每一次作业都需要从磁盘加载数据。
1.Hadoop相比,Spark的主要优势包括:
-
Spark的数据分析作业中间输出和结果可以保存在内存中,可以不需要再读写HDFS,极大提高MapReduce的效率。
-
Spark提供更多的数据集操作的方法,给数据分析人员带来更多灵活性,Hadoop只提供了map和reduce操作。
-
对于机器学习算法、图算法有很好的支持。
2.RDD(弹性分布式数据集)
-
将物理上分布再多个节点的数据集抽象成逻辑上的一个完整的数据集,可以像处理单击书籍一样处理海量数据。
-
在计算处理的过程中,将数据分布在集群存储节点的内存中,当节点的内存不够用时,可以将数据存储在硬盘中。
-
创建RDD的三种方式:
3.Spark运行流程
驱动程序和工作程序
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。