微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

1.大数据概述

1.大数据概述

一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

1、HDFS(分布式文件系统)

image


提供分布式数据存储、集中管理功能,为hdaoop生态提供数据基础
2、MapReduce(分布式计算框架)

image


输入分片(input split)->map阶段->shuffle阶段->reduce阶段
大规模并行数据处理的数据模型,使程序运行在分布式系统
3、Yarn(分布式资源管理器)
YARN作为统一资源管理器,并在此基础上管理协调其他不同的各类框架,灵活分配合理调用
可以一个集群上的不同应用负载混搭,有效提高了集群的利用率。

二、对比Hadoop与Spark的优缺点。

表达能力

MapReduce使用Map和Reduce,难以描述复杂处理过程而Spark除Map和Reduce外,还支持RDD/DataFrame/DataSet等多种数据模型操作,编程模型更加灵活。

磁盘I/O效率

MapReduce直接对磁盘进行I/O,而Spark中间结果存储在内存中效率更高

任务延迟

MapReduce多次I/O加上下文切换耗能,Spark基于DAG任务调度执行机制,不涉及磁盘IO延迟,迭代运算更快。

三.如何实现Hadoop与Spark的统一部署?

结合Yarn资源管理器基础,进行多种框架混合使用,可以用Spark框架替换MapReduce框架提高计算效率和计算的表达能力,并调整hadoop中其他框架与spark发生资源争夺的情况,降低资源抢占发生的概率。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐