微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

2022.1.1 大数据学习01 Spark简介

Spark简介:

Spark的诞生是基于解决Hadoop数据处理慢的问题 Spark 2013年6月成为Apache基金会下成员。

与Hadoop不同:

提示:这里可以添加要学的内容
1.Spark是一种包含流处理能力的处理框架,主要侧重于内存计算以及处理优化机制加快批处理的工作负载的运行速度。
2.Hadoop 基于一次性数据计算:框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到我们的介质中。

Mapper Reduce过程磁盘io严重影响性能

3.Spark提供了更加丰富的数据处理模型,基于内存进行数据的多次迭代,可以更好支持数据挖掘算法和图形计算。
4.实际应用场景如果内存限制较大,则仍会选用Mapper Reduce


Spark的核心模块:

提示:这里可以添加计划学习的时间
例如:
1、 Apache Spark Core: 整个Spark的核心,其他的模块都是基于core来实现的
2、 Spark sql:Spark操作结构化数据的功能模块
3、 Spark Streaming:Spark对流式数据进行处理的功能模块
4、Spark Milb:对机器学习相关进行处理
5、Sparl Graphx:对图形挖掘进行处理

Spark的核心模块


学习产出:

提示:这里统计学习计划的总量
例如:
1、CSDN 技术博客 1 篇

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐