一. 背景
1. 介绍
- 至少需要6大技术栈:[MysqL + Linux, scala, java, Hadoop, Hive, Kafka]
- Spark是处理大规模数据的统一分析引擎
- Spark从数据的输入到结果的输出之间所有数据结构都是基于[RDD]的.
- RDD这个数据集的元素是分布式的存储在集群的多节点上的.
- 一台机器的内存计算是有限的,但是集群的多节点的内存
2. Spark特点
3. Spark的组件
4. Spark运行方式
二. 理论
1. Spark应用架构
三. 实操
1. 安装local本地单机版(命令行测试)
2. 安装集群版(命令行测试)
3. 基于IDEA开发Spark应用 [重点]
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。