快速了解spark

初识Spark

什么是spark

spark 特点

spark对比Hadoop

RDD

RDD是一个弹性分布式数据集，它是一个逻辑概念。通常是通过读取HDFS上文件进行创建，也可以通过程序中的集合来创建，还可以通过读取本地文件创建。

RDD特点

弹性：RDD默认是存放在内存中，但是内存不足时也会溢写磁盘。
分布式：RDD在抽象上来说是一种元素数据集合，它是被分区的，每个分区分布在集群的不同节点上，从而实现数据的并行操作
容错性：RDD可以自动从节点失败中恢复。如果某个节点RDD partition 因为节点故障，导致数据丢失，RDD会自动通过自己的数据来源重新计算该partition的数据。

Transformation 和 Action

Transformation:常见算子map、flatMap、filter、groupByKey、reduceByKey、join、distinct
Action：常见算子reduce、collect、count、take(n)、saveAsTextFile、foreach

Transformation有Lazy特性，只有当Transformation算子后接着执行了Action算子，那么之前Transformation算子才会执行。
Action算子特性是会出发spark任务（job）

宽依赖和窄依赖

Spark相关进程

Spark任务执行过程（Standalone）

Driver初始化操作

Driver初始化的是sparkcontext，sparkcontext会构建DAGScheduler 和 TaskScheduler

RDD持久化

对于RDD重复使用，每次重复使用都会重新计算一遍，浪费时间浪费资源。针对该问题可以将RDD执行持久化，每个节点都会将自己操作的RDD的partition数据持久化到内存中。在使用该RDD时直接使用内存中缓存数据即可。

cache() 和 persist()区别：cache（）就是 persist（）无参版本，即调用的是 persist（MEMORY_ONLY）
清除和缓存可使用 unpersist（）

策略	介绍
MEMORY_ONLY	以非序列化的方式持久化在JVM内存中
MEMORY_AND_disK	同上，但是当某些partition无法存储在内存中时，会持久化到磁盘中
MEMORY_ONLY_SER	同MEMORY_ONLY，但是会序列化
MEMORY_AND_disK_SER	同MEMORY_AND_DSK，但是会序列化
disK_ONLY	以非序列化的方式完全存储到磁盘上
MEMORY_ONLY_2、MEMORY_AND_disK_2等	尾部加了2的持久化级别，表示会将持久化数据复制一份，保存到其他节点

多种持久化级别，主要是在cpu和内存消耗之间取舍。优先使用MEMORY_ONLY，纯内存速度最快。

spark shuffle

未优化的 Hash Based Shuffle

每一个ShuffleMap会为每一个ResultTask创建一分Bucket缓存，以及对应ShuffleBlockFile磁盘文件。这样会禅城大量的本地磁盘文件。需要进行频繁的磁盘io。
优化后的 Hash Based Shuffle

每一个Executor中产生ResultTask数量的本地文件。只会产生 cpu核数 * ResultTask 数量的文件。但是当这两个数值很大时依旧会产生很多磁盘文件。
Sort-Based Shuffle

每一个ShuffleMap都只创建一个文件，并对应会生成一个索引文件。

checkPoint

当我们在spark任务执行过程中有一个RDD计算步骤非常复杂，运行的时间也很长，虽然持久化到了内存，为了避免对这个RDD因为节点故障等原因导致数据结果丢失，导致还需要在重新计算，我们使用了checkpoint。实现容错高可用。