前言

一、spark性能调优

spark数据倾斜问题主要是指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。要注意区分数据倾斜和数据量过大的情况：数据倾斜是指少数的task被分配了绝大多数数据；数据过量是指所有的task被分配的数据量都很大。

查阅代码中的shuffle算子，根据代码逻辑判断此处是否会出现数据倾斜
查看Spark作业的log文件，log文件对于错误的记录会精确到代码的某一行，可以根据异常定位到的代码位置来判定错误发生在第几个stage，对应的shuffle算子是哪一个。

控制reduce端缓冲区大小以避免OOM
JVM GC导致的shuffle文件拉取失败
解决各种序列化导致的报错
- 作为RDD的元素类型的自定义类，必须是可序列化的
- 算子函数里可以使用的外部的自定义变量，必须是可序列化的
- 不可以在RDD的元素类型、算子函数里使用第三方的不支持序列化的类型，例如Connection
解决算子函数返回NULL导致的问题
- 某些算子函数需要返回值，但是我们并不需要，可以这样解决：返回特殊值，例如-1；在通过算子获取了一个RDD之后，可以对这个RDD执行filter操作，将数值为-1的数据给过滤掉；在使用完filter算子后，继续调用coalesce算子进行优化。
解决YARN-CLIENT模式导致的网卡流量激增问题
解决YARN-CLUSTER模式的JVM栈内存溢出无法执行的问题
解决Sparksql导致的JVM栈内存溢出
持久化与checkpoint的使用