微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

spark启动任务


文章目录


启动参数

nuhup spark-submit --class com.类名绝对路径 --master yarn --deploy-mode cluster --driver-memory 4g --executor-memory 8g --executor-cores jar包  输入参数 >>info.log   2>&1 &

增加任务的并行度

executor-memory

(executor-memory + 1) * num-executor <= 集群中总的内存容量大小

注意: 做乘积的时候,executor-memory 的多加一个 core

executor-cores

executor-cores * num-executors <= 集群中的总的核数容量

一个executor如果只分配了一个核的话,在这个executor中的线程数量统一时刻只能有一个(task),并且是串行

如果executor分配N核,在这个executor中的task都是并行,并行的最大数量就是N

num-executors

申请的总的executor数量,executor的数量最好和分区数量成倍数关系

partitionNumber

spark官网建议我们分区数量最好是机器核数的2-3倍

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐