专业术语加强
- Application/App:Spark应用程序
- Driver:驱动程序
- ClusterManager-资源管理器Master/ResourceManager
- 从节点-Worker/NodeManager
- Executor:执行器/执行进程
- RDD:弹性分布式数据集
- NarrowDependency窄依赖
- ShuffleDependency宽依赖
- DAG有向无环图
- DAGScheduler[了解]
- TaskScheduler[了解]
- Job
- Stage
- TaskSet
- Task
- 整体图示
Application/App:Spark应用程序
Driver:驱动程序
- 会由Driver进程运行main方法和创建SparkContext执行环境对象
ClusterManager-资源管理器Master/ResourceManager
从节点-Worker/NodeManager
- Worker中可以运行多个Executor
- 每个Spark应用有自己独立的一批Executor
- 也就是多个Spark任务间是进程隔离的
Executor:执行器/执行进程
- 每个Spark应用程序拥有各个独立的一批Executor
- 每个Executor中有可以运行多个Task由线程池进行调度执行这些Task
- 每个Task运行计算RDD的一个分区上的一系列操作
- Task数量=分区数量 >= cpu核数
RDD:弹性分布式数据集
NarrowDependency窄依赖
- 如:map/flatmap/filter/union/join
ShuffleDependency宽依赖
- 如: groupBy(xxx)/groupByKey/reduceByKey/join
DAG有向无环图
DAGScheduler[了解]
TaskScheduler[了解]
Job
Stage
- DAGScheduler根据宽依赖划分Stage
TaskSet
Task
整体图示
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。