微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

spark--专业术语加强(图解)

专业术语加强

Application/App:Spark应用程序

在这里插入图片描述

Driver:驱动程序

  • 会由Driver进程运行main方法和创建SparkContext执行环境对象

    在这里插入图片描述

ClusterManager-资源管理器Master/ResourceManager

在这里插入图片描述

从节点-Worker/NodeManager

  • Worker中可以运行多个Executor
  • 每个Spark应用有自己独立的一批Executor
  • 也就是多个Spark任务间是进程隔离的

    在这里插入图片描述

Executor:执行器/执行进程

  • 每个Spark应用程序拥有各个独立的一批Executor
  • 每个Executor中有可以运行多个Task由线程池进行调度执行这些Task
  • 每个Task运行计算RDD的一个分区上的一系列操作
  • Task数量=分区数量 >= cpu核数

    在这里插入图片描述

RDD:弹性分布式数据集

  • RDD的五大属性:
    • 分区列表 (数据从哪来
    • 最佳位置 (在哪算
    • 分区器/分区函数(认hash,也可以自定义) (怎么分区
    • 计算函数怎么计算
    • 依赖关系(rdd的依赖关系是什么

      在这里插入图片描述

NarrowDependency窄依赖

  • 如:map/flatmap/filter/union/join

    在这里插入图片描述

ShuffleDependency宽依赖

  • 如: groupBy(xxx)/groupByKey/reduceByKey/join

    在这里插入图片描述

DAG有向无环图

在这里插入图片描述

DAGScheduler[了解]

在这里插入图片描述

TaskScheduler[了解]

在这里插入图片描述

Job

在这里插入图片描述

Stage

  • DAGScheduler根据宽依赖划分Stage

    在这里插入图片描述

TaskSet

在这里插入图片描述

Task

整体图示

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐