微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大数据之RDD

Spark的算子分为两类:

一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才会真正开始计算;
一类叫做Action(动作);

一个算子会产生多个RDD

RDD(Resilient distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。

一、RDD创建方式

方式一:通过HDFS支持文件系统系统创建,RDD里没有真正要计算的数据,只是记录了一下元数据

在这里插入图片描述


方式二:通过Scala集合或数组以并行化方式创建

在这里插入图片描述

二、RDD特点

1、一台机器上有多个分区;
2、一个函数会作用到一个分区;
3、RDD之间有一系列依赖;
4、如果是key-value类型,会有分区器;
5、RDD会有一个最佳位置;

三、RDD练习

val rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))
val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(*2).sortBy(x

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐