微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Dateset对象的创建

Dateset对象的创建

环境准备:
打开Hadoop01,Hadoop02,Hadoop03
开启Hadoop环境

start-dfs.sh
start-yarn.sh

在这里插入图片描述

spark的开启

cd /export/servers/spark/
bin/spark-shell --master local[2]

在这里插入图片描述

一、 Dateset对象的创建

1.从txt文件创建DataSet

val personDs=spark.createDataset(sc.textFile("/spark/person.txt"))

查看

personDs.show()

在这里插入图片描述

2.DataFrame、 Dataset通过“as[ElementType]”方法可以相互转换
通过DataFrame得到Dataset

spark.read.text("/spark/person.txt").as[String]  

在这里插入图片描述


通过Dataset转成DataFrame

spark.read.text("/spark/person.txt").as[String].toDF()

在这里插入图片描述


在这里插入图片描述


3. 通过SparkSession中的createDataset来创建Dataset

从集合创建DataSet
//定义样例类

case class Person(id:Int, name: String, age: Int)

//导入包支持隐式转换:

import spark.implicits._

//定义集合

val seq1 = Seq(Person(1,"LiMei", 24), Person(2,"WangFang", 16))

//从集合转成dataset

val ds1 = spark.createDataset(seq1)

在这里插入图片描述


select()
查询显示name字段的数据

ds1.select(ds1("name")).show

在这里插入图片描述


filter()
查询age>=25的数据

ds1.filter(ds1("age") >= 25).show()

在这里插入图片描述

groupBy()

查询按年龄进行分组,并统计相同年龄的人数

ds1.groupBy("age").count().show()

在这里插入图片描述


sort()
按年龄进行降序排列

ds1.sort(ds1 ("age").desc).show()

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


这就是Dateset对象的创建,希望对学习spark的Dateset的你们有所帮助,喜欢我的分享的,可以点点关注哦~

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐