Dateset对象的创建
环境准备:
打开Hadoop01,Hadoop02,Hadoop03
开启Hadoop环境
start-dfs.sh
start-yarn.sh
cd /export/servers/spark/
bin/spark-shell --master local[2]
一、 Dateset对象的创建
1.从txt文件创建DataSet
val personDs=spark.createDataset(sc.textFile("/spark/person.txt"))
查看
personDs.show()
通过DataFrame得到Dataset
spark.read.text("/spark/person.txt").as[String]
通过Dataset转成DataFrame
spark.read.text("/spark/person.txt").as[String].toDF()
3. 通过SparkSession中的createDataset来创建Dataset
从集合创建DataSet
//定义样例类
case class Person(id:Int, name: String, age: Int)
//导入包支持隐式转换:
import spark.implicits._
//定义集合
val seq1 = Seq(Person(1,"LiMei", 24), Person(2,"WangFang", 16))
//从集合转成dataset
val ds1 = spark.createDataset(seq1)
select()
查询并显示name字段的数据
ds1.select(ds1("name")).show
filter()
查询age>=25的数据
ds1.filter(ds1("age") >= 25).show()
groupBy()
ds1.groupBy("age").count().show()
sort()
按年龄进行降序排列
ds1.sort(ds1 ("age").desc).show()
这就是Dateset对象的创建,希望对学习spark的Dateset的你们有所帮助,喜欢我的分享的,可以点点关注哦~
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。