前言
DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用sql处理大数据的各种场景。
DataFrame 创建
法一 、从不同类型的文件中加载数据创建DataFrame,spark.read
操作
- spark.read.json(“testJson.json”) 或者spark.read.format(“json”).load(“testJson.json”)
json文件
{"name":"min","age":20,}
{"name":"ho", "age":19}
{"name":"zi", "age":21}
代码:
val dfJson = spark.read.format("json").load("/Users/testJson.json")
dfJson.show()
- spark.read.csv(“testCsv.csv”) 或者spark.read.format(“json”).load(“testCsv.csv”)
csv文件
name,age,phone
min,20
ho,19
zi,21
val dfCsv = spark.read.format("csv").option("header", true).load("/Users/testCsv.csv")
dfCsv.show()
- spark.read.parquet(“testParquet.parquet”) 或者spark.read.format(“parquet”).load(“testParquetparquet”)
parquet文件、代码
val dfCsv = spark.read.format("parquet").option("header", true).load("/Users/testParquet.parquet")
dfCsv.show()
法二、 通过Seq + oDF创建DataFrame
val spark = SparkSession
.builder()
.appName("test")
.master("local")
.getorCreate()
val df = spark.createDataFrame(Seq(
("min", 20),
("ho", 19),
("zi", 21)
)) toDF("name", "age")
df.show()
DataFrame 保存
法一 、从不同类型的文件中加载数据保存DataFrame,spark.write
操作
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。