微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark操作DataFrame方法汇总

1. 读取csv文件变成DataFrame
val data = spark.read.csv("/data/session01.csv")


2.查看df每一列类型
data.dtypes


3.查看df数据
data.show()
 
def show(numRows: Int, truncate: Int, vertical: Boolean): Unit 
参考:http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark.sql.Dataset
vertical true和false的区别: 表格格式的问题
原数据:
year  month AVG('Adj Close) MAX('Adj Close)
1980  12    0.503218        0.595103
1981  01    0.523289        0.570307
1982  02    0.436504        0.475256
1983  03    0.410516        0.442194
1984  04    0.450090        0.483521
data.show(3, false)
结果:
-RECORD 0-------------------
 year            | 1980
 month           | 12
 AVG('Adj Close) | 0.503218
 AVG('Adj Close) | 0.595103
-RECORD 1-------------------
 year            | 1981
 month           | 01
 AVG('Adj Close) | 0.523289
 AVG('Adj Close) | 0.570307


4. 显示表头(第一行)
data.head()


版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐