微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

scala spark dataframe添加序号id列

在spark的开发中,经常会出现需要为dataframe添加id列的地方,特别对于一些需要存到关系型数据库中的结果,话不多说,下面直接上代码

1、初始化:

        val sparks = SparkSession.builder
                .master("local[4]")
                .appName("test1")
                .getorCreate()
        val sc = sparks.sparkContext;
2、从MysqL中取一组不带id的数创建dataframe

        val mRecord = sparks.read
                .format("jdbc")
                .option("url", "jdbc:MysqL://127.0.0.1:3306/spark?user=root&password=root")
                .option("dbtable", "(select water from correlation limit 10000) as record") //数据
                .option("driver","com.MysqL.jdbc.Driver")
                .load();
        mRecord.show(false);
结果如下:

3、将dataframe转换为rdd

        val mRdd = mRecord.rdd;
        mRdd.collect().foreach{println};
结果如下:

3、为rdd添加需要列,主要使用zipwithIndex()

        val newRdd = mRdd.map{x => x.toString().substring(1,x.toString().length - 1)}.zipwithIndex();
        newRdd.collect().foreach{println};
结果如下:

4、rdd转回dataframe,注意newRdd中的内容不是string,是tuple

        val rowRdd = newRdd.map(a => Row(a._1.toInt,a._2.toInt));
        val schema = StructType(
            Array(
                StructField("water",IntegerType,true),
                StructField("id",IntegerType,true)
            )
        );
        val resDf = sparks.createDataFrame(rowRdd,schema);
        resDf.show(false);
结果如下:


--------------------- 
 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐