微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

java – 与csv文件相比,将mysql表转换为spark数据集的速度非常慢

我在亚马逊s3中有csv文件,大小为62mb(114000行).我正在将其转换为spark数据集,并从中获取前500行.代码如下;

DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set=df.load("s3n://"+this.accessId.replace("\"", "")+":"+this.accesstoken.replace("\"", "")+"@"+this.bucketName.replace("\"", "")+"/"+this.filePath.replace("\"", "")+"");

 set.take(500)

整个操作需要20到30秒.

现在我尝试相同但是使用csv我正在使用带有119 000行的MysqL表. MysqL服务器在亚马逊ec2.代码如下;

String url ="jdbc:MysqL://"+this.hostName+":3306/"+this.dataBaseName+"?user="+this.userName+"&password="+this.password;

SparkSession spark=StartSpark.getSparkSession();

sqlContext sc = spark.sqlContext();

DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set = sc
            .read()
            .option("url", url)
            .option("dbtable", this.tableName)
            .option("driver","com.MysqL.jdbc.Driver")
            .format("jdbc")
            .load();
set.take(500);

这需要5到10分钟.
我在jvm里面运行火花.在两种情况下使用相同的配置.

我可以使用partitionColumn,numParttition等但我没有任何数字列,还有一个问题是我不知道该表的模式.

我的问题不是如何减少所需的时间,因为我知道在理想情况下火花将在集群中运行,但我无法理解的是为什么在上述两种情况下这个大的时间差异?

最佳答案:

StackOverflow上已多次覆盖此问题:

> How to improve performance for slow Spark jobs using DataFrame and JDBC connection?
> spark jdbc df limit… what is it doing?
> How to use JDBC source to write and read data in (Py)Spark?

在外部资源中:

> https://github.com/awesome-spark/spark-gotchas/blob/master/05_spark_sql_and_dataset_api.md#parallelizing-reads

所以重申一下 – 认情况下,DataFrameReader.jdbc不会分发数据或读取.它使用单线程,单个exectuor.

分发阅读:

>使用lowerBound / upperBound的范围:

Properties properties;
Lower

Dataset<Row> set = sc
    .read()
    .option("partitionColumn", "foo")
    .option("numPartitions", "3")
    .option("lowerBound", 0)
    .option("upperBound", 30)
    .option("url", url)
    .option("dbtable", this.tableName)
    .option("driver","com.MysqL.jdbc.Driver")
    .format("jdbc")
    .load();

>谓词

Properties properties;
Dataset<Row> set = sc
    .read()
    .jdbc(
        url, this.tableName,
        {"foo < 10", "foo BETWWEN 10 and 20", "foo > 20"},
        properties
    )

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐