微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark求平均值

        //求平均 方法一: groupByKey
        textFile.mapToPair(line -> new Tuple2<>(line.split(" ")[0], Integer.parseInt(line.split(" ")[1])))
                .groupByKey()
                .mapToPair(info -> {
                    double sum = 0;
                    double count = 0;
                    Iterator<Integer> it = info._2().iterator();
                    while (it.hasNext()) {
                        sum += it.next();
                        count++;
                    }
                    double ave = sum / count;
                    return new Tuple2<>(info._1(), ave);
                })
                .collect()
                .forEach(System.out::println);

//求平均 方法二: combineByKey
        textFile.mapToPair(line -> new Tuple2<>(line.split(" ")[0], Integer.parseInt(line.split(" ")[1])))
                .combineByKey(score -> new Tuple2<>(score, 1),  // 将score映射为一个元组,作为分区内聚合初始值
                        (t, score) -> new Tuple2<>(t._1() + score, t._2() + 1), //分区内聚合,
                        (a, b) -> new Tuple2<>(a._1() + b._1(), a._2() + b._2()))   //分区间聚合
                .mapToPair(info -> new Tuple2<>(info._1(), info._2()._1()/info._2()._2()))
                .collect()
                .forEach(System.out::println);

data
.map(a => (a._1, (a._2, 1)))
.reduceByKey((a,b) => (a._1+b._1,a._2+b._2))
.map(t => (t._1,t._2._1/t._2._2))

总结:

方法一可读性更好,但是可能存在线程不安全
方法二写法简便
方法三可读性和性能都不错,推荐
PS:也可以采用spark sql进行聚合操作

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐