微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark 累加器

文章目录

实现原理

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

基础编程

系统累加器

val rdd = sc.makeRDD(List(1,2,3,4,5))
// 声明累加器
var sum = sc.longAccumulator("sum");
rdd.foreach(
 num => {
 // 使用累加器
 sum.add(num)
 } )
// 获取累加器的值
println("sum = " + sum.value)

注意:如果是转换算子调用累加器(比如map),如果没有行动算子的话,那么不会执行!累加器一般在行动算子中执行。

自定义累加器

package acc

import org.apache.log4j.{Level, Logger}
import org.apache.spark.util.AccumulatorV2
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object Spark01_Acc {
  def main(args: Array[String]): Unit = {

    Logger.getLogger("org").setLevel(Level.ERROR)

    val conf = new SparkConf().setMaster("local").setAppName(this.getClass.getName)

    val sc = new SparkContext(conf)

    val list = List("Hello", "Spark", "Hadoop", "Scala", "Hello")

    val inputRDD = sc.makeRDD(list)

    //创建累加器对象
    val wcACC = new MyAccumulator()

    //注册累加器
    sc.register(wcACC, "WordCount")

    inputRDD.foreach(
      word => {
        wcACC.add(word)
      }
    )

    //输出累加器的值

    //获取累加器累加的结果
    println(wcACC.value)

    sc.stop()


  }

  /**
   * 自定义数据累加器,继承AccumulatorV2 定义泛型
   * in : 累加器输入的数据类型 String
   * out : 累加器返回的数据类型 mutable.Map(String,Long)
   *
   */
  class MyAccumulator extends AccumulatorV2[String, mutable.Map[String, Long]] {

    //初始值
    private var wcMap = mutable.Map[String, Long]()

    //初始状态,判断是否为初始状态
    override def isZero: Boolean = {
      wcMap.isEmpty
    }
	//复制累加器
    override def copy(): AccumulatorV2[String, mutable.Map[String, Long]] = {
      new MyAccumulator()
    }

    //重置累加器,顾名思义,清空即可
    override def reset(): Unit = {
      wcMap.clear()
    }

    //获取累加器需要计算的值
    override def add(word: String): Unit = {
      val newCnt = wcMap.getorElse(word, 0L) + 1
      wcMap.update(word, newCnt)
    }

    //Driver合并多个累加器
    override def merge(other: AccumulatorV2[String, mutable.Map[String, Long]]): Unit = {
      val map1 = this.wcMap
      val map2 = other.value

      map2.foreach {
        case (word, count) => {
          val newCount = map1.getorElse(word,0L)  + count
          map1.update(word,newCount)
        }
      }
    }

    //累加器结果
    override def value: mutable.Map[String, Long] = {
      wcMap
    }
  }
}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐