微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

文章 切分 累加单词出现次数

 1 package com.zhoukao2
 2 
 3 import org.apache.spark.{SparkConf, SparkContext}
 4 
 5 
 6 object Demo3 {
 7   def main(args: Array[String]): Unit = {
 8     //创建sparkConf对象
 9     val sparkConf = new SparkConf().setAppName("Demo3").setMaster("local")
10     //创建SparkContext
11     val sc = new SparkContext(sparkConf)
12 
13     val rdd01 = sc.textFile("D:\\IDEA_Maven\\zhoukao2\\src\\main\\resources\\WordCount.txt")
14     //2)将文章内容进行切分成字符串(5分)
15     val rdd02 = rdd01.flatMap(_.split(" "))
16     /*.map((_,5)).reduceByKey(_+_)*/
17     // rdd02.foreach(println(_))
18     //过滤出spark开头的字符串(5分)       5)将处理结果进行累加(5分)
19     val rdd3 = rdd02.filter(_.contains("spark")).map((_, 1)).reduceByKey(_ + _).foreach(println(_))
20 
21     sc.stop()
22     //    rdd3.collect()
23 
24   }
25 
26 }

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐