spark对单词进行统计,可以有独立模式和集群模式,独立模式下可以直接对单词进行统计 import org.apache.spark.{SparkConf,SparkContext} object WordCount { def main(args: Array[String]): Unit={ val conf =new SparkConf() conf.setAppName("WordCountScala") // conf.setMaster("local[3]") //独立模式 //创建 sparkContext对象 val sc=new SparkContext(conf) //加载文件 //val rdd1=sc.textFile(("file:///G:/downloads/bigdata/wc.txt"),5) //独立模式 val rdd1=sc.textFile(args(0),3) //集群模式 //压扁 val rdd2=rdd1.flatMap(_.split(" ")) //标一成对 val rdd3=rdd2.map((_,1)) //聚合 val rdd4=rdd3.reduceByKey(_+_) var arr=rdd4.collect() arr.foreach(println(_)) } }
a)上传jar到hdfs
hdfs dfs -put myspark.jar /user/hadoop/data
b)执行
spark-submit --master spark://s101:7077 --class WordCountScala --deploy-mode cluster hdfs://mycluster/user/hadoop/data/myspark.jar /user/hadoop/data/wc.txt
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。