scala
linux 环境
spark 2.4.2
scala 2.12.8 (spark-scala版本通过运行spark-shell查看)
简单运行
目录结构
find .
.
./hw.scala
创建hw.scala文件
object Hi{
def main(args: Array[String]) = println("Hello world")
}
在当前目录下直接运行
sbt
然后sbt>中输入 run
即得到结果
构造项目
目录结构
$ find .
.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala
其中SimapleApp.scala的内容:
需要修改logFile的文件目录
/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def main(args: Array[String]) {
val logFile = "YOUR_SPARK_HOME/README.md"
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println(s"Lines with a: $numAs, Lines with b: $numBs")
sc.stop()
}
}
simple.sbt是配置文件:
注意要有空行
name := "Simple Project"
version := "1.0"
scalaVersion := "2.12.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.4.2"
然后再主目录下
sbt package
最后运行
spark-submit --class “SimpleApp” target/scala-2.12/simple-project_2.12-1.0.jar
Ref:
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。