AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

通过简单案例SparkPi分析Spark源码执行逻辑

时间：2022-09-04分类：Spark作者：编程之家原文地址

一.案例SparkPi代码

 1 package org.apache.spark.examples
 2 
 3 import scala.math.random
 4 import org.apache.spark.sql.SparkSession
 5 
 6 /** Computes an approximation to pi */
 7 object SparkPi {
 8   def main(args: Array[String]) {
 9     val spark = SparkSession
10       .builder
11       .appName("Spark Pi")
12       .getorCreate()
13     val slices = if (args.length > 0) args(0).toInt else 2
14     val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
15     val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>
16       val x = random * 2 - 1
17       val y = random * 2 - 1
18       if (x*x + y*y <= 1) 1 else 0
19     }.reduce(_ + _)
20     println(s"Pi is roughly ${4.0 * count / (n - 1)}")
21     spark.stop()
22   }
23 }

二.执行结果

　　

三.日志分析

　　1.在使用提交命令./run-example SparkPi 10执行案例SparkPi时，根据警告信息可知，因为是local【本地模式】，Spark会先检查本地IP。

　　

　　2.其次，Spark会检测是否配置本地Hadoop及相关log4j等配置，配置会优先加载用户指定的Hadoop，无配置则使用自带的默认Hadoop.

　　

　　3.基本信息检查完之后，开始启动Spark任务，向服务器注册该任务，启动可视化组件acls，开启服务sparkDriver

　　

　　4.Spark开始注册任务调度器和资源管理器

　　

　　5.创建本地临时目录，根据缓存模式缓存数据

　　

　　6.SparkUI开启成功

　　

　　7.开启Spark自带的netty web服务器

　　

　　8.执行计算

　　

　　9.执行成功，关闭SparkUI、任务调度器、资源管理器

　　

四.源码分析

　　1.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展API用来支持高吞吐、高容错的处理流式数据数据源可以是:Kafka、TCPsockets、Flume、Twitter等流式数据源处理数据:可以用SparkCore的算子map、reduce、join、...

作者：编程之家时间：2022-11-24

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这...

作者：编程之家时间：2022-11-11

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说...

作者：编程之家时间：2022-11-11

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“S...

作者：编程之家时间：2022-11-12

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数据分析”，在日常操作中，相信很多人在TSDB的数据怎么利用Hadoop/spark集群做数据分析问题上存在疑惑...

作者：编程之家时间：2022-11-12

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这

作者：编程之家时间：2022-11-12

Hadoop和Spark有什么不同

小编给大家分享一下Hadoop和Spark有什么不同，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们

作者：编程之家时间：2022-11-12

Hadoop和Spark的Shuffle过程有什么不同

这篇文章主要讲解了“Hadoop和Spark的Shuffle过程有什么不同”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习...

作者：编程之家时间：2022-11-12

基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的

本篇文章给大家分享的是有关基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获...

作者：编程之家时间：2022-11-12

Spark中foreachRDD、foreachPartition和foreach的区别是什么

这篇文章主要介绍“Spark中foreachRDD、foreachPartition和foreach的区别是什么”，在日常操作中，相信很多人在Spark中foreachRDD、foreachPartition和foreach的...

作者：编程之家时间：2022-11-12