Spark - 编程之家

2020年寒假假期总结0113

实验三spark和hadoop的安装hadoop的安装在之前的随笔中已经介绍过，此处传送门：https://www.cnblogs.com/heiyang/p/11293969.html接着介绍，spark的安装，不是很难，唯一需要注意的是不同的hadoop版本都有对应的spark版本，下载的时候时候请注意选择。HDFS的常用操作：以前

作者：编程之家时间：2022-09-04

如何用SparkSQL 创建kudu的关联表

从kudu的官方文档中可以看到spark如何集成kudu的。从文档中的demo可以看到，kudu表的创建只能调用NOSQLAPI来实现，无法通过sparksql直接创建一张kudu表。sparksql查询kudu表也是先注册一张临时表后，才能用sql语句查询的。那么有没有方法在sparksql上直接提交一个Create

作者：编程之家时间：2022-09-04

Spark-SQL 面试准备 2

SparkKnowledgeNO.211.RDD缓存：Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。缓存是容错的，如果一个RDD分片丢失，可以通过构建它的transformation自动重构。被缓存的RDD被使用的时，存取速度会被大大加速。一般的executor内存60%做cach

作者：编程之家时间：2022-09-04

【2020/1/15】寒假自学——学习进度报告1

2020快乐！新年开始要有新气象。上学期已经对于分布式大数据计算有些许了解以及操作过hadoop系的很多工具了，而现在的是时候进一步深入了。对于Hadoop系的工具，包括HDFS文件系统和MapReduce分布式计算，这些都是过去用来解决分布计算的基本工具，但实际用起来可以说不算方

作者：编程之家时间：2022-09-04

ubuntu16.04 安装spark

下载http://spark.apache.org/downloads.html 安装1.解压并重命名包tar-xvfspark-3.0.0-preview2-bin-hadoop2.7.tgzmvspark-3.0.0-preview2-bin-hadoop2.7spark 2.在sbin目录下执行bashstart-master.sh在http://ip:8080查看 3.启动slave./star

作者：编程之家时间：2022-09-04

Spark优化笔记

优化杂谈优化点一：资源spark作业在运行的时候能占用多少资源：cpu、memory分配”足够多“的资源，在一定范围内，增加资源和性能提升成正比的SparkonYARN作业跑在规划好的YARN的队列中./bin/spark-submit--classorg.apache.spark.examples.SparkPi\--masteryarn\

作者：编程之家时间：2022-09-04

spark 练习

UDF自定义函数vallen=udf{(str:String)=>str.length}spark.udf.register("len",len)valds=spark.read.json("file:///opt/meitu/bigdata/src/main/data/employees.json")ds.createOrReplaceTempView("employees")ds.show()spark.s

作者：编程之家时间：2022-09-04

spark学习第1天

1.切换目录到/data/目录下，创建名为edu1的目录cd /data/ mkdir /data/edu1 2.切换目录到/data/edu1目录下，使用wget命令，下载webmagic爬虫项目所依赖的lib包cd /data/edu1 wget http://192.168.1.100:60000/allfiles/second/edu1/webmagic-0.7-libs.tar.gz

作者：编程之家时间：2022-09-04

【2020/1/18】寒假自学——学习进度报告3

紧接上一次。这次是对于spark安装的总结。首先便是下载spark。从官网上可以找到用户提供Hadoop环境的安装包，另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。放入虚拟机之后解压缩，修改权限，之后就可以开始配置了

作者：编程之家时间：2022-09-04

Spark大数据-Spark+Kafka构建实时分析Dashboard

Spark+Kafka构建实时分析Dashboard一.框架利用Spark+Kafka实时分析男女生每秒购物人数，利用SparkStreaming实时处理用户购物日志，然后利用websocket将数据实时推送给浏览器，最后浏览器将接收到的数据实时展现，案例的整体框架图如下：详细分析下上述步骤：应用程序将购物日志

作者：编程之家时间：2022-09-04

spark写入mongo，性能提升10倍+

原来代码：finalDf.rdd.repartition(100).foreach(itm=>{valInsertOne=newDocument("app",itm(0)).append("day",itm(1)).append("hour",itm(2)).append("adx",itm(3))//单条插入：mongoConn.withCollectionDo(new

作者：编程之家时间：2022-09-04

Spark ChiSqSelector 卡方选择器

1、概述卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。注意：卡方检验针对分类变量。卡方检验来选

作者：编程之家时间：2022-09-04

【Spark】RDD基础

RDD基础概念：RDD：弹性分布式数据集，解决的问题：并行迭代计算中进行数据共享。点赞收藏分享文章举报我是旺领导发布了41篇原创文章·获赞1·访问量3868私信关注

作者：编程之家时间：2022-09-04

spark-submit提交任务到集群，分发虚拟环境和第三方包

spark-submit提交任务的参数很多：Usage:spark-submit[options]<appjar|pythonfile>[apparguments]Usage:spark-submit--kill[submissionID]--master[spark://...]Usage:spark-submit--status[submissionID]--master[spark://...]Usage:spark-submitr

作者：编程之家时间：2022-09-04

0485-如何在代码中指定PySpark的Python运行环境

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github：https://github.com/fayson/cdhproject提示：代码块部分可以左右滑动查看噢1文档编写目的Fayson在前面的文章《0483-如何指定PySpark的Python运行环境》介绍了

作者：编程之家时间：2022-09-04

Spark设置Kryo序列化缓冲区大小

背景今天在开发SparkRDD的过程中出现BufferOverflow错误，查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了，日志建议调大spark.kryoserializer.buffer.max的value，搜索了一下设置keyo序列化缓冲区的方法，特此整理记录下来。20/01/0817:12:55WARNscheduler.TaskSetManager:L

作者：编程之家时间：2022-09-04

Sparksql的介绍以及常见操作

撰写本文的目的：对于sparksql，网上有大量的详细文档，本人针对常用的操作进行一个整理，当然有大多数都是从其他地方搬过来的，包括官方文档以及其他网友的一些分享，一来是通过此次整理加强自己的记忆，二来如果有幸帮到某位网友，那是本人莫大的荣幸，先感谢您的阅读，废话不多说，进入正文：

作者：编程之家时间：2022-09-04

spark 上下游shuffle结果的存放获取

当一个job在DAGScheduler中被分隔为stage，将会根据其内部的shuffle关系将整个job整理出ShuffleMapStage，而最后结果的ResultStage在提交时，将会不断遍历其parentstage，而本身被加入DAGScheduler的等待集合，只在所有parent的stage执行完毕之后才会执行任务流程中的childstage。pr

作者：编程之家时间：2022-09-04

scala-MLlib官方文档---spark.ml package--clustering+model selection and hyperparameter tuning

六、clusteringK-meansk均值是最常用的聚类算法之一，它将数据点聚集成预定数量的聚类。MLlib实现包括k-means++方法的并行变体，称为kmeans||。KMeans被实现为Estimator，并生成KMeansModel作为基础模型。1)InputandOuputs(输入参数和输出参数)示例代码importorg.ap

作者：编程之家时间：2022-09-04

寒假自学进度报告1

今天主要学习了对spark的初步认识以及相应名词的理解包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点、Spark各种概念之间的相互关系Hadoop是基于磁盘的大数据计算框架 Spark是基于内存计算的大数据并行

作者：编程之家时间：2022-09-04

【2020/1/18】寒假自学——学习进度报告4

上次是安装完成了，这次就来试试Spark的基本操作。首先是运行Spark自带的实例SparkPi。在配置好环境变量的时候可以直接运行，但可以看到虽然运行成功但信息太过复杂，所以检索之后—— 虽然计算结果有所偏差，但多少能证明Spark的计算能力可以使用。

作者：编程之家时间：2022-09-04

Spark-思维导图

点赞收藏分享文章举报爱吃芝麻发布了95篇原创文章·获赞0·访问量1030私信关注

作者：编程之家时间：2022-09-04

kafka整合sparkStreaming及优化

packagestreamingimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.spark.streaming.dstream.InputDStreamimportorg.apache.spark.streaming.kafka010._importorg.apa

作者：编程之家时间：2022-09-04

【Spark】Spark常用方法总结1-创建编程入口Python版本

前言今天有时间，将自己的笔记分享出来，方便同僚查阅。不断详细与更新中。为了方便，例子都是以Python写的，后续也会有其他语言的版本。创建编程入口SparkContext入口frompysparkimportSparkConf,SparkContextif__name__=='__main__':conf=SparkConf().setApp

作者：编程之家时间：2022-09-04

spark生态体系了解学习二

Spark的处理速度要比Hadoop快100倍以上。Spark在批处理和流式处理上都具有极佳的性能。这是因为Spark使用了一种叫DAG的最佳调度，以及查询优化和物理执行引擎。可以使用Java,Scala,Python,R,SQL快速写一个Spark应用。Spark提供了超过80中操作使它更容易生成平行化的应用。它也可

作者：编程之家时间：2022-09-04

Spark学习9 Spark Streaming流式数据处理组件学习

目录SparkStreaming相关概念概述SparkStreaming的基本数据抽象DStream处理模式操作流程中细节StreamingContextStreamingContext对象的创建StreamingContext主要用法输入源DStream两种转化无状态转化操作有状态转化操作输出操作实践（最简单的wordCount）创建Str

作者：编程之家时间：2022-09-04

Spark好在哪里

RDD的几种存储方式的选择RDD是内存迭代，MapReduce每轮迭代要读写磁盘；通过记录数据集的一些列转换方式来执行这些task，这样一来，某一分片若是丢失，则可以从该RDD的记录中去就近恢复该分片，而不是从头执行！1、RDD是一个只读的、有分区的分布式数据集。其分类主要有两种：transformatio

作者：编程之家时间：2022-09-04

要学习大数据需要掌握哪些技术知识呢?

大数据于公司来讲，就是信息流的来源，下一步发展方向的指南针;大数据于个人来说，就是我们的小金库，足够撑起我们光辉未来的职业!互联网行业正在以迅猛的速度改变着以前的传统行业，巨大的行业人才缺口，这也导致薪资水平直线上升。一般来说，在一线城市，以BAT来说它们企业给应届毕业生

作者：编程之家时间：2022-09-04

Spark学习之路十七Spark分区[转]

分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。为什么要进行分区

作者：编程之家时间：2022-09-04

Spark性能调优-在项目中分配更多的资源

1.分配更多资源性能调优的王道，就是增加和分配更多的资源，性能和速度上会得到很大提升。基本上，在一定的范围之内，增加的资源和性能的提升是成正比的。所以，性能调优的最重要的两步：第一步是增加资源，调节最优的资源配置；第二步，能够分配的资源达到

作者：编程之家时间：2022-09-04