Spark - 编程之家

Spark-Core RDD中数据共享

我们进行Spark进行编程的时候，初始化工作是在driver端完成的，而实际的运行程序是在executor端进行，所以就涉及到了进程间的通讯，数据是需要序列化的1、传递函数importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDobjectSerDemo{defmai

作者：编程之家时间：2022-09-04

Spark-Core RDD依赖关系

scala>varrdd1=sc.textFile("./words.txt")rdd1:org.apache.spark.rdd.RDD[String]=./words.txtMapPartitionsRDD[16]attextFileat<console>:24scala>valrdd2=rdd1.flatMap(_.split(""))rdd2:org.apache.spark.rdd.RDD

作者：编程之家时间：2022-09-04

spark调优篇-oom 优化(汇总)

spark之所以需要调优，一是代码执行效率低，二是经常OOM 内存溢出内存溢出无非两点：1.Driver内存不够2.Executor内存不够Driver内存不够无非两点：1.读取数据太大2.数据回传Executor内存不够无非两点：1.map类操作产生大量数据，包括map、flatMap、filter、mapPart

作者：编程之家时间：2022-09-04

Spark RDD的弹性到底指什么

RDD（ResilienntDistributedDatasets）抽象弹性分布式数据集对于Spark来说的弹性计算到底提现在什么地方？自动进行内存和磁盘数据这两种存储方式的切换Spark可以使用persist和cache方法将任意RDD缓存到内存或者磁盘文件系统中。数据会优先存储到内存中，当内存不足以存放RDD

作者：编程之家时间：2022-09-04

2.Spark 2.x 集群部署和测试

配置免密度登录执行ssh-keygen-trsa#建立ssh目录,一路敲回车，生成的密钥对id_rsa，id_rsa.pub，默认存储在~/.ssh目录下 chmod755.ssh#赋予755权限cd.ssh#ls–lid_rsaid_rsa.pub cat~/.ssh/id_rsa.pub>>~/.ssh/author

作者：编程之家时间：2022-09-04

sparksql 报错Container killed by YARN for exceeding memory limits. xGB of x GB physical memory used. C

对此提高了对外内存spark.executor.memoryOverhead =4096m 重新执行sql改报下面的错误19/12/2515:49:02ERRORShuffleBlockFetcherIterator:Failedtogetblock(s)frombigdata-datanode:7339io.netty.util.internal.OutOfDirectMemoryError:failedtoallocate

作者：编程之家时间：2022-09-04

spark阅读调试环境搭建

我是参考这边博客搭建spark环境，同时整理了一些遇到的问题准备环境从github上下载spark相关版本的代码可以通过git来下载，也可以选择相应的版本打包下载到本地，然后解压安装scala（这里选择的版本，需要根据下载的spark源码版本中依赖的scala大版本）安装jdk（jdk1.8以上，这个可以根据

作者：编程之家时间：2022-09-04

spark 笔记4 sparkRDD

目录sparkRDD关于sparkRDD基本概念学习对于RDD的基本操作主从节点的启动spark的初始化RDD创建调用parallelize()方法并行化生成RDD使用外部存储中的数据集生成RDD正式的、RDD的基础操作总结基本编程步骤总结没有做的实践操作导入并使用jar包集成编译环境下的

作者：编程之家时间：2022-09-04

spark异常篇-OutOfMemory:GC overhead limit exceeded

执行如下代码时报错#encoding:utf-8frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSparkSessionconf=SparkConf().setMaster('yarn')sc=SparkContext(conf=conf)spark=SparkSession(sc)rdd=spark.read.csv('/spark/gps/GPS1.

作者：编程之家时间：2022-09-04

【SparkSQL】在IDEA中使用、创建DF、DF的操作(cache)、自定义函数、DF外部数据源(自定义)、DF与DS转换、DF/DS/RDD的区别、Catalog查看元数据信息

目录一、在IDEA中使用二、创建DF1、通过格式文件创建DF2、通过文本文件创建DF2.1、反射的方式2.2、编程的方式三、DF的操作(cache)1、常用操作2、DF的cache操作四、SparkSQL自定义函数五、DF外部数据源1、（内置）读写parquet/json/

作者：编程之家时间：2022-09-04

编译+远程调试spark

一编译以spark2.4hadoop2.8.4为例1，spark项目根pom文件修改 pom文件新增<profile><id>hadoop-2.8</id><properties><hadoop.version>2.8.4</hadoop.version></properties></profile>2，在sparkhome目录下执行

作者：编程之家时间：2022-09-04

spark2.3 消费kafka数据

官网介绍http://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html#creating-a-direct-stream 案例pom.xml依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId&

作者：编程之家时间：2022-09-04

Spark及生态圈概述(Spark基础篇一)

目录Spark介绍Spark生态组件介绍Spark特点Spark适合场景Spark与hadoop一、Spark介绍 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据

作者：编程之家时间：2022-09-04

Spark安装

1spark安装前要有Java环境和Scala,注意spark和scala的版本一点要对应上,可以取官网查看2去官网下载spark包,下载spark-2.2.2-bin-hadoop2.7.tgz这种结构的,spark-2.2.2.tgz这是源码,安装后无法运行.3sudotar-xzvfspark-2.2.2-bin-hadoop2.7.tgz&&sudomvspark-2.2.2-b

作者：编程之家时间：2022-09-04

安装spark遇到的问题

1.启动sparkSQL时,报错:Causedby:org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException:Thespecifieddatastoredriver("com.mysql.jdbc.Driver")wasnotfoundintheCLASSPATH.PleasecheckyourCLASSPATHspecification,a

作者：编程之家时间：2022-09-04

Spark SQL的官网解释

一.官网位置1.位置2.解释官网位置DataSet1.6出现的SchemaRDD<1.31.3版本前叫SchemaRDD1.3以后叫DataFrameDataSet支持Scala,JAVA不支持pythonDataFrame支持四种JAVA,Scala.Python,RDataFrame:并不是sparksql独创的，原来就有的，从其他框架借鉴过来的二.

作者：编程之家时间：2022-09-04

spark调优篇-spark on Yarn 内存管理总结

本文旨在解析sparkonYarn的内存管理，使得spark调优思路更加清晰内存相关参数spark是基于内存的计算，spark调优大部分是针对内存的，了解spark内存参数有也助于我们理解spark内存管理spark.driver.memory：默认512Mspark.executor.memory：默认512Mspark.yarn.am.me

作者：编程之家时间：2022-09-04

分布式深度学习Spark MLlib，Parameter Server、Ring-allreduce和Tensorflow

SparkMLlibSpark分布式计算原理Spark（分布式的计算平台），分布式：指计算节点之间不共享内存，需要通过网络通信的方式交换数据。Spark最典型的应用方式是建立在大量廉价计算节点（廉价主机、虚拟的dockercontainer）上；但这种方式区别于CPU+GPU的架构和共享内存多处理器的高性能服务器架构

作者：编程之家时间：2022-09-04

spark集成kafka数据源

1、spark集成的KafkaUtils.createStream已经过期，这个是SparkIntegrationForKafka0.8里集成的。替代的是SparkIntegrationForKafka0.10，已经没有createStream函数，采用createDirectStream，区别是直连kafka服务器，而不是连接zookeeper。2、依赖<

作者：编程之家时间：2022-09-04

Spark原理及关键技术点

SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，

作者：编程之家时间：2022-09-04

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉

作者：编程之家时间：2022-09-04

Spark 数据倾斜及其解决方案

本文首发于vivo互联网技术微信公众号https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA作者简介：郑志彬，毕业于华南理工大学计算机科学与技术（双语班）。先后从事过电子商务、开放平台、移动浏览器、推荐广告和大数据、人工智能等相关开发和架构。目前在vivo智能平台中心从事A

作者：编程之家时间：2022-09-04

spark临时表导入hive出现null

Dataset<Row>json=sparkSession.read().json(lines);//创建临时表json.createOrReplaceTempView("temp");sparkSession.sql("select*fromtemp").show()//将临时表数据写入hivesparkSession.sql("createtablefsasselect*fromtemp&quot

作者：编程之家时间：2022-09-04

Spark算子

1.什么是SparkRDD算子:总的来讲RDD是Spark最小的数据抽象，每一个rdd算子都拥有五个主要的属性:1.RDD拥有一组分区2.RDD拥有计算分区数据的功能3.一组其他RDD的依赖4.对于key-value格式的RDD，可以自定义分区5.RDD更喜欢在数据本地计算数据(即移动计算而非移动数据)2.RDD算子:

作者：编程之家时间：2022-09-04

如果你在准备面试，就好好看看这130道题

这些题目是一个知识星球的球友发给我的，其中有几个题帮着解答了一下。希望对大家有帮助。如果你不知道如何准备面试，那么看看这个。年假马上来临，我相信有不少读者都在准备或者考虑面试，无论如何不妨收藏一下。如果你某个题目不知道答案，那么就去搜一下，如果搜不到，在公众号回复【加群

作者：编程之家时间：2022-09-04

Spark数据倾斜及解决办法

数据倾斜在执行shuffle操作过程中，map端按照key分配数据输出，reduce端同样也按照key进行拉取、聚合。通常每一个key对应的数据量不对等，经常出些某些key数据量比其他key多很多。这种现象导致的后果，轻则拖慢job执行时间（执行时间由最慢的task决定），重则直接OOM（数据量太大，处理完成

作者：编程之家时间：2022-09-04

Spark union

比如两个rdd两个分区合并去他们的并集intersection去数据的交集subtract去差集mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器distinct去重(map+reducebykey+map)cogroup作用在keyv格式上的算子宽依赖产生shuffer也就是说

作者：编程之家时间：2022-09-04

Spark与Hadoop相比的优点

Spark与Hadoop相比的优点4大特点首先，Spark把中间数据放到内存中，迭代运算效率高。MapReduce中计算结果需要落地，保存到磁盘上，这样势必会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。（延迟加载）其次，Spark容错性

作者：编程之家时间：2022-09-04

Spark VectorSlice 向量切片

1、概念VectorSlicer是一种转换器，它接受特征向量并输出带有原始特征子数组的新特征向量。这对于从向量列中提取特征很有用。VectorSlicer接受具有指定索引的向量列，然后输出一个新的向量列，其值通过这些索引选择。索引有两种类型，整数索引，代表向量setIndices（）的索引。

作者：编程之家时间：2022-09-04

Spark DataFrame、Spark SQL、Spark Streaming入门教程

文章目录前言1、RDD、SparkDataFrame、SparkSQL、SparkStreaming2、SparkDataFrame2.1创建基本的SparkDataFrame2.2从各类数据源创建SparkDataFrame2.3SparkDataFrame持久化数据2.4Dataframe常见的API3、SparkSQL4、SparkStreaming实时计算TCP端口的数据前言

作者：编程之家时间：2022-09-04