Spark - 编程之家

spark--job和DAGScheduler源码

一个job对应一个action操作，action执行会有先后顺序；每个job执行会先构建一个DAG路径，一个job会含有多个stage，主要逻辑在DAGScheduler。spark提交job的源码见（SparkContext.scala的runJob方法）：defrunJob[T,U:ClassTag](rdd:RDD[T],func:(TaskContext,Iter

作者：编程之家时间：2022-09-04

小记---------spark组件与其他组件的比较 spark/mapreduce ;spark sql/hive ; spark streaming/storm

Spark与Hadoop的对比 Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言Hadoop的编程语言是Java 使用Hadoop进行迭代计算非常耗资源Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

作者：编程之家时间：2022-09-04

spark笔记之RDD容错机制之checkpoint

0.checkpoint是什么（1）、Spark在生产环境下经常会面临transformation的RDD非常多（例如一个Job中包含1万个RDD）或者具体transformation的RDD本身计算特别复杂或者耗时（例如计算时长超过1个小时），这个时候就要考虑对计算结果数据持久化保存；（2）、Spark是擅长多步骤迭代的，同时擅长基于Job的复

作者：编程之家时间：2022-09-04

sparksql系列(一)环境搭建

以前公司用的是spark-core，但是换工作后用的多是spark-sql。最近学习了很多spark-sql，在此做一个有spark经验的sparksql快速入门的教程。JDK安装包1.8版本：https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCALA安装包：https://pan.baidu.com/s/17f8AiS2n_g5kiQhxf7XIlAhadoo

作者：编程之家时间：2022-09-04

用java maven项目使用本地文件和HDFS创建RDD

importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function;importorg.apache.spark.api.java.function.Function2;publicclassloca

作者：编程之家时间：2022-09-04

spark教程(九)-sparkSQL 和 RDD-DF-DS 关系

sparkSQL的由来我们知道最初的计算框架叫mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了hive；hive是把类sql的语句转换成mapreduce，解决了开发难的问题，但是hive的底层还是mapreduce，仍然是慢；spark也看到了hive的优势，以hive为中心的一套框架shark

作者：编程之家时间：2022-09-04

怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！大数据开发学习可以按照以下内容进行学习：第一阶段：JavaSE+MySql+Linux学习内容：Java 语言入门

作者：编程之家时间：2022-09-04

spark调优的简单介绍

1）使用高性能序列化类库2）优化数据结构3）对多次使用的RDD进行持久化或Checkpoint4）提高并行度（根据Spark官方的推荐，最优的方案是给集群中的每个cpucore设置2~3个task，也就是task的数量是cpu核的2~3倍。）5）广播共享数据6）数据本地化7）reduceByKey和groupByKey的选择8）shuffle性能优化

作者：编程之家时间：2022-09-04

福利 | 当当满减优惠码！满100-50,200-100,400-230！

程序员之歌在那山的那边海的那边有一群程序猿他们老实又腼腆他们聪明又有钱他们一天到晚坐在那里认真地改bug他们饿了就吃一口方便面噢~可爱的程序员~可爱的程序员~只要一提需求他们就要重新改一遍可是时间只剩下最后一天当这首歌声响起的时候兄弟姐们们发福利发福利发福利发

作者：编程之家时间：2022-09-04

spark教程(五)-action 操作 group 系列

groupBy(f,numPartitions=None,partitionFunc=<functionportable_hash>)：根据条件分组，这个条件是一个函数；输出(key，迭代器)##条件是分组依据，条件不影响最后的输出格式，输出格式仍和原数据相同##如原来是[1，2]，经过分组后分到了第1组，输出是[1,[1，2]],[1,2]完全保留

作者：编程之家时间：2022-09-04

通过简单案例SparkPi分析Spark源码执行逻辑

一.案例SparkPi代码1packageorg.apache.spark.examples23importscala.math.random4importorg.apache.spark.sql.SparkSession56/**Computesanapproximationtopi*/7objectSparkPi{8defmain(args:Array[String]){9valspark=Spar

作者：编程之家时间：2022-09-04

理解Spark运行模式一(Yarn Client)

Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种，其中最为常见的是YARN运行模式，它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。本文作为第一篇，先结合SparkPi程序来说明YarnClient方式的流程。以下是Spark中examples下的SparkPi

作者：编程之家时间：2022-09-04

spark union 特别注意

今天遇到一个很诡异的问题。表Auseridhousecoderesctimeu1code111301表Buseridhousecoderesctimeu2code201302表Cuseridnametypetimeu1大海01303然后对表A进行处理操作表A.createOrReplaceTempView("t1");JavaRDD<Hist

作者：编程之家时间：2022-09-04

spark笔记之Scala中的上下界

1.1. 上界、下界介绍在指定泛型类型时，有时需要界定泛型类型的范围，而不是接收任意类型。比如，要求某个泛型类型，必须是某个类的子类，这样在程序中就可以放心的调用父类的方法，程序才能正常的使用与运行。此时，就可以使用上下边界Bounds的特性；Scala的上下边界特性允许泛型类型是某个类

作者：编程之家时间：2022-09-04

Spark小总结

Spark编程模型RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内

作者：编程之家时间：2022-09-04

spark 变量

driver变量：是没有在算子中的变量。算子都有哪些Transformation：一、输入分区与输出分区一对一型1、map算子2、flatMap算子3、mapPartitions算子4、glom算子二、输入分区与输出分区多对一型

作者：编程之家时间：2022-09-04

spark总结

RDD及其特点1、RDD是Spark的核心数据模型，但是个抽象类，全称为ResillientDistributedDataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3

作者：编程之家时间：2022-09-04

spark面试题-1

原文链接：https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么，有哪些特性？答：RDD（ResilientDistributedDataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据

作者：编程之家时间：2022-09-04

Hadoop概念学习系列之Hadoop、Spark学习路线

1Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，java学习到javase，在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面：推荐李兴华的《java开发实战经典》

作者：编程之家时间：2022-09-04

spark streaming基础

前言sparkstreaming在2.2.1版本之后出现一个类似的实时计算框架StructuredStreaming。引用一句sparkstreamingstructuredstreaming区别博客的原话，建议扩展读下：StructuredStreaming通过提供一套high-level的declarativeapi使得流式计算的编写相比SparkStreaming简

作者：编程之家时间：2022-09-04

spark学习记录-2

spark编程模型======spark如何工作的？1、user应用产生RDD，操作变形，运行action操作2、操作的结果在有向无环图DAG中3、DAG被编译到stages阶段中4、每一阶段作为任务的一部分被执行（一个task对应一个partition分块）========narrowtransformation和widetransformation1,narro

作者：编程之家时间：2022-09-04

spark笔记之RDD的依赖关系

6.1RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrowdependency）和宽依赖（widedependency）。6.2窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女6.3宽依赖宽依赖指的是多个子RDD的Partition会依

作者：编程之家时间：2022-09-04

Hive环境搭建和SparkSql整合

一、搭建准备环境在搭建Hive和SparkSql进行整合之前，首先需要搭建完成HDFS和Spark相关环境这里使用Hive和Spark进行整合的目的主要是：1、使用Hive对SparkSql中产生的表或者库的元数据进行管理（因为SparkSql没有提供相关的功能，官方提供的是和Hive的整合方案，官方之所以不在独立去开

作者：编程之家时间：2022-09-04

ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统

ElasticSearch（下简称ES）是基于Lucene的一个开源搜索引擎产品。Lucene是java编写的一套开源文档检索的基础库，包括词、文档、域、倒排索引、段、相关性得分等基本功能，而ES则是使用了这些库，搭建的一个可以直接拿来使用的搜索引擎产品。直观地理解，Lucene提供汽车零部件，而ES直接卖车。

作者：编程之家时间：2022-09-04

理解Spark运行模式三(STANDALONE和Local)

前两篇介绍了Spark的yarnclient和yarncluster模式，本篇继续介绍Spark的STANDALONE模式和Local模式。下面具体还是用计算PI的程序来说明，examples中该程序有三个版本，分别采用Scala、Python和Java语言编写。本次用Java程序JavaSparkPi做说明。1packageorg.apache.spark.exampl

作者：编程之家时间：2022-09-04

spark sql工作原理、性能优化和spark on hive----转载

一、工作原理剖析二、性能优化1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出明

作者：编程之家时间：2022-09-04

SparkStreaming

SparkStreaming(1)~SparkStreaming编程指南之所以写这部分内容的原因是,无论是网络上可以直接找到的资料,还是出版的书籍种种,版本大都在1.6~2.0不等,且资源零零散散,需要到处百度,搜罗资源.但根据个人开发了一段时间的感觉来看,会遇到的绝大多数问题,都可以在官方文

作者：编程之家时间：2022-09-04

26.Spark创建RDD集合

打开eclipse创建maven项目 pom.xml文件<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http:

作者：编程之家时间：2022-09-04

Spark框架：Win10系统下搭建Scala开发环境

一、Scala环境基础Scala对Java相关的类，接口进行了包装，所以依赖Jvm环境。Jdk1.8scala依赖scala2.11安装版本idea2017.3开发工具二、配置Scala解压版1）注意路径无空格和中文2）配置环境变量添加到path目录%SCALA_HOME%\bin3）检测是否安装配置成功，没错就是这么

作者：编程之家时间：2022-09-04

Apache Spark 3.0 预览版正式发布，多项重大功能发布

2019年11月08日数砖的XingboJiang大佬给社区发了一封邮件，宣布ApacheSpark3.0预览版正式发布，这个版本主要是为了对即将发布的ApacheSpark3.0版本进行大规模社区测试。无论是从API还是从功能上来说，这个预览版都不是一个稳定的版本，它的主要目的是为了让社区提前尝

作者：编程之家时间：2022-09-04