Spark - 编程之家

Spark SQL整合hive

SparkSQLSparkSQL整合Hive1.修改Hive配置文件hive-site.xml2.将hive-site.xml复制到sparkconf目录下3.启动hive元数据服务4.将mysql驱动包复制到saprkjars目录下5.启动SparkSQL案例SparkSQL整合Hive1.修改Hive配置文件hive-site.xml在Hive的conf

作者：编程之家时间：2022-09-04

099-Spark-源码-SparkSubmit

SparkSubmit--main --doSubmit //解析参数 --parseArguments //master=>--master=>yarn //mainClass=>--class=>SparkPi(WordCount) --parse --submit --doRunMain --runMain //(childArgs,chil

作者：编程之家时间：2022-09-04

19 Spark on 动态加载属性

Sparkprovidesthreelocationstoconfigurethesystem:Sparkproperties controlmostapplicationparametersandcanbesetbyusinga SparkConf object,orthroughJavasystemproperties.Environmentvariables canbeusedtosetper-machinesettings,suc

作者：编程之家时间：2022-09-04

094-Spark-RDD-累加器

累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。

作者：编程之家时间：2022-09-04

chapter4 批处理系统Spark

目录1设计思想1.1MapReduce的局限性1.2数据模型1.3计算模型2体系架构2.1架构图2.2应用程序执行流程3工作原理3.1Stage划分3.2Stage内部数据传输3.3Stage之间数据传输3.4应用与作业4容错机制4.1RDD持久化4.2故障恢复4.3检查点Spark最初的设计目标是基于内存计算的

作者：编程之家时间：2022-09-04

Spark性能调优知识点分享

1、大数据性能调优的本质编程的时候发现一个惊人的规律，软件是不存在的！所有编程高手级别的人无论做什么类型的编程，最终思考的都是硬件方面的问题！最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行的，并且基于此进行算法实现和性能调优，最后都是回到了硬件！在大数据

作者：编程之家时间：2022-09-04

大三寒假学习 spark学习 Scala面向对编程模式匹配

最常见的模式匹配是match语句，match语句用在当需要从多个分支中进行选择的场景。通配符_相当于Java中的default分支。match结构中不需要break语句来跳出判断，Scala从前往后匹配到一个分支后，会自动跳出判断。另外在模式匹配的case语句中可以使用变量valcoloNum=4val

作者：编程之家时间：2022-09-04

大三寒假学习 spark学习函数定义占位符语法

为了让函数字面量更加简洁，我们可以使用下划线作为一个或多个参数的占位符只要每个参数在函数字面量内仅出现一次下面给出一个示例：valnumList=List(-3,-5,1,6,9)numList.filter(x=>x>0)numList.filter(_>0) 由于运行结果可以看到：x=>x>0与_>0是等价的

作者：编程之家时间：2022-09-04

架构

namenodedatanode yarn spark flink

作者：编程之家时间：2022-09-04

Centos8下安装Spark

1、下载压缩包命令：wgethttps://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz2、解压缩包命令：tar-xzvfscala-2.11.8.tgz3、环境变量配置exportJAVA_HOME=/opt/java/jdk1.8.0_301exportHADOOP_HOME=/opt/Hadoop/hadoop-2.7.3exportHADOOP_CONF_DIR

作者：编程之家时间：2022-09-04

大数据数仓面试流程和重点面试题

一、自我介绍看简历+表达能力2-3分钟左右（学历、参加工作、爱好、特长）二、项目背三、数据仓库1、以数仓为中心不要直接上来说ods、dwd、dws、ads2、范式建模与维度建模的方式区别3、主题划分是否合适4、事实表与维度表的介绍有多少张，哪些缓解进行度量5、总结矩阵6、变

作者：编程之家时间：2022-09-04

088、Spark-RDD-持久化&缓存

1、RDDCache缓存RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action算子时，该RDD将会被缓存在计算节点的内存中，并供后面重用。缓存有可能丢失，或者存储于内存的数据由于内存

作者：编程之家时间：2022-09-04

Spark数据倾斜处理

一、数据倾斜产生的原因sparkjob中绝大多数task执行得非常快，但个别task执行缓慢。或者原本线上运行的job是正常，但在某天由于特殊原因报出OOM的异常，观察发现是因为代码本身造成的。一般来说，发生数据倾斜是在程序进行shuffle的时候，必须将各个节点上相同的key拉取到某个节

作者：编程之家时间：2022-09-04

Spark的Driver和Executor

Spark框架有两个核心组件:Driver和ExecutorDriver:驱动整个应用运行起来的程序,也叫Driver类将用户程序转化为作业（job）在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况Executor:SparkExecutor是集群中工作节点（Worker）中的一个

作者：编程之家时间：2022-09-04

Hanlp分词器(通过spark)

这里主要是对内容数据进行标签处理这里我们是用分词器是HanLPHanLP是哈工大提供的一种中文分词的工具，因为他支持JavaAPI这里我们使用spark+hanlp进行中文分词1、准备工作##1.在hdfs创建目录用于存放hanlp的数据[root@hadoop~]#hdfsdfs-mkdir-p/commonlp/

作者：编程之家时间：2022-09-04

Spark makeRDD方法本地Task的默认分区数

注意setMaster("local")和setMaster("local[*])的分区数是不一样的。*会匹配所有的cpu核数。 importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectSeq_Partition_04{defmain(args:Array[String]):Unit={valsparkConf

作者：编程之家时间：2022-09-04

Spark实验1_Linux系统的安装和常用命令

实验1Linux系统的安装和常用命令一、实验目的（1）掌握Linux虚拟机的安装方法。Spark和Hadoop等大数据软件在Linux操作系统上运行可以发挥最佳性能，因此，本教程中，Spark都是在Linux系统中进行相关操作，同时，下一章的Scala语言也会在Linux系统中安装和操作。鉴于目前很

作者：编程之家时间：2022-09-04

大三寒假学习 spark学习函数定义函数的类型和值

函数字面量：字面量包括整数字面量、浮点数字面量、布尔型字面量、字符字面量、字符串字面量、符号字面量、函数字面量和元组字面量函数字面量可以体现函数式编程的核心理念：在函数式编程中，函数是“头等公民”,可以像任何其他数据类型一样被传递和操作,也就是

作者：编程之家时间：2022-09-04

java maven开发spark demo程序

在完成spark环境安装部署之后，部署过程这里略过，就可以通过java开发spark程序了。1.添加程序依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12<

作者：编程之家时间：2022-09-04

使用spark从kafka读取数据写入ES

0.前情提要简略学习elasticsearch-简书并增加mapping字段timestampPUT/danmaku/_mapping{"properties":{"timestamp":{"type":"date","index":false}}}1.添加maven依赖<dependency>

作者：编程之家时间：2022-09-04

spark中生成RDD时分区规则是怎样的？只需要看getPartitions方法的逻辑就可以了

org.apache.spark.rdd.ParallelCollectionRDD#getPartitionsorg.apache.spark.rdd.HadoopRDD#getPartitions 需要注意的是getPartitions方法的触发时机是在行动算子执行的时候触发：

作者：编程之家时间：2022-09-04

Spark工作原理

Spark简介SparkStreaming基于SparkCore实现了可扩展、高吞吐和容错的实时数据流处理。现在支持的数据源有Kafka、Flume、Twitter、ZeroMQ、Kinesis、HDFS、S3和TCPsocket。处理后的结果可以存储到HDFS、Database或者Dashboard中。SparkStreaming是将流式计算分解成一系列短

作者：编程之家时间：2022-09-04

089、Spark-RDD-检查点

所谓的检查点其实就是通过将RDD中间结果写入磁盘由于血缘依赖过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果检查点之后有节点出现问题，可以从检查点开始重做血缘，减少了开销。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。缓存和检查点

作者：编程之家时间：2022-09-04

Spark

一、Spark初始化Spark初始化主要是要创建一个SprakContext实例，该实例表示与spark集群的连接。可以通过多种方式创建。SparkContext直接使用SparkContext类创建一个spark上下文，主要参数是指定master和appName。frompysparkimportSparkContextsc=SprakContext(master=

作者：编程之家时间：2022-09-04

电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)

项目描述某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据，所以做了脱敏处理，数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角)，尝试探索以下问题：双十一期间，最受消费

作者：编程之家时间：2022-09-04

在Spark Scala/Java应用中调用Python脚本，会么？

摘要：本文将介绍如何在Sparkscala程序中调用Python脚本，Sparkjava程序调用的过程也大体相同。本文分享自华为云社区《【Spark】如何在SparkScala/Java应用中调用Python脚本》，作者：小兔子615。1.PythonRunner对于运行与JVM上的程序（即Scala、Java程序），Spark提供了Python

作者：编程之家时间：2022-09-04

Spark分区

默认采用的是Hash分区缺点：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据Ranger分区要求RDD中的KEY类型必须可以排序自定义分区根据需求，自定义分区

作者：编程之家时间：2022-09-04

六十三、Spark-读取数据并写入数据库

支持的数据源-JDBC需求说明：使用Spark流式计算将数据写入MySQL，并读取数据库信息进行打印文章目录支持的数据源-JDBC项目主体架构pom.xml依赖创建数据库业务逻辑完整代码程序运行项目总结项目主体架构pom.xml依赖<?xmlversion="1.0"encoding="UTF-8"

作者：编程之家时间：2022-09-04

Ubuntu集成Spark

Ubuntu集成Sparkdockerubuntu下载jdk：在opt里创建两个目录：software和modulessoftware用来存放安装包，modules用来存放解压后的文件首先用命令在官网下载jdk：wget'https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz'解压到modules目录下，可以给它

作者：编程之家时间：2022-09-04

数据中台架构

基础设施HDP+私有云+k8s/docker存储组件Hadoop/hive/ELK/GP/Tidb/hbase/kudu离线ETLHQL/spark/presto/kettle实时ETLKafka/cdc/flink/sparkstreamingOLAP分析Kylin/clickhouse/BI数据仓库建模kimball/inmon建模基于sap/wms/crm;sap(mm/sd/fico)流程Od

作者：编程之家时间：2022-09-04