Spark - 编程之家

pysparkspark快速入门懒人版本安装docker安装方式最简单的是直接docker，有一下几个比较快速的安装方式参考：https://github.com/actionml/docker-sparkhttps://github.com/wongnai/docker-spark-standalonehttps://github.com/epahomov/docker-sparkhttps:/owardsdata

作者：编程之家时间：2022-09-04

Spark共享变量---广播变量

前提：在spark环境下，当我们传递一个操作（例如：map,reduce）的函数到远程多个节点上进行运行时，各个节点都需要使用到该函数中的变量。如果变量比较大，如何下发这些变量呢？如果我们使用下面的方式，进行数据下发：即将变量从Driver下发到每一个执行的task中。例如：50个线程executor,1000个tas

作者：编程之家时间：2022-09-04

【待解决】对Spark源码进行编译

./dev/make-distribution.sh—tgz—nameh32hive-Pyarn-Phadoop-3.2.1-Dhadoop.version=3.2.1-Phive-Phive-thriftserver-DskipTests+++dirname./dev/make-distribution.sh++cd./dev/..++pwd+SPARK_HOME=/home/hadoop/spark-2.1.0+DISTDIR=/home/hadoop/spa

作者：编程之家时间：2022-09-04

spark连接mysql

pom<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.

作者：编程之家时间：2022-09-04

Spark推荐系统实战笔记1

一、大数据技术框架二、推荐系统技术栈三、什么是推荐系统1.背景 2.工作原理四、推荐系统的设计 1.需求分析和用户调研2.功能设计 3.界面设计4.架构设计5.算法设计6.系统评测参考文献：【1】Spark大数据互联网

作者：编程之家时间：2022-09-04

Spark 集成 Hive

Hive查询流程及原理执行HQL时，先到MySQL元数据库中查找描述信息，然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive的元数据库，然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hi

作者：编程之家时间：2022-09-04

Spark中groupByKey和reduceByKey的区别

重点比较reduceByKey和groupByKey:相同点：1,都作用于RDD[K,V]2，都是根据key来分组聚合3，默认，分区的数量都是不变的，但是都可以通过参数来指定分区数量不同点：1，groupByKey默认没有聚合函数，得到的返回值类型是RDD[k,Iterable[V]]2，reduceByKey必须传聚合函数得到的返回值类型RDD[

作者：编程之家时间：2022-09-04

Spark Core

Spark的核心是SparkCoreSpark的核心是SparkCore，上面的SparkSql对接的是Hive等结构化查询，SparkStreaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是sparkcore，而Sparkcore的核心就是RDD操作，RDD的操作最重要的是算子。RDD产生背景RDD是S

作者：编程之家时间：2022-09-04

Spark概念理解

driver和executor的参数设置在yarn模式下才会起作用：--driver-cores：Spark应用Driver的CPU核数，Driver主要完成任务的调度以及和executor和clustermanager进行协调。--executor-cores：Spark应用每个Executor的CPU核数，各个executor使用的并发线程数目，也即每个executor最大可并发执

作者：编程之家时间：2022-09-04

Spark -- 对DataFrame增加一列索引列(自增id列)

向导SparkDataFrame添加自增id利用RDD的zipWithIndex算子使用SparkSQL的functionSparkDataFrame添加自增id 在用Spark处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时

作者：编程之家时间：2022-09-04

2、Spark Core职责之初始化1——SparkContext

SparkContext（Spark上下文）/***MainentrypointforSparkfunctionality.ASparkContextrepresentstheconnectiontoaSpark*cluster,andcanbeusedtocreateRDDs,accumulatorsandbroadcastvariablesonthatcluster.**@noteOnlyone`SparkConte

作者：编程之家时间：2022-09-04

Python+Spark2.0+hadoop学习笔记——pyspark基础

在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。1）在本地运行pyspark程序读取本地文件textFile=sc.textFile("file:/usr/local/spark/README.md")textFile.count()读取HDFS文件textFile=sc.textFile('hdfs://master:9000/u

作者：编程之家时间：2022-09-04

工作3年，月薪20k+的大数据开发人员，突然说我不想只做Hadoop、Spark、Flink层面的技术开发

“不管国内或全球“新冠”疫情有多严重、还得持续多久，我只想先保住我的工作，如果降薪，我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就业特训营》23期学员李

作者：编程之家时间：2022-09-04

Spark SQL的Parquet那些事儿

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。SparkSQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当SparkSQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。读写Parquet文件

作者：编程之家时间：2022-09-04

spark程序，创建提交和运行

1、创建一个spark程序1.1基于Maven构建Scala工程 1.2加入Pom.xml 2、spark编程 3、提交到集群运行

作者：编程之家时间：2022-09-04

如何使用python将Spark数据写入ElasticSearch

这里以将Apache的日志写入到ElasticSearch为例，来演示一下如何使用Python将Spark数据导入到ES中。实际工作中，由于数据与使用框架或技术的复杂性，数据的写入变得比较复杂，在这里我们简单演示一下。如果使用Scala或Java的话，Spark提供自带了支持写入ES的支持库，但Python不支持。所以首

作者：编程之家时间：2022-09-04

spark sql的练习题

1、使用StructuredStreaming读取Socket数据，把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使

作者：编程之家时间：2022-09-04

hadoop集群 spark安装

1.前提条件1.1创建3台虚拟机，且配置好网络，建立好互信。1.2Java1.8环境已经配置好1.3Hadoop2.7.7集群已经完成搭建1.4Scala软件包和Spark软件包的下载https://www.scala-lang.org/download/http://spark.apache.org/downloads.html2.安装

作者：编程之家时间：2022-09-04

拉你和国内大厂实力派数据人一起切磋学艺，内推就业也不愁

“不管国内或全球“新冠”疫情有多严重、还得持续多久，我只想先保住我的工作，如果降薪，我也能在短时间找到待遇更好的下一个东家”。 ——《大数据就业特训营》2

作者：编程之家时间：2022-09-04

实战 | 将Apache Hudi数据集写入阿里云OSS

1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案，那么如果用户想基于OSS构建数据湖，那么Hudi是否

作者：编程之家时间：2022-09-04

看了这篇博客，你还敢说不会Structured Streaming？

写在前面：博主是一名软件工程系大数据应用开发专业大二的学生，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错

作者：编程之家时间：2022-09-04

spark 集群优化

只有满怀自信的人，能在任何地方都怀有自信，沉浸在生活中，并认识自己的意志。前言最近公司有一个生产的小集群，专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark流任务失败。本篇记录从应用层面对spark作业进行优化，进而达到优化集群

作者：编程之家时间：2022-09-04

SparkCore：Spark原理初探执行流程图

基本概念名词解释Application：指的是用户编写的Spark应用程序/代码，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Driver：Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，SparkContext负责和ClusterManager通信，进行资

作者：编程之家时间：2022-09-04

Spark基础

什么是Spark基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎。Spark特点快：Spark计算速度是MapReduce计算速度的10-100倍易用：（算法多）MR支持1种计算模型，Spsark支持更多的计算模型。通用：Spark能够进行离线计算、交互式查询（快速查询）

作者：编程之家时间：2022-09-04

centos7安装spark集群

安装前准备：1.3台主机2.安装jdk3.免密登陆开始安装spark1.解压安装包tar-zxvfspark-2.4.5-bin-hadoop2.7.tgz2.修改配置文件cdconfcpspark-env.sh.templatespark-env.shcpslaves.templateslaves修改spark-env.sh追加exportJAVA_HOME=oot/jdk1.8.0_151

作者：编程之家时间：2022-09-04

小白亲绘思维导图，带你重游Spark生态圈!

写在前面：博主是一名软件工程系大数据应用开发专业大二的学生，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错

作者：编程之家时间：2022-09-04

Spark算子调优—基本的算子调优

Spark常见RDD算子调优算子调优一：mapPartitions算子调优二：foreachPartition优化数据库操作算子调优三：filter与coalesce的配合使用算子调优四：repartition解决SparkSQL低并行度问题算子调优五：reduceByKey本地聚合算子调优一：mapPartitions普通的map算子对RDD中的每一个元素进

作者：编程之家时间：2022-09-04

【Spark】Spark基础练习题五

没错，我又来了。。。对，题又来了，准备接招吧！题目如下

作者：编程之家时间：2022-09-04

Spark Streaming

SparkStreaming简介 SparkStreaming架构 SparkStreaming作业提交 SparkStreaming窗口操作 SparkStreaming全局统计量 SparkStreaming容错性分析 WAL工作原理 SparkStreaming消费KafkaDirectApproachDirectApproach和Recever-based

作者：编程之家时间：2022-09-04