Spark - 编程之家

如题所示，SparkSQL/DataFrame/SparkRDD谁快？按照官方宣传以及大部分人的理解，SparkSQL和DataFrame虽然基于RDD，但是由于对RDD做了优化，所以性能会优于RDD。之前一直也是这么理解和操作的，直到最近遇到了一个场景，打破了这种不太准确的认识。某些场景下，RDD要比DataFrame快，性能有天壤

作者：编程之家时间：2022-09-04

spark12spark任务中资源参数剖析

spark任务中资源参数剖析通过开发工具开发好spark程序后达成jar包最后提交到集群中运行提交任务脚本如下spark-submit\--masterspark:/ode01:7077,node02:7077\--classcom.kaikeba.WordCountOnSpark\--executor-memory1g\--total-executor-cores4\original-sp

作者：编程之家时间：2022-09-04

spark11collect 算子操作剖析

collect算子操作剖析collect算子操作的作用：它是一个action操作，会触发任务的运行它会把RDD的数据进行收集之后，以数组的形式返回给Driver端总结：默认Driver端的内存大小为1G，由参数spark.driver.memory设置。如果某个rdd的数据量超过了Driver端默认的1G内存，对rdd调用c

作者：编程之家时间：2022-09-04

spark13spark的shuffle原理分析、shuffle参数调优

spark的shuffle原理分析shuffle概述Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整

作者：编程之家时间：2022-09-04

Spark单词统计程序在集群上运行

Spark单词统计程序编译打包成jar包，上传到master spark-submit--classnet.togogo.bigdata.spark.wd.WordCount--masterlocal[1]/home/hd/jarsestsparkexample-1.0-SNAPSHOT.jar/words.txt/out上传并执行自动判断中文中文(简体)中文(香港)中文(繁体)英语日

作者：编程之家时间：2022-09-04

spark 编程基础

一、大数据技术涉及的技术层面数据采集，通过etl将结构化、非结构化数据抽取到中间层，进行清洗、转换、加载到数据集市，作为数据分析、数据挖掘和流计算的基础数据存储和管理，通过分布式文件系统、数仓、关系型数据库、NoSql数据库，对数据进行存储和管理数据处理和分析，通过分布式计

作者：编程之家时间：2022-09-04

spark10spark on yarn

sparkonyarnspark程序可以提交到yarn中去运行，此时spark任务所需要的计算资源由yarn中的老大ResourceManager去分配官网资料地址:http://spark.apache.org/docs/2.3.3unning-on-yarn.html环境准备安装hadoop集群安装spark环境注意：这里不需要安装spark集群，只需要解压s

作者：编程之家时间：2022-09-04

Spark-RDD-DAG解析

1.原理说明有向无环图：如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）在Spark中对任务进行排队，形成一个集合就是DAG图，每一个顶点就是一个任务，每一条边代表一个依赖关系通过DAG可以对计算流程进行优化，比如将单一节点的计算操作合并，对涉及s

作者：编程之家时间：2022-09-04

Spark一：Spark简介、生态、应用场景、环境搭建

1Spark基本概念1.1Spark是什么Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集（Scala提供一个称为Actor的并行模型，其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据，该方式被称为：SharedNothing

作者：编程之家时间：2022-09-04

spark项目java与scala相互调用打包

<properties><scala.version>2.11.8</scala.version><spark.version>2.2.0</spark.version></properties><dependencies><dependency><groupId>org.scala-lang&lt

作者：编程之家时间：2022-09-04

spark5通过IDEA开发spark程序

通过IDEA开发spark程序构建maven工程创建src/main/scala和srcest/scala目录添加pom依赖说明：创建maven工程后，设定maven为自己安装的maven，并在确保settings.xml里面设置了镜像地址为阿里云如果下载不下来scala-maven-plugin或者maven-shade-plugin，则自己去网上搜索下载

作者：编程之家时间：2022-09-04

spark14数据倾斜原理和现象分析、解决方案

数据倾斜原理和现象分析数据倾斜概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得

作者：编程之家时间：2022-09-04

Spark 频繁模式挖掘

Spark-FrequentPatternMining官方文档：https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步，这也是近些年数据挖掘领域的活跃研究话题；目录：FP-GrowthFP-GrowthFP-Growth算法基于这

作者：编程之家时间：2022-09-04

distinct

importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectdistinctRDD{defmain(args:Array[String]):Unit={//本地模式valconf:SparkConf=newSparkConf().setAppName("Myscalawordcount").setMas

作者：编程之家时间：2022-09-04

Spark随堂笔记

1.什么spark？Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。-------------------------------------------------------------------------------------------------------2.spark生态sparkcore：spark的核心计算sparksql：对历史数据的交互式查询（即席查询）sparkStrea

作者：编程之家时间：2022-09-04

spark之 Idea操作

一、pom.xml<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.3.4</version></dependency><dependency&g

作者：编程之家时间：2022-09-04

spark处理嵌套json

json文件数据如下：{“avg_orders_count”:[{“count”:1.0,“days”:3},{“count”:0.6,“days”:5},{“count”:0.3,“days”:10},{“count”:0.2,“days”:15},{“count”:0.1,“days”:30},{“count”:0.066,“days”:45},{“count”:0.066,“days”

作者：编程之家时间：2022-09-04

spark系列(二)----shuffle

一.hashShuffle在早期的spark中，其shuffle的机制是hashShuffle。在hashShuffle的过程中，每一个shuffleMapTask都会为每一个reduceTask创建一个bucket缓存，shuffleMapTask会对处理后的数据进行partitioner操作（默认是hashpartition，即对key进行hashcode再将其值与reduceTask数量进

作者：编程之家时间：2022-09-04

Qt for MCUs 1.4 版本发布

来源 https://www.mr-wu.cn/qt-for-mcus-1-4-released/ QtforMCUs1.4版本引入了一个新的字体引擎，该引擎可以显示更多文本，而不会占用大量内存。该版本还包括API的改进和bug的修复，从而增强了可用性和稳定性。借助于QtforMCUs1.4，解决了设计在MCU上运行的嵌入式系统时

作者：编程之家时间：2022-09-04

Spark ML 机器学习之Word2Vec

一.简介Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量；然后，可以将此向量用作预测，文档相似度计算等功能。二.例子在下面的代码段中，我们从一组

作者：编程之家时间：2022-09-04

Spark开发_Spark数据变换-透视(Pivot)

数据变换长表和宽表的变换，使用Spark进行变换，SQL中使用casewhen。涉及维度比较多的时候，采用数据透视的方式进行数据变换在SparkSQL3.0.1中有相关的子句实现了。PIVOT({aggregate_expression[ASaggregate_expression_alias]}[,...]FORcolumn_listIN(exp

作者：编程之家时间：2022-09-04

Spark容错机制

Spark以前的集群容错处理模型，像MapReduce，将计算转换为一个有向无环图（DAG）的任务集合，这样可以通过重复执行DAG里的一部分任务来完成容错恢复。但是由于主要的数据存储在分布式文件系统中，没有提供其他存储的概念，容错过程需要在网络上进行数据复制，从而增加了大量的消耗。所以，分布式编

作者：编程之家时间：2022-09-04

【Spark学习笔记】Spark基本知识

前记入职四个月了，面试的Java工程师，没想到工作是要做数据相关的开发，也是挺无奈。目前主要做Spark相关开发，经过一段时间的学习和使用，对Spark也算是较为熟悉了，故写个笔记整理下自己掌握的Spark知识。一、Spark基础概念1.Spark的特点在Spark出现前，主流的分布式计算框架是MapReduce

作者：编程之家时间：2022-09-04

大数据技术

大数据用到的技术主要就是Hadoop、Spark、Storm三大技术阵营及其下属的生态。根据使用的场景不同，和流行趋势来从3大技术阵营中选择，或者配合使用。l 图说明：蓝色部分，是Hadoop生态系统组件，黄色部分是Spark生态组件，虽然他们是两种不同的大数据处理框架，但它们不是互斥的，Spark与had

作者：编程之家时间：2022-09-04

Ubuntu 16下配置多节点Hadoop和Spark

记录一下配置多节点Hadoop和Spark的过程。建立三个节点node，分别是node0，node1，node2.其中node0作为master节点。三台云虚拟机均为Ubuntu16版本，Hadoop为3.1.4版本，Spark为2.4.7版本。Hadoop首先是下载和配置Hadoop.第一步，更新软件包，安装Javasudoapt-getupdate--fix-missings

作者：编程之家时间：2022-09-04

MapReduce与Spark和Flink三者的比较

作者介绍：TNTEVE，狐小E资深开发工程师，专注移动协同办公平台的SAAS软件开发以及轻应用开发最近开发了一款移动办公软件狐小EMapReduce MapReduce是编程模型，也是计算框架。开发人员基于MapReduce编程模型进行编程开发，然后将程序通过MapReduce计算框架分发到Hadoop集群中运行

作者：编程之家时间：2022-09-04

spark17DAG有向无环图、stage划分、spark任务调度及运行架构

DAG有向无环图生成DAG是什么DAG(DirectedAcyclicGraph)叫做有向无环图（有方向,无闭环,代表着数据的流向），原始的RDD通过一系列的转换就形成了DAG。下图是基于单词统计逻辑得到的DAG有向无环图DAG划分stage（★★★★★)stage是什么一个Job会被拆分为多组Task，每组任务被称为一

作者：编程之家时间：2022-09-04

Mac部署spark2.4.4

环境信息操作系统：macOSMojave10.14.6JDK：1.8.0_211(安装位置：/Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk/Contents/Home)前提条件请参考《Mac部署hadoop3(伪分布式)》一文，在Mac上事先部署好hadoop3部署步骤安装scala：brewinstallscala配置scala的环境变

作者：编程之家时间：2022-09-04

NameNode、DataNode和MapReduce运行原理

一、Namenode1.作用 ①负责元数据的存储 ②负责接受和处理客户端的请求 ③负责接受DN上报的信息 ④和DN保持心跳，向DN下达命令2.元数据包含两部分 ①文件的属性(保存在edits+fsimage) ②块的位置信息(由DN启动后自动上报，动态生成)3.存储元数据的文件①edits文件：NN启动后，客

作者：编程之家时间：2022-09-04