Spark - 编程之家

1、背景：spark采用了standalone模式，其中master基于zookeeper部署了高可用；zookeeper维护了当前的activemaster信息，以及所属worker信息worker和active master进行通信而spark的启动脚本SPARK_HOME/sbin/start-all.sh脚本里，默认会将启动的worker与本机启动的master进行通信.2

作者：编程之家时间：2022-09-04

简历—面试题2

1、Kafkakafka是一个分布式消息系统。具有高性能、持久化、多副本备份、横向扩展能力。将消息保存在磁盘中，以顺序读写方式访问磁盘，避免随机读写导致性能瓶颈。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。 Kafka集群包含一个或多个服务器，服务器节点称为broker

作者：编程之家时间：2022-09-04

Spark的累加器和广播变量

累加器累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果想实现所有分片处理时

作者：编程之家时间：2022-09-04

Spark Persist与Cache

1.为什么要Cache/persist由于spark中的RDD都是只读不可变的对象，也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。当迭代使用到一个RDD的时候，我们不希望它重新从头trans一遍遍的计算，所以通

作者：编程之家时间：2022-09-04

SparkSQL(一)——概述

什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口，而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点，专门用于访问结构化的数据。sql语句在底层转换成RDD，类似于hql语句在底层转换成mr程序，但是s

作者：编程之家时间：2022-09-04

你知道大数据语言的工具与框架吗？

为了解大数据的当前和未来状态，我们采访了来自28个组织的31位IT技术主管。我们问他们，“你在数据提取，分析和报告中使用的最流行的语言，工具和框架是什么？”以下的文章是他们告诉我们的记录，经过总结如下。Python，Spark，Kafka随着大数据和对人工智能AL/机器学习ML的推动，Scala和Pyt

作者：编程之家时间：2022-09-04

Spark RDD

RDD是Spark提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。通俗点来讲，可以将RDD理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个RDD可以分成多个分区，每个分区就是一个数据集片段

作者：编程之家时间：2022-09-04

一句话描述Hadoop，HDFS，Map Reduce，Spark，Hive，Yarn的关系，入门

转载：https://zhuanlan.zhihu.com/p/52704422Hadoop：Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。不是一个工具，也不是一种技术，是一种技术的合称HDFS：分布式文件系统。传统的文件系统是单机的，不能横跨不同的机器。比如你说我要获取/hdfsmp/file

作者：编程之家时间：2022-09-04

Spark 宽依赖与窄依赖

原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage（按宽依赖划分Stage）窄依赖是指父类分区的数据，被子类RDD中的指定的唯一一个分区消费宽依赖就是子类的分区的数据，要依赖多个父类RDD的分区，由于有Shuffle的存在，只能在parentRDD处理完成后

作者：编程之家时间：2022-09-04

Spark简介及安装

转载自：https://www.cnblogs.com/qingyunzong/p/8886338.html一：Spark简介（一）Spark介绍spark是用于大规模数据处理的统一分析引擎。spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程

作者：编程之家时间：2022-09-04

Spark集群运行与优化

Spark集群上的运行Spark集群采用的是主/从结构，主是驱动器节点driver，其他是工作节点executor，之间通过集群管理器来连接。驱动器在Spark应用有两个职责：把用户程序转为任务。转为多个物理执行的单元，即任务task。驱动器会按DAG图来执行，也会对DAG进行流水线优化，形成一系列stage。每

作者：编程之家时间：2022-09-04

除了Hadoop，其他6个你必须知道的热门大数据技术

你知道新的市场领导者和曾经的领导者之间的关键区别是什么吗?那就是“数据管理”。任何无法处理数据并将其投入使用的企业，很可能会让位给那些能够更好处理数据的。事实上，大数据和其流动性的力量能促使企业发展。大数据是大量数据的术语。由于数据的来源渠道众多，导致其太多样，

作者：编程之家时间：2022-09-04

【Spark】十详解 Spark DataSet

文章目录一、前言二、创建SparkSession三、DataSet/DataFrame的创建四、DataSet基础函数五、DataSet的Actions操作六、DataSet的转化操作七、DataSet的内置函数八、例子：WordCount一、前言Spark的发展史可以简单概括为三个阶段，分别为：RDD、DataFrame和DataSet。在Spa

作者：编程之家时间：2022-09-04

spark Accumulator累加器使用示例

官网http://spark.apache.org/docs/2.3.1dd-programming-guide.html#accumulatorshttp://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark.util.AccumulatorV2Accumulator是spark提供的累加器，累加器的一个常用用途是在调试时对作业执行过程中的事件进行

作者：编程之家时间：2022-09-04

理解和使用spark的flatMap的最好的一个例子

importorg.apache.spark.sql.SparkSessionobjectTest{defmain(args:Array[String]):Unit={valspark=SparkSession.builder.appName("TestApplication").enableHiveSupport().getOrCreate()importspark.implicits._valdata=Se

作者：编程之家时间：2022-09-04

大数据学习路线，0基础小白怎么学习大数据？

·大数据的领域非常广泛，往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多，这同样使得初学者难以选择从何处下手。希望能为你开始学习大数据的征程提供帮助，以及在大数据产业领域找到工作指明道路。一、大数据技术基础1、linux操作基础·linux系统简介

作者：编程之家时间：2022-09-04

SPARK: Spatial-aware Online Incremental Attack Against Visual Tracking

SPARK:Spatial-awareOnlineIncrementalAttackAgainstVisualTracking2020-03-09 23:47:26 Paper: https://arxiv.org/pdf/1910.08681.pdf 1.BackgroundandMotivation:

作者：编程之家时间：2022-09-04

Spark DataFrame基础

目录Spark创建DataFrame的不同方式1.CreateSparkDataFramefromRDD2.从List和Seq集合中创建SparkDataFrame3.从CSV文件创建SparkDataFrame4.从text文件创建5.从JSON文件创建6.从XML文件创建9.从HBase创建DataFrameSpark创建DataFrame的不同方式本文

作者：编程之家时间：2022-09-04

Spark启动时报错localhost: failed to launch: nice -n 0 /home/chan/spark/spark-2.4.3-bin-hadoop2.7/bin/spar

启动报错提示如图：localhost:failedtolaunch:nice-n0/home/chan/spark/spark-2.4.3-bin-hadoop2.7/bin/spark-classorg.apache.spark.deploy.worker.Worker--webui-port8081spark://Hadoop:7077localhost:JAVA_HOMEisnotsetlocalhost:fulllogin/home/chan/sp

作者：编程之家时间：2022-09-04

Spark与Flink对比

Spark缺点无论是SparkStreaming还是StructuredStreaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为Spark的流处理是基于所谓微批处理(Micro-batchprocessing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时

作者：编程之家时间：2022-09-04

Spark运行原理大白话笔记

spark运行原理讲解的是spark在运行期间集群中的节点是怎么接收任务和处理任务的具体的步骤如下：1、在客户端通过命令提交一个job任务的时候，Driver就会启动相关的节点进行工作2、客户端的driver会向master注册资源。在这两步中，driver的角色实际上就是通知集群有任务了，开始干活，而具体

作者：编程之家时间：2022-09-04

大数据开发工程师面试题 20.04.14

概述本篇博客将收集总结一些，本博主面试大数据开发工程师岗位遇到的面试题，虽然不一定高频，但是也算经验之谈，希望对各位有所帮助。一1.什么是SparkRDDRDD：弹性分布式数据集(ResilientDistributedDataSet)。Spark中最基本的数据抽象是RDD。创建RDD方法两种：1.Driv

作者：编程之家时间：2022-09-04

Dolphin Scheduler启动包含spark类型的任务失败

任务实例日志只有一行：[INFO]2020-04-0116:49:37.498 -[taskAppId=TASK-22-424-438]:[109]- ->sudo:/usr/bin/sudomustbeownedbyuid0andhavethesetuidbitset 解决办法：https://blog.csdn.net/zhouguangfei0717/article/details/82768474 要点：cho

作者：编程之家时间：2022-09-04

Spark 共享变量之——Accumulator累加器

一、简介为了方便的统计和管理一些共同信息，Spark中定义了两种共享变量——Broadcast（广播变量）和Accumulator（累加器），可以方便的把一些变量或数据共享给集群各个节点，今天来看看Accumulator。Accumulator是由Driver端总体维护的，读取当前值也是在Driver端，各个Task在其所在的Executor

作者：编程之家时间：2022-09-04

记一次--------spark.driver.host参数报错问题

报错日志：20/03/2510:28:07WARNUserGroupInformation:PriviledgedActionExceptionas:root(auth:SIMPLE)cause:org.apache.spark.SparkException:ExceptionthrowninawaitResultExceptioninthread"main"java.lang.reflect.UndeclaredThrowableExceptio

作者：编程之家时间：2022-09-04

【Spark】Spark基础练习题

为大家带来一些Spark的算子练习题，帮助大家巩固算子的用法！题目如下

作者：编程之家时间：2022-09-04

记一次--------sparkSQL程序local模式运行不起来，增加参数配置spark.locality.wait

问题：跑本地模式一直卡在下图最下面日志部分30分钟不动查看运行日志一直卡在箭头处不动，没有任何报错。因为处理逻辑只是简单的sparksql两个表leftjoin， union，having等简单的函数操作。测试环境数据仅有3w条。虽然将程序打包到集群，但还是跑的local模式，下面

作者：编程之家时间：2022-09-04

Spark 自定义UDF

●需求有udf.txt数据格式如下：Helloabcstudysmall 通过自定义UDF函数将每一行数据转换成大写selectvalue,smallToBig(value)fromt_word packagecn.itcast.sqlimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.{Dataset,SparkSession}

作者：编程之家时间：2022-09-04

Linux下搭建PySpark环境

linux版scala：https://downloads.lightbend.com/scala/2.11.0/scala-2.11.0.tgzlinux/windows通用版spark：https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgzlinux/windows通用版hadoop：https://mirrors.tuna.tsinghua.edu.cn/apache/ha

作者：编程之家时间：2022-09-04

Spark UDAF 自定义函数

需求有udaf.json数据内容如下{"name":"Michael","salary":3000}{"name":"Andy","salary":4500}{"name":"Justin","salary":3500}{"name":"Berta","salary&q

作者：编程之家时间：2022-09-04