Spark - 编程之家

公众号（五分钟学大数据）已推出大数据面试系列文章—五分钟小面试，此系列文章将会深入研究各大厂笔面试真题，并根据笔面试题扩展相关的知识点，助力大家都能够成功入职大厂！此面试题来自牛客网友分享的美团优选一面，面试时长一小时。网友情况：海外水本，在某三线中厂工作2年。参考答案由

作者：编程之家时间：2022-09-04

sprak-sql-基础

sql语言分为四类1.数据查询语言DQL(查询语句)2.数据操纵语言DML(删除、创建、更新)3.数据定义语言DDL(创建数据库中的各种对象—–表、视图、索引、同义词、聚簇)4.数据控制语言DCL(数据控制语言DCL用来授予或回收访问数据库的某种特权，并控制数据库操纵事务发生的时间及效果，对

作者：编程之家时间：2022-09-04

Spark中join的类型

Spark的五种JOIN策略解析JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素Spark中JOIN执行的5种策略Spark是如何选择JOIN策

作者：编程之家时间：2022-09-04

spark安装测试

spark安装测试spark安装测试spark-shell使用提交流程分析spark安装测试解压安装：把安装包上传到/opt/soft下,并解压到/opt/module/目录下tar-zxvfspark-2.1.1-bin-hadoop2.7.tgz-C/opt/module然后复制刚刚解压得到的目录,并命名为spark-loc

作者：编程之家时间：2022-09-04

Spark内存管理

Spark内存管理堆内内存，JVM管理堆外内存，操作系统为什么需要堆外内存？因为jvm存在回收不及时，不能精确回收估计内存的问题，容易造成OMM.同时也避免了频繁的GC带来的程序停顿，当然JVM也是由优势的。为什么无法精确回收？因为一个对象创建后，保存在堆中。清除是由JVM处理的，spark只

作者：编程之家时间：2022-09-04

idea开发Spark应用配置pom.xml

pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://ma

作者：编程之家时间：2022-09-04

Spark2.x精通：Shuffle演进历程及Shuffle两阶段划分

一、概述上篇文章：Spark2.x精通：Shuffle原理及对应的Consolidation优化机制，讲解了Spark早期版本的Shuffle原理及其优化，文章结尾也已经提及Spark2.x中已经将HashShuffle废弃，我自己也去看了Spark2.2.0的源码，在Spark-env初始化中只保留了两种Shuffle：Sort、Tungsten-Sort，下面是

作者：编程之家时间：2022-09-04

大数据平台基础架构和常用处理工具-copy

https://blog.csdn.net/qq_27384769/article/details/80159953一、概述数据在线分析处理和常用工具大数据离线处理和常用工具OLAP和OLTP处理和常用处理工具二、数据在线分析处理和常用工具1、Flume介绍Flume专注于大数据的收集和传输，用来解决在线分析处理特点，数据源源不断的

作者：编程之家时间：2022-09-04

spark--扩展:Java编写Spark程序

扩展:Java编写Spark程序前言演示使用JavaAPI编写Spark程序完成WordCount前言Spark的源码是使用Scala编写的,那么开发时肯定是使用Scala进行开发最好,和官方的底层源码"兼容性更好"但是有些公司觉得Scala的学习成本较高,Scala的编码风格太过于简洁,不利于新人上手,不利

作者：编程之家时间：2022-09-04

传统数仓如何转型大数据

转：传统数仓如何转型大数据大家好，我是一哥，前几天建了一个数据仓库方向的小群，收集了大家的一些问题，其中有个问题，一哥很想去谈一谈——现在做传统数仓，如何快速转到大数据数据呢？其实一哥知道的很多同事都是从传统数据仓库转到大数据的，今天就结合身边的同事经历来一起分享一下。一、

作者：编程之家时间：2022-09-04

spark--必备了解

必备了解SparkCore数据抽象RDD五大主要特征RDD数据源创建RDDRDD算子分类Transformations:转换操作,返回值为新的RDD,只会记录转换操作和依赖关系,不会立即执行Actions:动作操作,无返回值或返回值不是RDD(例collect/saveAsTextFile)特别提出来:统计操作RDD宽窄依赖Spar

作者：编程之家时间：2022-09-04

6.2.2 Spark Act触发《KVRDD》创建, 类似map,聚合(重要),排序,JOIN,ACT《输入出》文本,CSV,JSON,Seq,对象,JDBC《算子综合》词数,PAI,广告,共同好友

目录3.6Action3.7Key-ValueRDD操作3.7.1创建PairRDD3.7.2Transformation操作 1、类似map操作 2、聚合操作【重要、难点】 3、排序操作 4、join操作3.7.3Action操作3.8输入与输出3.8.1文件输入与

作者：编程之家时间：2022-09-04

Spark RDD算子之foreachPartition

首先，看如下代码ds.foreachRDD(rdd=>{//此处属于rdd外，在driver端执行//driver和executor数据传输需要序列化rdd.foreach{//rdd里面，在executor执行case((a,b)=>{valconn:Connection=JDBCUt

作者：编程之家时间：2022-09-04

Spark Streaming实时流处理项目实战(七)Spark Streaming入门

SparkStreaming入门概述应用场景集成Spark生态系统的使用SparkStreaming发展史词频统计概述SparkStreaming是核心SparkAPI的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像卡夫卡，室壁运动，或TCP套接字许多来源摄入，并且可以使用与像高级别功能表达

作者：编程之家时间：2022-09-04

SparkCore

文章目录第1章Spark概述1.1Spark是什么1.1SparkandHadoop1.2SparkorHadoop1.3Spark核心模块第1章Spark快速上手2.1创建Maven项目2.1.1增加Scala插件2.1.2增加依赖关系2.1.3WordCount2.1.4异常处理第2章Spark运行环境3.1Local模式3.1.1解压缩文件3.1

作者：编程之家时间：2022-09-04

Hadoop 组件scala，spark部署

1.安装Scala#解压改名[root@masterhome]#tar-zxvfscala-2.10.4.tgz-C/app/[root@masterapp]#mvscala-2.10.4/scala#配置Scala环境变量vi/etc/profileexportSCALA_HOME=/usr/local/software/scalaexportPATH=$PATH:$SCALA_HOME/bin#输入scala，进入sh

作者：编程之家时间：2022-09-04

Spark Shuffle

SparkShuffleshuffle的分区数怎么确定？Map端由初始读取的数据源和算子计算后决定，比如：kafka的分区数Reduce端由spark.default.parallelism决定，如果没有配置，由上一个map的分区数一致Reduce怎么拉取数据？先上图：BlockManager是传输数据MapoutputTracker是通讯流程：MapOutp

作者：编程之家时间：2022-09-04

02 Spark架构与运行流程

1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；(2)选用spark的原因1）应用于流式计算的SparkStreaming;2）应用于即席查询（Ad-hoc

作者：编程之家时间：2022-09-04

解决spark单点故障问题——Spark HA部署

SparkHA的部署过程以及测试结果1.查看zookeeper的zoo.cfg文件2.配置spark-env.sh文件（三个节点)3.单点故障操作简单易懂，手把手带小白用VMware虚拟机安装Linuxcentos7系统Hadoop集群搭建及配置〇——Hadoop组件获取&传输文件Hadoop集群搭建及配置①——

作者：编程之家时间：2022-09-04

01 Spark架构与运行流程

1.阐述Hadoop生态系统中，HDFS,MapReduce,Yarn,Hbase及Spark的相互关系，为什么要引入Yarn和Spark。HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。HBase构建在HDFS之上的分布式，面向列的NoSQL数据库。HBase中保存

作者：编程之家时间：2022-09-04

02 Spark架构与运行流程

1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；(2)选用spark的原因1）应用于流式计算的SparkStreaming;2）应用于即席查询（Ad-ho

作者：编程之家时间：2022-09-04

02 Spark架构与运行流程

02Spark架构与运行流程1.为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；(2)选用spark的原因1）应用于流式计算的SparkStreami

作者：编程之家时间：2022-09-04

Spark——Spark SQL逻辑计划Logical Plan、物理计划Physical Plan和Catalyst优化器Catalyst Optimizer

文章目录TreesRulesSparkSQL中使用CatalystAnalysis逻辑优化（LogicalOptimizations）物理计划（PhysicalPlanning）代码生成（CodeGeneration）参考此篇文章，翻译之DatabricksBlog中的一篇文章——DeepDiveintoSparkSQL’sCatalystOptimizer。SparkSQL的核心是Catalys

作者：编程之家时间：2022-09-04

Spark学习之路一

Spark的系统架构Spark采用master/worker结构，master负责管理应用和任务，worker节点负责执行任务。几个概念Sparkdriver，Spark驱动程序，指的是Spark应用中main函数的进程Executor，Spark执行器，是Spark计算资源的一个单位，Spark先以Executor为单位占用集群资源。然后将具体的任务分

作者：编程之家时间：2022-09-04

最新版Spark 3 HelloWorld

Spark已经发布到3.1.1了,好久没看这个项目了.今天更新下本地仓库,编译下竟然出错了.$mvn compile......[ERROR] [Error] /data/code/github/bigdata/spark/core/src/main/scala/org/apache/spark/SparkContext.scala:403: type mismatch; found : Map[String,org.ap

作者：编程之家时间：2022-09-04

Spark架构与运行流程

1.为什么要引入Yarn和Spark答：普通OS（操作系统）的功能主要是为处理器管理、存储器管理、设备管理、文件管理、作业管理和用户接口。在集群环境下，HDFS已经负责了文件管理，而设备概念较弱，故YARN主要负责统一管理集群内服务器的计算资源（主要包括CPU和内存资源）、作业调度和用户接口

作者：编程之家时间：2022-09-04

Spark-RDD02-行动算子

导言之前和大家说完了Spark-RDD的转换算子还有RDD的行动算子，没有整理，接下来就是对Spark-RDD的行动算子来进行来说明，Spark-RDD行动算子是触发Spark-RDD执行的一个算子，就比如在执行Spark程序中，写了一系列的转换算子来对结果的转换，从而计算出我们想要的结果，但是每次在每个程序

作者：编程之家时间：2022-09-04

Spark架构与运行流程

1、为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；(2)选用spark的原因1）应用于流式计算的SparkStreaming;2）应用于即席查询（Ad-hoc）的

作者：编程之家时间：2022-09-04

StructuredStreaming整合Kafka

实时ETL 准备：每台节点启动zookeeper集群cd/usr/local/zookeeper/bin/./zkServer.shstartmaster上启动kafka：cd/usr/local/kafka_2.12-2.7.0/binkafka-server-start.sh../config/server.properties另开终端：cd/usr/local/kafka_2.12-2.7.0/binkafka-topics.s

作者：编程之家时间：2022-09-04