Spark - 编程之家

SparkOperator浅析SparkOperator是Google基于Operator模式开发的一款的工具helmrepoaddspark-operatorhttps://googlecloudplatform.github.io/spark-on-k8s-operatorhelminstallmy-releasespark-operator/spark-operator--namespacespark-operator--create-n

作者：编程之家时间：2022-09-04

spark left join 和 right join 的坑

前言本文隶属于专栏《Spark异常问题汇总》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见Spark异常问题汇总问题描述在开发SparkSQL的时候，遇到了一个问题一个小表3G左右，然后需要leftjoin两个大表，一个150

作者：编程之家时间：2022-09-04

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.HadoopK

启动spark-shell时，报错如下：Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)Vatorg.apache.hadoop.security.HadoopKerberosName.setConfiguration(HadoopKerbero

作者：编程之家时间：2022-09-04

Filter

packagesparkcoreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectDemo03Filter{defmain(args:Array[String]):Unit={//创建spark环境valconf:SparkConf=newSparkConf().setAppName("Filter").setMaste

作者：编程之家时间：2022-09-04

Spark SQL一DataFrame对string类型列进行加1操作

代码如下：packagecom.github.ralgond.sparkjavaapi.sql;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;importstaticorg.apache.spark.sql.functions.col;publicclassSql{ publicstaticvoi

作者：编程之家时间：2022-09-04

Spark集群的三种部署模式

Spark有主要有三种部署模式：Spark独立服务器模式、基于YARN的Spark、基于Mesos的Spark。1.Spark独立服务器模式独立服务器模式使用内置的调度器，因而不需要任何外部调度器，如YARN或Mesos。要以独立服务器模式安装Spark，需要将Spark的二进制安装文件复制到集群的所有机器上。独

作者：编程之家时间：2022-09-04

Consider boosting spark.yarn.executor.memoryOverhead

前言本文隶属于专栏《Spark异常问题汇总》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见Spark异常问题汇总问题描述sparksubmit报错：org.apache.spark.SparkException:Jobabortedduetostagefailure:Task

作者：编程之家时间：2022-09-04

spark streaming 1

packagecom.shujia.spark.streamingimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.dstream.{DStream,ReceiverInputDStream}importorg.apache.spark.streaming.{Durations,StreamingContext}objectDemo1WordCount{defmain(args:Array

作者：编程之家时间：2022-09-04

Note_Spark_Day08：Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)

stypora-copy-images-to:imgtypora-root-url:./SparkDay08：SparkSQL01-[了解]-昨日课程内容回顾上次课程主要讲解3个方面内容：SparkSQL模块概述、DataFrame数据集及综合案例分析。1、SparkSQL模块概述 -发展史【前世今生】 Shark->SparkSQL（1.0）->DataFram

作者：编程之家时间：2022-09-04

SparkOnHive

packagecom.shujia.spark.sqlimportorg.apache.spark.sql.{DataFrame,SaveMode,SparkSession}objectDemo6SparkOnHive{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("submit&quo

作者：编程之家时间：2022-09-04

spark知识点图解

cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请

作者：编程之家时间：2022-09-04

Spark3自适应查询计划Adaptive Query Execution，AQE

动态合并shuffle分区（Dynamicallycoalescingshufflepartitions）动态调整join策略（Dynamicallyswitchingjoinstrategies）动态优化数据倾斜join（Dynamicallyoptimizingskewjoins）参数：spark.sql.adaptive.enabled默认关闭，开启此参数后上述三种策略才会执行1、动态优化

作者：编程之家时间：2022-09-04

spark练习 stu 行转列列转行

packagecom.shujia.spark.sqlimportorg.apache.spark.sql.{DataFrame,SparkSession}objectDemo8Stu{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("stu").master("local

作者：编程之家时间：2022-09-04

Hive、Spark、Impala原理阅读笔记

前言-从Hadoop说起什么是HadoopApacheHadoop软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的），每个机器提供本地计算和存储，而不是

作者：编程之家时间：2022-09-04

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

stypora-copy-images-to:imgtypora-root-url:./SparkDay02：Spark基础环境（二）Hadoop3.0-HDFS https://www.bilibili.com/video/BV1yX4y1K7LqHadoop3.0-MapReduce https://www.bilibili.com/video/BV1Tf4y167U8Hadoop3.0-yarn https://www.bilibili.com/video/BV1

作者：编程之家时间：2022-09-04

Partition

packagecom.shujia.spark.coreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{Partitioner,SparkConf,SparkContext}objectDemo13Patition{defmain(args:Array[String]):Unit={valconf:SparkConf=newSparkConf().setMaster(&

作者：编程之家时间：2022-09-04

spark streaming 2 streaming on RDD

packagecom.shujia.spark.streamingimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.streaming.dstream.ReceiverInputDStreamimportorg.apache.spark.streaming.{Durations,Stream

作者：编程之家时间：2022-09-04

Spark六Shuffle

原文链接：https://0x0fff.com/spark-architecture-shuffle如上图所示，橙色箭头表示shuffle阶段，箭头的起始端称为mapper端，箭头结束端称为reducer。在Spark中，有多种shuffle的实现，它取决于参数spark.shuffle.manager。一共有三个选项：hash,sort,tungsten-sort，其中从Spark1.2.0开

作者：编程之家时间：2022-09-04

spark优化总结

spark优化：一、代码优化：1.避免创建重复的RDD2.对多次使用的rdd进行缓存缓存级别一般使用MEMORY_AND_DISK_SER3.使用高性能的算子（reducebykey，foreachpatition[一般用于和外部数据库进行连接时]，coalelce【合并小文件】）4.避免使用shuffle类的算子5.广播大变量 mapjoin6.优

作者：编程之家时间：2022-09-04

Spark SQL二关于schema

加载csv文件时参数inferSchema会起作用比如下面代码：packagecom.github.ralgond.sparkjavaapi.sql;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;publicclassSql{ publicstaticvoidmain(Strin

作者：编程之家时间：2022-09-04

关于Spark默认并行度spark.default.parallelism的理解

spark.default.parallelism是指RDD任务的默认并行度，Spark中所谓的并行度是指RDD中的分区数，即RDD中的Task数。当初始RDD没有设置分区数（numPartitions或numSlice）时，则分区数采用spark.default.parallelism的取值。Spark作业并行度的设置代码如下：valconf=newSparkConf()

作者：编程之家时间：2022-09-04

Idea开发Spark直接以yarn-cluster模式提交到Ambari集群的解决方案

一.背景介绍许多中小型企业使用Ambari去管理自己的大数据集群，以Spark作为主要的计算框架去实现数据的分析。通用的Spark的开发调试流程是往往需要以下流程：Idea上进行开发，并使用sparklocal模式进行调试。打包程序放到测试分布式环境上进行sparkonyarnclient模式进行调试。使用

作者：编程之家时间：2022-09-04

[spark] spark2.4运行在k8s

准备:ClientVersion:version.Info{Major:"1",Minor:"21",GitVersion:"v1.21.3",GitCommit:"ca643a4d1f7bfe34773c74f79527be4afd95bf39",GitTreeState:"clean",BuildDate:"2021-07-15T21:04:39Z",GoVers

作者：编程之家时间：2022-09-04

spark任务提交流程源码分析

我这里使用spark2.4.4版本；1.入口脚本与入口类进入org.apache.spark.deploy.SparkSubmit类的main方法overridedefmain(args:Array[String]):Unit={valsubmit=newSparkSubmit(){self=>overrideprotecteddefparseArguments(args:Array[

作者：编程之家时间：2022-09-04

Spark的两种核心Shuffle详解

在MapReduce框架中，Shuffle阶段是连接Map与Reduce之间的桥梁，Map阶段通过Shuffle过程将数据输出到Reduce阶段中。由于Shuffle涉及磁盘的读写和网络I/O，因此Shuffle性能的高低直接影响整个程序的性能。Spark也有Map阶段和Reduce阶段，因此也会出现Shuffle。

作者：编程之家时间：2022-09-04

Spark Shuffle和Mapreduce Shuffle

SparkShuffle和MapreduceShuffle的区别MRShuffleMRshuffleSparkShuffle中包括HashShuffle（优化和未优化）、sortShuffle、BypassMergeSortShuffleMRShuffle包括MapShuffle和ReduceShuffle//MRShuffleMap端Shuffle从Map方法之后开始：环形缓冲区刷写、分区排序（分区

作者：编程之家时间：2022-09-04

Spark算子介绍和比较

转换算子1）map（func）：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成.2）mapPartitions(func)：类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RD上运行时，func的函数类型必须是Iterator[T]=>Iterator[U]。假设有N个元素，有M个分区，那

作者：编程之家时间：2022-09-04

spark-sql 笔记

1、get_json_object 返回json键值selectget_json_object('{"a":"dd"}','$.a');ddselectget_json_object('{"b":"c"}','$.a');//json键“b”≠a这里没有返回值➜selectget_json_object('{&quo

作者：编程之家时间：2022-09-04

大数据学习27—— DataSet和DataFrame

DataFrame是spark1.3之后引入的分布式集合，DataSet是spark1.6之后引入的分布式集合。在spark2.0之后，DataFrame和DataSet的API统一了，DataFrame是DataSet的子集（DataSet[Row]），DataSet是DataFrame的扩展。 DataFrameDataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一

作者：编程之家时间：2022-09-04