Spark - 编程之家

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特

作者：编程之家时间：2022-09-04

DataLake — 批流一体化的追风者(2) -- Delta Lake核心原理解析

一、DeltaLake1.DeltaLake基础概述接上文，我们全面地讲解了DataLake相关的概念、对比区别以及实际发展历程等。那么这篇首章开篇我们来讲历史最为悠久的DeltaLake。它的定位是流批一体的存储中间层，支持update/delete/merge。由于出自Databricks，spark的所有数据写

作者：编程之家时间：2022-09-04

Spark调优

RDDRDD的全称是ResilientDistributedDatasets，这是Spark的一种数据抽象集合，它可以被执行在分布式的集群上进行各种操作，而且有较强的容错机制。RDD可以被分为若干个分区，每一个分区就是一个数据集片段，从而可以支持分布式计算。RDD运行时的角色及相关名词有Client、Job、Master、

作者：编程之家时间：2022-09-04

图计算: 使用 Spark Graphx Pregel API 处理分层数据

今天，分布式计算引擎是许多分析、批处理和流应用程序的支柱。Spark提供了许多开箱即用的高级功能（pivot、分析窗口函数等）来转换数据。有时需要处理分层数据或执行分层计算。许多数据库供应商提供诸如“递归CTE（公用表达式）”或“join”SQL子句之类的功能来查询/转换分层数据。

作者：编程之家时间：2022-09-04

Spark+hadoop读取数据源码

packagecom.jack.rdd.create;/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagreements.SeetheNOTICEfile*distributedwiththisworkforadditionalinformation*regardingcopyrightownership.Th

作者：编程之家时间：2022-09-04

Spark SQL知识点与实战

SparkSQL概述1、什么是SparkSQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，SparkSQL使用这些额外的信息去做一些额外的优化，有多种方

作者：编程之家时间：2022-09-04

Hudi错题本

一，Spark读Hudi读不出数据Hudi路径下有数据，但是用spark读不出来原因是Hudi文件没有压缩，只能读RT，不能读RO，修改读方式：.option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY(),DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL()).option(DataSourceReadOptions.BEGIN_

作者：编程之家时间：2022-09-04

Spark提交任务时指定资源

--spark-submit--masteryarn#用yarn来管理资源--deploy-modecluster--executor-cores#每个excutor进程分配多少个内核，一般指定为【3-5】个--num-executors50#一共申请多少个executor进程--executor-memory12G#每个

作者：编程之家时间：2022-09-04

Spark的五种JOIN策略详细

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素Spark中JOIN执行的5种策略Spark是如何选择JOIN策略的影响JOIN操作的因素

作者：编程之家时间：2022-09-04

pandas dataframe 与 spark dataframe 互相转换数据类型应该怎么转换呢？

文章大纲spark2.x版本spark3.2版本及以上参考文献spark2.x版本spark2.4.8版本：https://spark.apache.org/docs/2.4.8/api/python/_modules/pyspark/sql/dataframe.html#DataFrame.toPandasspark3.2版本及以上pyspark如下文档给出了答案：spark3.2版本

作者：编程之家时间：2022-09-04

Ronald Van Loon领衔研发的Hadoop/Spark大数据CCA175认证培训

RonaldVanLoon在数字经济、数字化转型领域得到广泛认可，并赢得众多公司的高度赞赏。此外，他还是英国卫报、Datafloq和DataScienceCentral等众多优秀大数据网站的撰稿人。Hadoop/SparkCCA175由大数据专家RonaldVanLoon领先研发。视频讲授者为信息专家GregWhite格雷

作者：编程之家时间：2022-09-04

spark中的RDD序列化

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要注意的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要1）闭包引入（有闭包就需要进行序列化）序列化方法和属性2）说明Driver：算子以外的代码都是在Driver端执行Ex

作者：编程之家时间：2022-09-04

Spark源码阅读02-Spark存储原理之存储分析

Spark存储分析整体框架存储级别RDD存储调用读数据过程本地读取远程读取写数据过程写入内存写入磁盘整体框架Spark的存储采取了主从模式，即Master/Slave模式，整个存储模块使用RPC的消息通信方式。其中：Master负责整个应用程序运行期间的数据块元数据的管理和维护Sl

作者：编程之家时间：2022-09-04

从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤

从Hadoop迁移到基于云的现代架构（比如Lakehouse架构）的决定是业务决策，而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与Hadoop的关系的原因。当来自技术、数据和业务的利害关系方决定将企业从Hadoop转移出去之后，在开始真正的转变之前，需要考虑TopCo

作者：编程之家时间：2022-09-04

spark中迭代器的使用求最大或最小

groupbykeyimportjava.util.Arrays;importjava.util.List;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaSparkContext;importjersey.repackaged.com.google.common.collect.Lists;impo

作者：编程之家时间：2022-09-04

(四)Spark常用数据准备，重分布，持久化算子

数据准备union 先来说说数据准备阶段的union和sample。union在我们日常的开发中，union非常常见，它常常用于把两个类型一致、但来源不同的RDD进行合并，从而构成一个统一的、更大的分布式数据集。例如，在某个数据分析场景中，一份数据源来自远端数据库，而另一份数据源

作者：编程之家时间：2022-09-04

基于docker的spark分布式与单线程、多线程wordcount的对比实验

1.分布式环境搭建1.1基于docker的spark配置文件docker-compose.ymlversion:'2'services:spark:image:docker.io/bitnami/spark:3environment:-SPARK_MODE=master-SPARK_RPC_AUTHENTICATION_ENABLED=no-SPARK_RPC_ENCRYPTION_ENABLE

作者：编程之家时间：2022-09-04

Exception in thread “main“ java.lang.NoClassDefFoundError: scala/Product$class

一、问题描述Spark任务，通过输入参数配置灵活配置任务运行时间，但是，在一套新代码重报错Exceptioninthread"main"java.lang.NoClassDefFoundError:scala/Product$classatscopt.OptionParser.<init>(options.scala:175)atcom.common.RichOptionParser

作者：编程之家时间：2022-09-04

sparksql read hdfs Exception

问题一：Exceptioninthread"Thread-2"java.lang.NoClassDefFoundError:org/codehaus/janino/InternalCompilerException <dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId>&

作者：编程之家时间：2022-09-04

「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

前言ApacheSpark自2010年面世，到现在已经发展为大数据批计算的首选引擎。而在2020年6月份发布的Spark3.0版本也是Spark有史以来最大的Release，其中将近一半的issue都属于SparkSQL。这也迎合我们现在的主要场景（90%是SQL），同时也是优化痛点和主要功能点。我们

作者：编程之家时间：2022-09-04

大数据学习路线

关注公众号：大数据技术派，回复“资料”，领取1000G资料。本文首发于我的个人博客：大数据学习路线前言要从事计算机行业的工作，不管是什么工作，开发、测试、还是算法等，都是要有一门自己比较熟练的编程语言，编程语言可以是C语言、Java、C++等，只要是和你后续工作所相关的就可以（后续用到

作者：编程之家时间：2022-09-04

Spark主备切换机制原理

Master实际上可以配置两个，那么在spark原生的standalone上也是支持Master主备切换的，也就是说，当ActiveMaster节点挂掉之后，我们可以将StandbyMaster切换为ActiveMasterSparkMaster的主备切换可以基于两种切换机制，一种是文件系统，一种是基于Zookeeper,基于文件系统的机制，是Active

作者：编程之家时间：2022-09-04

SparkStreaming

1、SparkStreaming概述数据处理类型分类静态数据数据源是不变的、有限的、显式离散的多适用于批量计算、离线计算流数据数据是变动的、无限的、连续的多适用于实时计算，能在秒级、秒内处理完成实时数据分类小时级分钟级秒级sparkstreaming是

作者：编程之家时间：2022-09-04

Spark学习<->：设计理念和基本架构

Spark学习-本系列学习书籍《Spark内核设计的艺术：架构设计与实现》--耿嘉安一.本文内容：概括性讲述Spark的设计理念和基本架构二.Spark设计理念1.Spark包含很多子模块，理解这些模块有助于我们掌握Spark的设计思想。Spark的模块按照重要程度可分为核心功能和扩展功能。核心功能是S

作者：编程之家时间：2022-09-04

ApacheCN 大数据译文集 20211206 更新

PySpark大数据分析实用指南零、前言一、安装Pyspark并设置您的开发环境二、使用RDD将您的大数据带入Spark环境三、Spark笔记本的大数据清理和整理四、将数据汇总成有用的报告五、强大的MLlib探索性数据分析六、使用SparkSQL构建大数据结构七、转换和动作八、不

作者：编程之家时间：2022-09-04

Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object

在进行spark与hive互联的时候出现的，启动spark-shell没有任何问题，但是启动hive，查询表和库，就出现这个错误，查看了配置文件，没发现有什么问题，百度下，有人出现了这种问题，是hadoop的配置文件有问题就是图片上的lzo压缩有问题，hive支持lzo压缩，但是spark不支持所以就有问题了只要把hado

作者：编程之家时间：2022-09-04

Spark基础算子map的使用案例

Spark基础算子map的使用案例importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}caseclassStudent(id:Int,name:String,gender:String,age:Int,city:String)caseclassTeacher(id:Int,name:String,gender:String,course:String)o

作者：编程之家时间：2022-09-04

Spark用Java做WordCount案例

importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.FlatMapFunction;importorg.apache.spa

作者：编程之家时间：2022-09-04

培训机构python大纲

一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍)本课程从大数据技术以及Hadoop/Yarn实战的角度，结合理论和实践，全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括：Hadoop/Yarn分布式文件系统DFS；MapReduce的的工作机

作者：编程之家时间：2022-09-04

spark

这里写目录标题一、累加器1、实现原理2、基础编程2.1、系统累加器2.2、自定义累加器二、广播变量1、实现原理2、基础编程三、Spark案例实操1、需求1：Top10热门品类1.1、需求说明1.2、实现方案一1.3、实现方案二1.4、实现方案三2、需求2：Top10热门品类中每个品类的

作者：编程之家时间：2022-09-04