Spark - 编程之家

数据质量 — 使用amazon deequ作为spark etl数据质量检测

目前，公司里数据质量检测是通过配置规则报警来实现的，对于有些表需要用shell脚本来封装hivesql来进行检测，在时效性和准确上不能很好的满足，故尝试使用Deequ来做质量检测工具。一、官网示例packageorg.shydow.deequimportcom.amazon.deequ.checks.CheckStatusimportcom.amazo

作者：编程之家时间：2022-09-04

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|------------------------------------------|Spa

作者：编程之家时间：2022-09-04

2022.4.17学习成果

spark1）解压spark安装包到/usr/local/src/目录，并改名为sparkmaster机器：[root@master~]#tar-zxvf/opt/software/spark-2.0.0-bin-hadoop2.6.tgz-C/usr/local/src[root@master~]#mv/usr/local/src/spark-2.0.0-bin-hadoop2.6/usr/local/src/spark 2）将spark目录权限

作者：编程之家时间：2022-09-04

前端生成md5指纹

需注意this指向变化问题importSparkMD5from'spark-md5'handleChangePackage(file,fileList){this.packageList=[]this.packageList=fileListconst_this=thisconstfileReader=newFileReader()constdataFile=

作者：编程之家时间：2022-09-04

hadoop集群+spark集群部署

一、准备1.1软件版本1.2网络规划1.3软件包拷贝1.4SSH设置1.5绑定IP和修改计算机名1.5.1修改/etc/hosts,添加IP绑定，并注释127.0.1.1（不注释会影响hadoop集群）1.5.2修改/etc/hostname,为绑定计算机名。（计算机名和上面hosts绑定名必须一致）1.6SSH无密码登陆(需提前安

作者：编程之家时间：2022-09-04

|NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.

[BigDataHadoop：Hadoop&OLAP数据库管理系统.V16] [Deployment.OLAP数据库管理系统][|Kylin：sparkcore高可用配置|]一、高可用配置：sparkstandalone集群配置###---修改spark-env.sh文件，并分发到集群中[root@hadoop01~]#vim$SP

作者：编程之家时间：2022-09-04

Spark打包与Kerberos相关命令

发布的问题mvncleanpackageproject-am-Pcdp-DskipTests=true之后将打包好的包上传到相关路径提交任务与Kerberos文件配置spark-submit\--masteryarn\--deploy-modecluster\--driver-memory4g--num-executors4--executor-memory8g--executor-cores4

作者：编程之家时间：2022-09-04

5.RDD操作综合实例

一、词频统计A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD分词排除大小写lower()，map()标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter()

作者：编程之家时间：2022-09-04

7.Spark SQL

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。SparkSQL的出现，解决了对不同数据源和不同数据的操作，例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。SparkSQL的前身是Shark，Shark中提供了类似于Hive的功能。但是Shark设计中导致了两个问题

作者：编程之家时间：2022-09-04

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa

作者：编程之家时间：2022-09-04

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|------------------------------------------|Spa

作者：编程之家时间：2022-09-04

|NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar

作者：编程之家时间：2022-09-04

Spark Streaming DStream 转换操作

DStream操作和RDD的操作很类似，分为Transformations转换和OutputOperations输出两种，此外转换操作中还有一些比较复杂的算子，如：updateStateByKey(),transform()以及各种Window相关算子。1、无状态转换操作无状态转换操作就是把简单的RDD转换操作应用到每个批次上，也就是转

作者：编程之家时间：2022-09-04

Zeppelin中给spark添加第三方jar包

方法一：永久导入jar包在zeppelin的环境配置文件"zeppelin-env.sh" 中添加以下内容：exportSPARK_SUBMIT_OPTIONS="--jars/moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar"也可以将jar包放在HDFS上面exportSPARK_SUBMIT_OPTIONS="--jarshdfs:///spark/j

作者：编程之家时间：2022-09-04

5.RDD操作综合实例

一、词频统计A. 分步骤实现1、准备文件1、下载小说或长篇新闻稿2、上传到hdfs上2、读文件创建RDD3、分词4、排除大小写lower()，map()标点符号re.split(pattern,str)，flatMap(),长度小于2的词filter()5、统计词频6、按词频排序7、输出到文件

作者：编程之家时间：2022-09-04

Spark运行架构

一Spark与hadoop三Spark的架构详解四Spark运行基本流程五Spark运行模式5.1 standalone独立集群运行模式5.1.1Standalone的client模式5.1.2Standalone的cluster模式5.1.3YARN框架原理5.1.4YARN的client运行模式5.1.5YARN的cluster运行模式5.1.6 YARN-Cl

作者：编程之家时间：2022-09-04

5.RDD操作综合实例

一、词频统计A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上start-all.shhdfsdfs-put666.txthdfsdfs-ls2、读文件创建RDD>>>lines=sc.textFile("/home/hadoop/666.txt")>>>lines.foreach(print)3、分词>>>words=lines.flatMap(lambdali

作者：编程之家时间：2022-09-04

执行spark任务时报错Table or view 'test' not found in database 'test_1'

执行数据入hive的spark任务时报错：org.apache.spark.sql.catalyst.analysis.NoSuchTableException:Tableorview'test'notfoundindatabase'test_1';解决问题：原因：部署环境的spark目录下conf里hive-site.xml文件没有更新，导致找不到数据库。办法：将hive的conf目录中的hive-

作者：编程之家时间：2022-09-04

|NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&Spark.V05|------------------------------------------|Spar

作者：编程之家时间：2022-09-04

5.RDD操作综合实例

5.RDD操作综合实例一、词频统计A. 分步骤实现 1.上传到hdfs上 2，读文件创建RDD3.分词 4.排除大小写lower()，map() 5.标点符号re.split(pattern,str)，flatMap(),停用词,可网盘下载stopwords.txt,filter()，长度

作者：编程之家时间：2022-09-04

从零开始学Spark二--了解Spark

点击关注强哥，还有100多G的面试资料等你来拿哈喽，大家好，我是强哥。不知道大家Scala学得怎么样了？不过不管你们学得怎么样，反正我是简单的过过一遍了。诶~就是这么牛逼。今天我们就开始正式学Spark了。Spark是什么？既然要学Spark，首先就要弄懂Spark是什么？或者说Spark能为我们做什么？

作者：编程之家时间：2022-09-04

5.RDD操作综合实例

一、词频统计A. 分步骤实现 1.准备文件，下载小说或长篇新闻稿 2.上传到hdfs上 3.读文件创建RDD4.分词 5.排除大小写lower()，map() 6.标点符号re.split(pattern,str)，flatMap(),停用词,可网盘下载

作者：编程之家时间：2022-09-04

大数据Hadoop之——计算引擎Spark

目录一、概述1）Spark特点2）Spark适用场景二、Spark核心组件三、Spark专业术语详解1）Application：Spark应用程序2）Driver：驱动程序3）ClusterManager：资源管理器4）Executor：执行器5）Worker：计算节点6）RDD：弹性分布式数据集7）窄依赖8）宽依赖9）DAG：有向无环图10）DAGScheduler：有向无环图调度器11）TaskSched

作者：编程之家时间：2022-09-04

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|------------------------------------------|Spa

作者：编程之家时间：2022-09-04

Spark 广播变量&累加器

Spark 为了达到高并发，高吞吐数据处理能力封装RDD外，也封装了另外两个数据对象广播变量：分布式共享只读变量累加器：分布式共享只写变量1、广播变量1.1、广播变量存在的意义如果我们需要在分布式计算里面芬达大对象，例如：集合，字典或者黑白名单等，这个都会有Driver端进行分发，一

作者：编程之家时间：2022-09-04

【数仓项目记录3】业务数据采集

电商常识业务表，与用户的操作相关，如添加收藏夹、购物车，下单，支付，退单、退款、评价、领优惠券等后台管理系统面向公司内部开发者，维护商品信息、优惠信息等业务数据的生成使用项目提供的jar包生成某一日期下的数据，数据存储到hadoop102中的数据库中SqoopSqoop是Hadoop和关系

作者：编程之家时间：2022-09-04

7.Spark SQL

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。SparkSQL的前身是Shark，Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一，它运行在Spark系统之上，Shark重用了Hive的工作机制，并直接继承了Hive的各个组件，Shark将SQL语句的转换从MapReduce作业替

作者：编程之家时间：2022-09-04

替换Hive引擎为Spark

写在前面必须要先保证hadoop是正常启动的，hadoop安装配置见《CentOS7安装Hadoop集群》HIVE是正常的，Hive安装配置见《CentOS7安装Hive》Spark是正常的，Spark安装配置见《CentOS7安装Spark集群（yarn模式）》其它配置HDFS创建以下路径，用于存储相关jar包解压缩spark-3.0.0-bin-wit

作者：编程之家时间：2022-09-04

Spark 源码系列 - 获取分区数

目录版本结论代码入口SparkContext->textFileSparkContext->defaultMinPartitionsSparkContext->defaultParallelismTaskSchedulerImplLocalSchedulerBackend版本本分析基于Sparkversion3.1.2结论local模式下，默认最小分区数不会超过2如果对spark.default.parallelis

作者：编程之家时间：2022-09-04

Spark排序之SortBy

1、例子1：按照value进行降序排序defsortBy[K](f:(T)=>K,ascending:Boolean=true,//默认为正序排列，从小到大,false:倒序numPartitions:Int=this.partitions.length)(implicitord:Ordering[K],ctag:ClassTag[K]):RDD[T]返回值是T，数字

作者：编程之家时间：2022-09-04