Spark - 编程之家

spark.storage.memoryFraction 参数的含义, 实际生产中如何调优

1）用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6,，默认Executor60%的内存，可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略，如果内存不够时，可能数据就不会持久化，或者数据会写入磁盘；2）如果持久化操作比较多，可以提高spark.storage.memoryFraction参数，使得更

作者：编程之家时间：2022-09-04

spark安装缓慢

Spark官网下载速度过慢?试试清华的镜像https://mirrors.tuna.tsinghua.edu.cn/apache/spark/

作者：编程之家时间：2022-09-04

spark比mapreduce快的原因

1、spark基于有向无环图DAG生成执行计划，他属于1个改进版的MapReduce，降低了很多不必要的shuffle次数，减少了节点之间的数据交换和磁盘IO，中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率2、spark基于内存，窄依赖任务的数据都在内存中进行交换3、spark任务启动

作者：编程之家时间：2022-09-04

寒假学习进度2

今天接着昨天spark学习使用spark自己自带的函数完成对文本中的单词统计，昨天代码的进阶版代码：packagecom.chenghaixiang.core.wcimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectspark02_wordcount{defmain(args:Array[String]):

作者：编程之家时间：2022-09-04

2021-12-27---2021SC@SDUSC---DolphinScheduler14

2021-12-272021SC@SDUSC—DolphinScheduler（14）1。1.WorkerServer日志脱敏对日志中的密码进行脱敏。worker的日志是通过logback打印的，也就是通过配置conversionRule来实现过滤的。@OverridepublicStringconvert(ILoggingEventevent){//getoriginal

作者：编程之家时间：2022-09-04

【Spark】Spark对数据的读入和写出操作

Spark对数据的读入和写出操作数据存储在文件中CSV类型文件JSON类型文件Parquet操作分区操作数据存储在Hive表中数据存储在MySQL中数据存储在文件中在操作文件前，我们应该先创建一个SparkSessionvalspark=SparkSession.builder().master("local[6]")

作者：编程之家时间：2022-09-04

大三寒假学习 spark学习 Scala语言基础

编程范式：编程范式是指计算机编程的基本风格或典范模式。常见的编程范式主要包括命令式编程和函数式编程。面向对象编程就属于命令式编程，比如C++、Java等命令式语言是植根于冯·诺依曼体系的，一个命令式程序就是一个冯·诺依曼机的指令序列，给机器提供一条又一条的命令序列让其

作者：编程之家时间：2022-09-04

084、Spark-RDD-依赖关系

这里所谓的依赖关系，其实就是两个相邻RDD之间的关系1、窄依赖表示每一个父(上游)RDD的Partition最多被子（下游）RDD的一个Partition使用，窄依赖我们形象的比喻为独生子女。2、宽依赖表示同一个父（上游）RDD的Partition被多个子（下游）RDD的Partition依赖，会引起Shuffle，总结：宽依赖我们形象的

作者：编程之家时间：2022-09-04

spark 执行spark-example

1.找到CDH安装spark的目录执行whichspark-shell/usr/bin/spark-shell执行ll/usr/bin/spark-shelllrwxrwxrwx1rootroot2912月1114:29/usr/bin/spark-shell->/etc/alternatives/spark-shell执行ll/etc/alternatives/spark-shelllrwxrwxrwx1rootroot6812

作者：编程之家时间：2022-09-04

Spark和Flink中的宽依赖和窄依赖

Spark中：窄依赖：上游RDD流向至多一个下游RDD；宽依赖：上游RDD流向多个下游RDD。这里的宽和窄，说的是当前节点流向下游节点，当前节点数据是否会分区变多份。宽依赖往往需要shuffle操作，stage会增加。宽依赖导致当前节点分区，可能增加数据传输量，下游故障导致当前整个RDD

作者：编程之家时间：2022-09-04

大数据学习04 Scala的学习

大数据学习04Scala的学习在Spark学习之前，先进行对Scala的学习提示：已经有Scala基础的同学可以先跳过这部分文章目录大数据学习04Scala的学习Scala是什么一、Scala入门1.为什么学习Scala2.Scala的发展历史二、Scala与Java的关系1.Scala是对java的增强2.Scala语言特

作者：编程之家时间：2022-09-04

大三寒假第十四天

完成：1.今天完成了flume的安装和使用2.重新安装了telnet，（需要先启动xinetd服务）遇到的问题：1.spark版本过高，没有flume与之对应（重装） spark版本由3.2版本，降低到2.4.1版本2.yum源出现问题，导致telent无法在线安装（通过rpm安装成功）

作者：编程之家时间：2022-09-04

spark-shell报错java.lang.IllegalArgumentException: java.net.UnknownHostException: namenode

在使用sparkonyarn启动spark-shell时，发现报错：是说找不到主机名为namenode的主机，那么应该是配置文件出错了。经过检查，发现是spark-defaults.conf文件配置错误，配置的时候直接将上面复制了下来，导致忘了修改为node1，所以配置时一定要细心更改后完美解决最近老是犯低

作者：编程之家时间：2022-09-04

Hive on Spark：如何提高yarn并发运行app的数量？

问题：无法创建spark客户端jdbc连接hive，当两个窗口都执行insert语句时（每个窗口都相当于是一个独立的客户端，各自提交自己的application），会报错：[42000][30041]Errorwhileprocessingstatement:FAILED:ExecutionError,returncode30041fromorg.apache.hadoop.hive.ql.exec

作者：编程之家时间：2022-09-04

spark sql 去重 distinct dropDuplicates

1distinct对行级别的过滤重复的数据df.distinct()2dropDuplicates可以选择对字段进行过滤重复>>>frompyspark.sqlimportRow>>>df=sc.parallelize([\...Row(name='Alice',age=5,height=80),\...Row(name='Alice',age=5,height=

作者：编程之家时间：2022-09-04

6-spark_streaming

学习目标说出SparkStreaming的特点说出DStreaming的常见操作api能够应用SparkStreaming实现实时数据处理能够应用SparkStreaming的状态操作解决实际问题独立实现foreachRDD向mysql数据库的数据写入独立实现SparkStreaming对接kafka实现实时数据处理1、sparkStreaming

作者：编程之家时间：2022-09-04

Spark Streaming三——转换

1、有状态转换1.UpdateStateByKeyupdateStateByKey操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功能，你需要做下面两步：定义状态，状态可以是一个任意的数据类型。定义状态更新函数，用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。

作者：编程之家时间：2022-09-04

082、Spark-RDD-序列化

1.从计算的角度,算子以外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行。那么在scala的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给Executor端执行，就会发生错误，所以需要在执行

作者：编程之家时间：2022-09-04

本地 maven + scala 跑spark wordcount

pom.xml点击查看代码<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/maven-v4_0_0.xsd">

作者：编程之家时间：2022-09-04

大三寒假学习 spark学习 Scala基本语法

Scala有两种类型的变量：val不可变声明时必须被初始化，初始化后就不能再赋值var可变的声明的时候需要初始化，初始化后可以被赋值 Scala的数据类型：和Java不同的是，在Scala中，这些类型都是“类”，并且都是包scala的成员，比如，Int的全名是scala.Int。对于字符串，Scala用j

作者：编程之家时间：2022-09-04

Hadoop基础 - 1. 大数据和Hadoop介绍

大数据是什么，有什么特点？大数据概念：海量的、高速增长率的、多样化的信息资产。大数据特点(4V)：Volume大量、velocity高处理效率的、variety多样化的(机构/非结构/半结构)、低价值密度的。Hadoop是什么，有什么优势？狭义：Apache基金会开发的分布式系统基础架构，主要是为了解决大数据

作者：编程之家时间：2022-09-04

spark 实现HDFS小文件合并

一、首先使用sparksql读取需要合并的数据。当然有两种情况，一种是读取全部数据，即需要合并所有小文件。第二种是合并部分数据，比如只查询某一天的数据，只合并某一个天分区下的小文件。valdf:DataFrame=spark.sql("sql")二、将读取到的数据写入临时文件中。此处需注

作者：编程之家时间：2022-09-04

1月4日

今天初步了解spark，看了三个小时的视频，有点茫然，视频安装了三种模式的spark，本地模式，独立模式需要配置三台虚拟机，还有混合yarn的模式，不知道该安装哪种模式。配置好困难。按照教程敲了一个小时的秒杀系统，看到后面的视频我发现他又大量的用到了虚拟机，我有点茫然。好多不会的东西。

作者：编程之家时间：2022-09-04

本地 maven + scala 跑spark wordcount

pom.xml点击查看代码<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/maven-v4_0_0.xsd">

作者：编程之家时间：2022-09-04

Spark-SparkSql基础、DataFrame、DataSet

Spark-SQL概述SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。对于开发人员来讲,SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快,所以实际工作中,基本上采用的就是SparkSQL。SparkSQL为了简化RDD的开发,提高开发效率,提供了2

作者：编程之家时间：2022-09-04

通过sparksql读取presto中的数据存到clickhouse

整体结构Configpackagecom.fuwei.bigdata.profile.confimportorg.slf4j.LoggerFactoryimportscopt.OptionParsercaseclassConfig(env:String="",username:String="",password:Stri

作者：编程之家时间：2022-09-04

Spark Streaming二—— 创建DStream

1、文件数据源案例需求：读取hdfs上的Herry.txt文件，进行词频统计packagecom.zch.spark.streamingimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}/***Author:zhaoHui*Date:2022/01/06*Time:14:29*De

作者：编程之家时间：2022-09-04

07 Spark on RDD 血缘关系

RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage（血统）记录下来，以便恢复丢失的分区。RDD 的 Lineage 会记录 RDD 的元数据信息和转换行为，当该 RDD 的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。通

作者：编程之家时间：2022-09-04

《Spark编程基础》阅读

注意：输入StdIn是在scala2.11.-之后才加入的，之前的不具有。大数据特定：数据量大、数据类型繁多、处理速度快、价值密度低。MapReduce进行迭代计算非常消耗资源，因为每次迭代都需要从磁盘中写入、读取中间数据，I/O开销大Scala：基本数据类型 Unit：类似java的void

作者：编程之家时间：2022-09-04

2021-2022年寒假学习进度04

今天学习了spark运行结构的一些基本知识，同时学习了springboot后端框架的使用记录今天学到的spark运行结构的知识：Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构。如下图所示，它展示了一个Spark执行时的基本结构。图形中的Driver表示master，负责

作者：编程之家时间：2022-09-04