Spark - 编程之家

一、DStream转换DStream上的操作与RDD的类似，分为Transformations（转换）和OutputOperations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。1、无状态转化操作无状态转化操作就是把简单的RDD转化操作

作者：编程之家时间：2022-09-04

Spark 集群搭建

下载并上传官网下载：下载Spark安装包,下载时候选择对应的Hadoop版本，然后上传到虚拟机上解压并拷贝#解压Spark安装包tarxzvfspark-2.2.0-bin-hadoop2.7.tgz#移动Spark安装包mvspark-2.2.0-bin-hadoop2.7.tgz/export/servers/spark修改配置文件配置 spar

作者：编程之家时间：2022-09-04

Spark连接各种数据源

Spark连接各种数据源一、Spark连接mysql二、Spark连接Hive一、Spark连接mysqlimportjava.util.Propertiesimportorg.apache.spark.sql.SparkSessionobjectConnectMysql{/***spark操作mysql*1、首先将拷贝mysql-connector-java.5.1.38.jar驱动

作者：编程之家时间：2022-09-04

大数据应用开发

1.大数据的概念维基百科的定义：大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。2.大数据主流技术数据采集：使用Flume，可进行流式日志数据的收集。使用Sqoop可以交互关系型数据库，进行导入导出数据。使用爬虫技术，可在网上爬取海量网页数据。

作者：编程之家时间：2022-09-04

开启Hadoop/Yarn的日志监控功能,配置Spark历史服务，解决web端查看日志时的Java.lang.Exception:Unknown container问题

解放方法下来查询官方文档后，才了解到yarn的日志监控功能默认是处于关闭状态的，需要我们进行开启，开启步骤如下：Ps:下面配置的文件的位置在hadoop根目录etc/haddop文件夹下，比较老版本的Hadoop是在hadoop根目录下的conf文件夹中本文hadoop配置环境目录：/usr/local/src/hadoop

作者：编程之家时间：2022-09-04

05Spark特征处理

Spark架构图如下：Spark的计算过程：Stage内部数据高效并行计算，Stage边缘处进行消耗资源的shuffle或者reduce操作。特征处理方法：1.类别特征：one-hot编码2.数值特征：归一化（不同类别特征权重不统一）与分桶（解决特征值分布不均与，过程：特征值高低排序->分位数->分样本->桶id作为特征值）。

作者：编程之家时间：2022-09-04

2021年最新版大数据面试题全面总结-持续更新

更新内容和时间表大数据基础篇Part0：Java基础篇Part1：Java高级篇Part2：Java之JVM篇Part3：NIO和Netty篇Part4：分布式理论篇框架篇Part5：Hadoop之MapReducePart6：Hadoop之HDFSPart7：Hadoop之YarnPart8：Hadoop之ZookeeperPart9：Hadoop之HivePart10：Hadoop之HbasePart11：Hadoop之

作者：编程之家时间：2022-09-04

scala学习 0 立个小目标

scala学习0：立个小目标使用scala的原因目前大数据的计算引擎主要是spark和flink。我使用的是spark。flink较spark的独特优点在于其流处理，spark是毫秒级微批处理，但目前的业务暂时不需要flink这么及时的实时处理。spark源码为scala编写，所以想要系统学习一下scala的使用，以便加深

作者：编程之家时间：2022-09-04

VMware虚拟机搭建Spark集群

目录一、搭建方法二、准备三、系统环境配置四、软件安装与配置1.软件下载安装2.Hadoop配置3.Spark配置五、虚拟机克隆六、启动集群七、踩坑经历一、搭建方法在虚拟机上搭建集群的方法通常有两种1.类似于真实的机器上部署，首先要进行密钥授权使各台机器之间能够免密码相互访问，然

作者：编程之家时间：2022-09-04

2020年终总结

概述昨晚在CCTV加班跨年，真是感慨很多呢，2020年在世界上对谁来说都是特殊难忘的一年。新冠病毒遍布了整个世界。而对于我自己呢？延迟返京，努力学习，面试找新工作。说大一些新冠改变了世界，也给了我坚定不移的信念。最终在成功收到几家公司的offer后，最后选择了腾讯投资的工资，而现在正在C

作者：编程之家时间：2022-09-04

spark学习进度03入门案例、sparkshell本地文件读取，hdfs读取、本地运行、提交运行

一、编写spark代码的几种方式：（主要看重的方面：1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线）1、spark-shell （数据集的探索、测试）Sparkshell简介启动Sparkshell进入Spark安装目录后执行 spark-shell--mastermaster 就可以提交Spark

作者：编程之家时间：2022-09-04

Spark的框架

1.组成（主从结构）client提交应用的客户端master(ResourceManager)主节点，standalone模式时，为master；yarn模式时，为ResourceManagerworker(NodeManager)从节点，standalone模式时，为worker；yarn模式时，为NodeManagerdriver负责协调应用提交后的一个分布式应用程序，包含一下内容：(1)Spa

作者：编程之家时间：2022-09-04

Spark Sql内置函数

打开spark官网https://spark.apache.org/docs/latest/sql-programming-guide.html全部函数都在这里

作者：编程之家时间：2022-09-04

我眼中的Hudi----数据库之Hudi

数据湖数据湖或者Hudi是由大数据厂商提出来的。数据量越大，越需要不同种类的存储，但是并不是所有企业的数据都是适合存储在廉价的HDFS集群之上的。ApacheHudi让用户可以在Hadoop兼容的基础上存储大量数据，同时它还提供了两种原语操作，使得除了经典的批处理之外，还可以在数据湖

作者：编程之家时间：2022-09-04

Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

引言ApacheSpark2.2以及以上版本提供的三种API-RDD、DataFrame和Dataset，它们都可以实现很多相同的数据处理，它们之间的性能差异如何，在什么情况下该选用哪一种呢？RDD从一开始RDD就是Spark提供的面向用户的主要API。从根本上来说，一个RDD就是你的数据的一个不可变的

作者：编程之家时间：2022-09-04

Spark介绍与安装

Spark介绍与安装Spark概述什么是SparkSpark内置模块Spark特点Spark运行模式Spark安装地址重要角色Driver（驱动器）Executor（执行器）Local模式Local模式安装使用Standalone模式概述安装使用JobHistoryServer配置HA配置Yarn模式（重点）概述安装使用日志查看Mesos模式(了解)几种

作者：编程之家时间：2022-09-04

spark快速入门二-------spark粗略流程简述及常见名词解释

大家元旦快乐，牛年发发发~~~~牛气冲天o(*￣︶￣*)ospark粗略流程简述（1）有算子触发Action，Driver端和hdfs的namenode进行通信，询问元数据信息。根据元数据信息及相应切分规则切分任务切片，计划分区（task），并向Master申请相应的资源（2）Master收到Driver的交互信息，并根据自己所管理的Work

作者：编程之家时间：2022-09-04

Spark的安装和部署

0.环境准备：JDK略环境变量略Hadoop集群略1.单机模式解压jar包，单机模式完成; 验证方式：(1)Jps查看进程；(2)打开网页http://localhost:8080/查看；(3)到spark的bin目录下./spark-shell命令查看； 2.基于standalone安装主要配置conf/slaves,conf/spark-env.sh文件(1)配

作者：编程之家时间：2022-09-04

Flink和Spark的不同

一，Flink是真正的流处理，延迟在毫秒级，SparkStreaming是微批，延迟在秒级。flink可以做到来一条处理一条，sparkStreaming只能采用微批次二，Flink可以处理事件时间，而SparkStreaming只能处理机器时间，无法保证时间语义的正确性。flink三种时间语义，因此有水位线的概念：事件时间event

作者：编程之家时间：2022-09-04

spark安装

1.修改hadoop配置文件yarn-site.xml<property><name>yarn.nodemanager.pmem-check-enabled<ame><value>false</value></property><property><name>yarn.nodemana

作者：编程之家时间：2022-09-04

spark 优化之详尽概述

文章目录前言一、spark性能调优1.常规性能调优2.算子调优3.Shuffle调优4.JVM调优二、spark数据倾斜1.数据倾斜的表现：2.定位数据倾斜：3.解决数据倾斜方案：三、spark故障排除前言spark性能调优spark数据倾斜spark故障排除一、spark性能调优1.常规性能调优最优资源配

作者：编程之家时间：2022-09-04

Spark Streaming

SparkStreamingSparkStreaming是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。SparkStreaming入门小程序第一步:在Linux上执行以下命令安装socket客户端工具，模拟发送数据:yum-

作者：编程之家时间：2022-09-04

spark 系列之七 SparkStreaming数据源之kafka流

突然感觉kafka跟socket有点像，不过kafka好像具备更多的功能，是一个经典的消费者生产者模式。kafka中有不同的topic，生产者可以把数据发送到不同的topic，消费可以指定相应的topic进行消费。本文就kafka是什么，不做详细的介绍依旧是上两张图。图一：展示了kafka的强大的扩展能力，扩展能

作者：编程之家时间：2022-09-04

spark提交任务的三种的方法

在学习Spark过程中，资料中介绍的提交SparkJob的方式主要有三种：第一种: 通过命令行的方式提交Job,使用spark自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：./spark-submit--classcom.learn.spark.SimpleApp--masteryarn--deploy

作者：编程之家时间：2022-09-04

spark集群搭建一免密登入

参考https://www.cnblogs.com/purstar/p/6293605.html注意在这一步中，要在主机从机中都生成密钥。最后配置的通过，可以免密登入感想：学校网太封闭，只能内网和内网之间进行数据交换，更绝的是学校wifi和网线分配的是二个地址，他们之间也不能进行交换。傻掉

作者：编程之家时间：2022-09-04

Spark学习--SparkSQL01

SparkSQL发展过程解决的问题SparkSQL使用Hive解析SQL生成AST语法树,将其后的逻辑计划生成,优化,物理计划都自己完成,而不依赖Hive执行计划和优化交给优化器Catalyst内建了一套简单的SQL解析器,可以不使用HQL,此外,还引入和DataFrame这样的DSL

作者：编程之家时间：2022-09-04

Spark Udaf

//两个重点：如何从input和buffer中取出数据，如何将更改好的数据更新到buffer中！//自定义函数的深入理解和按需自定义，六个方法的作用和执行流程如何packageareatop3importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.expressions.{MutableAggregationBuffer,

作者：编程之家时间：2022-09-04

大数据学习笔记第3课基于Yarn的Spark实时计算

大数据学习笔记第3课基于Yarn的Spark实时计算1、说明2、hadoop单节点运行mapreduce程序3、配置Yarn集群4、使用hadoopYarn集群运行mapreduce程序5、配置spark6、基于spark运行mapreduce程序1、说明本文是在前面2课搭建好的hadoop集群的基础上进行的，如果不熟悉环境请

作者：编程之家时间：2022-09-04

Spark学习之路四、Spark的广播变量和累加器

目录一、概述二、广播变量broadcastvariable2.1为什么要将变量定义成广播变量？2.2广播变量图解2.3如何定义一个广播变量？2.4如何还原一个广播变量？2.5定义广播变量需要的注意点？2.6注意事项三、累加器 3.1为什么要将一个变量定义为一个累加器？3.2图

作者：编程之家时间：2022-09-04

各种数据分析工具所能处理的数据量大概是多少？

数据科学交流群，群号：189158789 ，欢迎各位对数据科学感兴趣的小伙伴的加入！ 1.ExcelExcel处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。 2.PowerBIPowerBIDesktop一般处理的数据在1G左右再往上就会很卡，一般处理的规模在不大于

作者：编程之家时间：2022-09-04