Spark - 编程之家

spark的转换算子及一个案例

spark的转换算子map：同分区有序运行，不同分区无序运行mapPartitions:一次性取数一个分区，在分区内计算golm：将一个分区的数据变成集合groupBy：讲数据源中的每一个数据进行key进行分filter：过滤，返回布尔类型sampledistinctcoalesce：缩减分区repartition：其实就是(coalesce(shuffle

作者：编程之家时间：2022-09-04

Spark 系列教程2运行模式介绍

Spark运行模式ApacheSpark是用于大规模数据处理的统一分析引擎，它提供了Java、Scala、Python和R语言的高级API，以及一个支持通用的执行图计算的优化引擎。SparkCore是Spark的核心模块，负责任务调度、内存管理等功能。SparkCore的实现依赖于RDD（ResilientDistri

作者：编程之家时间：2022-09-04

从大数据技术变迁猜一猜AI人工智能的发展

目前大数据已经成为了各家互联网公司的核心资产和竞争力了，其实不仅是互联网公司，包括传统企业也拥有大量的数据，也想把这些数据发挥出作用。在这种环境下，大数据技术的重要性和火爆程度相信没有人去怀疑。而AI人工智能又是基于大数据技术基础上发展起来的，大数据技术已经很清晰了，但是A

作者：编程之家时间：2022-09-04

Spark 3.0.3集群安装文档

Spark3.0.3集群安装文档一、架构说明ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎，Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数

作者：编程之家时间：2022-09-04

DStream以及基本工作原理

SparkStreaming基本工作原理SparkStreaming内部的基本工作原理如下：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1秒的数据封装为一个batch，然后将每个batch交给Spark的计算引擎进行处理，最后会生产出一个结果数据流，其中的数据，也是由一个一个的batch所组成的。DStrea

作者：编程之家时间：2022-09-04

【物联网】9.物联网数据分析方法 - 流处理Spark，Storm

批处理是把数据攒起来，一次性进行处理的方法。相对而言，流处理是不保存数据，按照到达处理服务器的顺序对数据依次进行处理。想实时对数据做出反应时，流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理，所以从数据到达之后到处理完毕为止，会出现时间延迟。

作者：编程之家时间：2022-09-04

Job aborted due to stage failure: Total size of serialized results of 3 tasks (1074.3 MB) is bigger

Spark任务运行报错如下：21/10/0915:49:31INFODAGScheduler:Job0failed:collectatTrackDataSourceWrite.scala:190,took94.206171sorg.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1074.3MB

作者：编程之家时间：2022-09-04

spark进阶六：kafka安装

在Spark生态体系中，Kafka占有非常重要的位置。Kafka是一个使用Scala语言编写的基于ZooKeeper的高吞吐量低延迟的分布式发布与订阅消息系统，它可以实时处理大量消息数据以满足各种需求。在实际开发中，Kafka常常作为SparkStreaming的实时数据源，SparkStreaming从Kafka中读取实时

作者：编程之家时间：2022-09-04

大数据学习29—— Spark Streaming

Spark提供了DataFrame和DataSetAPI来处理批量数据，它们把数据转换成RDD，在内存中以迭代器的方式不落盘处理，所以效率很高。但它有一个弊端，就是不能准实时计算数据变化。为了解决上述问题，Spark引入了SparkStream来处理准流式数据。为啥说准流式呢？因为它本质上还是批处理，只不过这个

作者：编程之家时间：2022-09-04

scala 借助数组实现数据序列的错位相减

objecttest{defmain(args:Array[String]):Unit={println("HelloSpark")valarrayBuffer=ArrayBuffer[Int](1,2,3,5,9,12)valout=arrayBuffer.indices.map(index=>{valx1=index-1valx2=indexindex

作者：编程之家时间：2022-09-04

Spark学习之路一——Spark基础及环境搭建

Spark学习之路一——Spark基础及环境搭建文章目录一.Spark概述1.1概述1.2优势特性1.2.1运行速度快1.2.2容易使用1.2.3通用性1.2.4运行模式多样1.3SparkvsHadoop1.3.1表达能力更丰富1.3.2运算效率更优1.3.3先进的任务调度机制1.3.4实际开发更方便1.4

作者：编程之家时间：2022-09-04

spark

把任务提交到spark上分为几种模式 mesos（Apache项目国外用的多） standalone（spark自己实现的资源调度平台） yarn(国内用的多）为什么用yarn hadoopflink spark都用的是yarn 方便集中管理 spark计算平台 yarn资源调度平台client端在driver里面

作者：编程之家时间：2022-09-04

Spark SQL

valsparkSession=SparkSession.builder.master("local").appName("sparksessionexample").enableHiveSupport().getOrCreate()DataFrame是SparkSQL提供的一种特殊的RDDdataframe能够更方便的操作数据集，而且因为其底层是通过sparksq

作者：编程之家时间：2022-09-04

Spark进阶一: 测试环境搭建

运行环境：操作系统：ubuntu16JDK：1.8.0_261-b12hadoop:3.2.2spark:3.1.2一、hadoop单机模式下载安装安装包官网下载即可：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz然后解压缩到指定目录，我的目录为：/home/ffzs/softwares/

作者：编程之家时间：2022-09-04

测试人进阶：终于有大佬把大数据测试讲清楚了

1.什么是大数据大数据是一个大的数据集合，通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析，而且它在数量、多样性、速度方法都很出色，是需要新处理模式才能具有更强的决策力、洞察发现力和流程

作者：编程之家时间：2022-09-04

JUST技术：面向时空数据场景的SQL优化器

一、背景介绍随着智能城市建设的不断升温，海量的时空数据也基于现代的智能设备和卫星定位系统不断产生。在这个过程当中，因为传统的技术无法解决海量时空数据的管理问题，所以出现了很多新技术和新方法，Geomesa就是针对时空场景的开源数据引擎的优秀代表。Geomesa在时空数据方面，一方

作者：编程之家时间：2022-09-04

Flink前世今生和原理

1.基本概念Why-分布式计算发展史为什么需要流式计算，为什么需要Flink，是需要从分布式计算的历史开始说。随着大数据时代到来，单机的计算已经不能满足数据计算的需求，将多个计算机组成集群去处理一个问题的方案成为主流，即分布式计算。而分布式系统的发展也伴随批处理向流处理的演

作者：编程之家时间：2022-09-04

Spark SQL:基于Spark的结构化数据操作的API

SparkSQL介绍SparkSQL是Spark中技术最复杂的的组件之一，它提供了在Spark程序中对结构化数据进行操作的功能，即SQL查询。具体来说，SparkSQL有如下3个重要特点:1.SparkSQL支持多种结构化数据格式的读取，比如JSON,Parquet或者Hive表。2.SparkSQL支持从多种外部数据源读

作者：编程之家时间：2022-09-04

spark之RDD 系列01：RDD详解

spark之RDD系列01欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也

作者：编程之家时间：2022-09-04

搭建hive-2.3.9与spark2.0.0搭建及spark2.0.0下载

1：hive与spark对应关系之前在hive-2.3.9安装配套的是spark-3.0.0，发现会有报错，按照网上的说话我的hive版本对应的应该是spark2.0.0。于是重新安装之后，集群正常使用。2:spark-2.0.0下载链接：https://pan.baidu.com/s/1XD1u_KMAMjizzVKcWMirsQ提取码：n3q3

作者：编程之家时间：2022-09-04

MapReduce、Spark、Storm、Flink 简单扫盲

这四个项目能放在一起比较的背景应该是分布式计算的演进过程。一、MapReduce开源分布式计算的第一个流行的框架是Hadoop项目中的MapReduce模块。它将所有计算抽象成Map和Reduce两个阶段，在计算时通过增加机器，并行的读取数据文件，进行Map或Reduce的操作，并将结果写到文件

作者：编程之家时间：2022-09-04

Spark查找某人最高的N次成绩

`packagecom.shsxt.java.core.demo;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Pair

作者：编程之家时间：2022-09-04

大数据Spark实时处理--数据采集构建日志服务器

数据产生和上报流程1）客户端定时采集----->数据加密----->数据传至日志服务器上----->数据解密----->日志落地磁盘2）可以考虑数据压缩基于IDEA+Maven构建多Module本地开发环境1）多Module带来的好处：GitHub-apache/spark:ApacheSpark-Aunifiedanalyticsengineforl

作者：编程之家时间：2022-09-04

spark csv文件乱码

packagecom.itcast.spark.sparktestimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.types.{LongType,StructField,StructType}importorg.apache.spark.sql.{DataFrame,Row,SaveMode,SparkSession}//处理维度

作者：编程之家时间：2022-09-04

高可用spark安装与配置

（1）解压安装包到/usr/local下。tar-zxf/opt/spark-1.6.3-bin-hadoop2.6.tgz-C/usr/local（2）进入/usr/local/spark-1.6.3-bin-hadoop2.6/conf。cd/usr/local/spark-1.6.3-bin-hadoop2.6/conf3）配置spark-env.sh文件，复制spark-env.sh.template文件,重命名为spark-env.sh。

作者：编程之家时间：2022-09-04

数仓环境搭建

文章目录Hive环境搭建Hive引擎简介HiveonSpark配置Yarn配置增加ApplicationMaster资源比例数仓开发环境启动HiveServer2配置DataGrip连接测试使用数据准备用户行为日志业务数据Hive环境搭建Hive引擎简介Hive引擎包括：默认MR、tez、sparkHiveonSpark：Hive既作

作者：编程之家时间：2022-09-04

山东省技能兴鲁大数据赛项

一、大数据平台组件搭建。要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群。（提示如下，注意每一步骤的代码与结果需截图在报告中体现）1.Spark安装包处理，解压到/usr/local目录下，在master节点通过命令“wget-P/opthttp://datasrc.tipdm.net:81/bigdata/spark/software/spa

作者：编程之家时间：2022-09-04

spark进阶十：使用MLlib进行协同过滤电影推荐

一、MLlib简介MLlib是一些常用的机器学习算法和库在Spark平台上的实现。MLlib是AMPLab的在研机器学习项目MLBase的底层组件。MLBase是一个机器学习平台，MLI是一个接口层，提供很多结构，MLlib是底层算法实现层。MLlib中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的

作者：编程之家时间：2022-09-04

大数据实时处理--架构分析

Spark是一个实时处理框架Spark提供了两套实施解决方案：SparkStreaming（SS）、StructuredStreaming（SSS）然后再结合其它框架：Kafka、HBase、Flume、Redis 项目流程：架构分析、数据产生、数据采集、数据收集、数据实时交换、实时流处理、结果可视化、调优1）【项目启动】架构分析2

作者：编程之家时间：2022-09-04

浅谈 Spark SQL 实现任务质量治理的思路

前言本文隶属于专栏《Spark异常问题汇总》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见Spark异常问题汇总正文问题Spark集群白天资源比较少，分析脚本可能会跑的时间很长，对此想做一些限制，但由于晚上和白天的机器

作者：编程之家时间：2022-09-04