Spark - 编程之家

修改spark-defaults.conf.template文件名mvspark-defaults.conf.templatespark-defaults.conf修改spark-default.conf文件，配置日志存储路径spark.eventLog.enabledtruespark.eventLog.dirhdfs://Hadoop102:8020/directory注意：需要启动had

作者：编程之家时间：2022-09-04

Spark Core读取ES的分区问题分析

SparkCore读取ES的分区问题分析浪院长浪尖聊大数据ES也是比较火热，在日志数据分析，规则分析等确实很方便，说实话用esstack浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程，有需要的暂时别购买，到时候还找浪尖返现吧。写这篇文章的原因是前两天星球球

作者：编程之家时间：2022-09-04

大数据和云计算技术周报第107期)

大数据和云计算技术周报（第107期)原创编辑部大数据和云计算技术2019-06-17导语“大数据”三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。本期会给大家奉献上精彩的：spark、知识图谱、MongoDB、全链路压测、ES、数据库原理

作者：编程之家时间：2022-09-04

02 Spark架构与运行流程流程

1、为什么要引入Yarn和Spark。(1)现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；(2)选用spark的原因1）应用于流式计算的SparkStreaming;2）应用于即席查询（Ad-hoc）的

作者：编程之家时间：2022-09-04

02 Spark架构与运行流程

02Spark架构与运行流程 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请简述Spark生态系统。 spark生态系统称为BDAS（伯努利数据分析栈），本文旨在简单介绍Spark生态系统中一些常用的组件，让大家对Spark生态系统（BDAS）有个简单的了解，知道什么组件能做什么事情Spark

作者：编程之家时间：2022-09-04

Spark部署模式另类详解

Spark部署模式另类详解浪尖浪尖聊大数据一，Spark的运行模式讲解 Spark运行模式有很多种，本文主要是将local，Standalone，yarn。因为平时生产中用的最多的也是yarn，所以，我们后面也重点讲解基于yarn的。其实，原因很简单，集群服务角色越多，越难运维，所以，统一调度系统，也是降低

作者：编程之家时间：2022-09-04

必读|spark的重分区及排序

必读|spark的重分区及排序浪尖浪尖聊大数据前几天，有人在星球里，问了一个有趣的算子，也即是RepartitionAndSortWithinPartitions。当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。昨天说了，mapPartitions的使用技巧。大家应该都知道mapPartit

作者：编程之家时间：2022-09-04

如何用形象的比喻大数据的技术生态Hadoop、Hive、Spark 之间是什么关系？

最近我的同学给我发了一篇特别有意思的关于大数据的技术生态Hadoop、Hive、Spark关系的解读文章。个人觉得非常有意思，通俗易懂，我转载到这里，希望大家一起学习。Luis大数据255人赞同了该回答你叫杰杰马，你来到了青青

作者：编程之家时间：2022-09-04

Spark Structured Streaming高级特性

SparkStructuredStreaming高级特性浪尖浪尖聊大数据一，事件时间窗口操作使用StructuredStreaming基于事件时间的滑动窗口的聚合操作是很简单的，很像分组聚合。在一个分组聚合操作中，聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下，对于行的事件时间的每个窗口，维

作者：编程之家时间：2022-09-04

flink超越Spark的Checkpoint机制

flink超越Spark的Checkpoint机制浪尖浪尖聊大数据ApacheFlink提供容错机制，以持续恢复数据流应用程序的状态。该机制确保即使存在故障，程序的每条记录只会作用于状态一次（exactly-once），当然也可以降级为至少一次（at-least-once）。容错机制持续地制作分布式流数据流的快照。对于状

作者：编程之家时间：2022-09-04

必读|spark的重分区及排序

必读|spark的重分区及排序浪尖浪尖聊大数据昨天说了，mapPartitions的使用技巧。大家应该都知道mapPartitions值针对整个分区执行map操作。而且对于PairRDD的分区默认是基于hdfs的物理块，当然不可分割的话就是hdfs的文件个数。但是我们也可以给partitionBy算子传入HashPartiti

作者：编程之家时间：2022-09-04

Spark源码分析之：Shuffle

这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了，本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起，就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的，但是我们

作者：编程之家时间：2022-09-04

必读|spark的重分区及排序

必读|spark的重分区及排序浪尖浪尖聊大数据前几天，有人在星球里，问了一个有趣的算子，也即是RepartitionAndSortWithinPartitions。当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。昨天说了，mapPartitions的使用技巧。大家应该都知道mapPartit

作者：编程之家时间：2022-09-04

必读：Spark与kafka010整合

必读：Spark与kafka010整合浪尖浪尖聊大数据SparkStreaming与kafka010整合读本文之前，请先阅读之前文章：必读：再讲Spark与kafka0.8.2.1+整合SparkStreaming与kafka0.10的整合，和0.8版本的directStream方式很像。Kafka的分区和spark的分区是一一对应的，可以获取offsets和元数据

作者：编程之家时间：2022-09-04

2021-03-18

Spark单词计数先启动Hadoop,确保9000端口能被访问1.进入/usr/local/src目录解压,重命名为sparktar-xvfspark-3.1.1-bin-hadoop3.2ln-sv./src/spark-3.1.1-bin-hadoop3.2./spark2.进入/spark/conf目录cd/usr/local/spark/confcpspark-env.sh.templatespark-en

作者：编程之家时间：2022-09-04

Spark Core读取ES的分区问题分析

SparkCore读取ES的分区问题分析浪院长浪尖聊大数据ES也是比较火热，在日志数据分析，规则分析等确实很方便，说实话用esstack浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程，有需要的暂时别购买，到时候还找浪尖返现吧。写这篇文章的原因是前两天星球球

作者：编程之家时间：2022-09-04

重要|Spark driver端得到executor返回值的方法

重要|Sparkdriver端得到executor返回值的方法浪院长浪尖聊大数据有人说spark的代码不优雅，这个浪尖就忍不了了。实际上，说spark代码不优雅的主要是对scala不熟悉，spark代码我觉得还是很赞的，最值得阅读的大数据框架之一。今天这篇文章不是为了争辩Spark代码优雅与否，主要是讲一下

作者：编程之家时间：2022-09-04

戳破 | hive on spark 调优点

戳破|hiveonspark调优点浪尖浪尖聊大数据微信交流群里有人问浪尖hiveonspark如何调优，当时浪尖时间忙没时间回答，这里就给出一篇文章详细聊聊。强调一下资源设置调优，这个强经验性质的，这里给出的数值比例仅供参考。hiveonspark性能远比hiveonmr要好，而且提供了一样

作者：编程之家时间：2022-09-04

flink两三事 ----1历史

最近群里朋友让解释下flink的watermark机制，那就顺便也简单聊聊flink本身的二三事，本篇写扯一扯历史：大家都知道，大数据的起源在美国，当前的最热门的技术也都是美国掌握，hadoop，spark，学术界牛逼高校有伯克利，斯坦福等，商业上也比较成功，比如做平台的cloudera，hortonworks等都在美国。讲到组

作者：编程之家时间：2022-09-04

戳破 | hive on spark 调优点

戳破|hiveonspark调优点浪尖浪尖聊大数据hiveonspark性能远比hiveonmr要好，而且提供了一样的功能。用户的sql无需修改就可以直接运行于hiveonspark。udf函数也是全部支持。本文主要是想讲hiveonspark在运行于yarn模式的情况下如何调优。下文举例讲解的yarn

作者：编程之家时间：2022-09-04

Spark SQL从入门到精通

SparkSQL从入门到精通浪尖浪尖聊大数据本文主要是帮助大家从入门到精通掌握sparksql。篇幅较长，内容较丰富建议大家收藏，仔细阅读。更多大数据，spark教程，请点击阅读原文加入浪尖知识星球获取。微信群可以加浪尖微信158570986。发家史熟悉sparksql的都知道，sparksql是

作者：编程之家时间：2022-09-04

Spark创建RDD的几种方式

通过集合创建RDDvalconf:SparkConf=newSparkConf().setAppName(this.getClass.getName).setMaster("local[*]")valsc=newSparkContext(conf)//方式一：parallelize方法创建RDD//valrdd:RDD[Int]=sc.parallelize(List(1,2,3,4))//方式二：makeRDD方法创建RD

作者：编程之家时间：2022-09-04

Spark往Redis里写入数据

以下是Redis连接池的代码:/***Redis连接池*/objectRedisClientextendsSerializable{valredisHost="192.168.115.142"valredisPort=6379valredisTimeout=30000lazyvalpool=newJedisPool(newJedisPoolConfig,redisHost,redisPort,redi

作者：编程之家时间：2022-09-04

大数据基础系列之提交spark应用及依赖管理

大数据基础系列之提交spark应用及依赖管理浪尖浪尖聊大数据在Spark的bin目录下的spark-submit脚本用于提交一个任务到集群中。因为是针对所有的集群管理器统一接口(local，Standalone，yarn，mesos)，所以不必为每一个集群管理器进行特殊的配置。一，打包应用的依赖如果你的代码依赖于

作者：编程之家时间：2022-09-04

Spark源码系列之Standalone模式下Spark应用的整个启动过程

Spark源码系列之Standalone模式下Spark应用的整个启动过程浪尖浪尖聊大数据一，Standalone模式下的spark角色大家都知道在Standalone模式下，spark一共有以下五种角色：sparksubmit，master，Worker，Driver，Executor。具体这五种角色在我们提交应用的时候起到哪些作用呢，我们下面就来详细

作者：编程之家时间：2022-09-04

Spark Structured Streaming高级特性

SparkStructuredStreaming高级特性浪尖浪尖聊大数据一，事件时间窗口操作使用StructuredStreaming基于事件时间的滑动窗口的聚合操作是很简单的，很像分组聚合。在一个分组聚合操作中，聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下，对于行的事件时间的每个窗口，维

作者：编程之家时间：2022-09-04

flink超越Spark的Checkpoint机制

flink超越Spark的Checkpoint机制浪尖浪尖聊大数据ApacheFlink提供容错机制，以持续恢复数据流应用程序的状态。该机制确保即使存在故障，程序的每条记录只会作用于状态一次（exactly-once），当然也可以降级为至少一次（at-least-once）。容错机制持续地制作分布式流数据流的快照。对于状

作者：编程之家时间：2022-09-04

AWS 大数据实战 Lab2 - 批量数据处理(三)

在本练习中，您将学习如何使用AmazonEMR（Spark）和AWSGlue（ETL）构建批量数据分析处理程序。为了使本实验的练习更加贴近实际的业务场景，我们模拟了完整的从数据产生（模拟历史数据和流数据）、数据存储、数据处理、到数据分析和数据可视化的完整过程（数据可视化在Lab3/Lab4中完成）。具体可

作者：编程之家时间：2022-09-04

Spark SQL从入门到精通

SparkSQL从入门到精通浪尖浪尖聊大数据本文主要是帮助大家从入门到精通掌握sparksql。篇幅较长，内容较丰富建议大家收藏，仔细阅读。更多大数据，spark教程，请点击阅读原文加入浪尖知识星球获取。微信群可以加浪尖微信158570986。发家史熟悉sparksql的都知道，sparksql是从

作者：编程之家时间：2022-09-04

Spark + ElasticSearch 构建电商用户标签系统实现精准营销

download:Spark+ElasticSearch构建电商用户标签系统实现精准营销课程利用Spark+ElasticSearch构建用户标签系统，利用Docker+DockerCompose实现项目的一键启停。涵盖数据同步、数据清洗、用户标签化等步骤，带你领略企业级数据平台的开发流程。老师还在课程中与你探讨数据平

作者：编程之家时间：2022-09-04