Spark - 编程之家

spark streaming初始化过程

原文链接：https://www.jianshu.com/p/376a1d093bf8SparkStreaming是一种构建在Spark上的实时计算框架。SparkStreaming应用以Spark应用的方式提交到Spark平台，其组件以长期批处理任务的形式在Spark平台运行。这些任务主要负责接收实时数据流及定期产

作者：编程之家时间：2022-09-04

【Spark】Pipelines

同步于Buracag的博客在本节中，我们将介绍MLPipelines的概念。MLPipelines提供了一组基于DataFrame构建的统一的高级API，可帮助用户创建和调整实用的机器学习流程。文章目录1.管道中的主要概念1.1DataFrame1.2Pipeline组件1.2.1Transformers1.2.2Estimators1.2.3P

作者：编程之家时间：2022-09-04

第4节 Spark程序：1 - 9

五、Spark角色介绍Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了解其架构。Spar

作者：编程之家时间：2022-09-04

Scala 系列六—— 常用集合类型之 List & Set

一、List字面量List是Scala中非常重要的一个数据结构，其与Array(数组)非常类似，但是List是不可变的，和Java中的List一样，其底层实现是链表。scala>vallist=List("hadoop","spark","storm")list:List[String]=List(hadoop,spark,storm)//List是不可变sc

作者：编程之家时间：2022-09-04

spark从kafka读取并发问题

某些spark分区已经处理完数据，另一些分区还在处理数据，从而导致这个批次的作业消耗时间变长，甚至导致spark作业无法及时消费kafka中的数据。解决办法：1）修改kafkaRDD类的getPartition方法：就是通过设置topic.partition.subconcurrency参数，如果这个参数等于1，整个函数的执行效果和之

作者：编程之家时间：2022-09-04

Spark四种部署模式

Spark集群三种部署模式的区别Spark的四种部署方式概括

作者：编程之家时间：2022-09-04

大数据面试题

转发自:https://blog.csdn.net/godblesspl/article/details/79393958kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1

作者：编程之家时间：2022-09-04

Spark RPC之Worker启动、注册、发送心跳

原文链接：https://blog.csdn.net/u011564172/article/details/57413136文章目录概要1.ClassWorker1.1ClassWorker之onStart()1.2ClassWorker之receive()1.3ClassWorker之receiveAndReply()1.4ClassWorker之onStop()2.ObjectWorker2.1Obj

作者：编程之家时间：2022-09-04

Spark Broadcast广播变量总结

原文链接：https://www.cnblogs.com/yy3b2007com/p/10613035.html目录为什么要使用广播(broadcast)变量？Spark中Broadcast定义官网定义：Broadcast.scala类定义：为什么要使用广播(broadcast)变量？ Spark中因为算子中的真正逻辑是发送到Executo

作者：编程之家时间：2022-09-04

pyspark 启动命令汇总 local、yarn、standalone等

启动命令实在是太多了。。记录下 0.启动Pyspark默认情况下，pyspark会以spark-shell启动pyspark--masterlocal[*]local:让spark在本地模式运行【*】代表使用全部的线程，也可以规定使用的线程 1.HadoopYarn启动pyspark首先启动Hadoopyarn， start-all.sh

作者：编程之家时间：2022-09-04

pyspark 启动命令汇总 local、yarn、standalone

启动命令实在是太多了。。记录下 0.启动Pyspark默认情况下，pyspark会以spark-shell启动pyspark--masterlocal[*]local:让spark在本地模式运行【*】代表使用全部的线程，也可以规定使用的线程 1.HadoopYarn启动pyspark首先启动Hadoopyarn， start-all.sh

作者：编程之家时间：2022-09-04

spark sql 之 RDD与DataFrame互相转化

一、RDD转DataFrame方法一：通过caseclass创建DataFramesimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextobjectTestDataFrame{defmain(args:Array[String]):Unit={/***1

作者：编程之家时间：2022-09-04

spark rpc

Spark2rpc一、前言Spark在1.6之前的通信使用的是akka框架，在1.6可选用akka还是netty，2.0之后摒弃akka。Akka也是一个优秀的框架，为什么摒弃它官方给出的原因如下：1、很多Spark用户自己也是使用Akka，但是由于Akka版本之间无法互相通信，这就要求用户必须使用跟Spark完全相同的版本，导致

作者：编程之家时间：2022-09-04

独孤九剑-Spark面试80连击(下)

原文链接：https://mp.weixin.qq.com/s/5YhDK0T3JUHySVCW13bv2Q订正：第37题题目应为：说说Spark的WAL（预写日志）机制？SparkSQL和StructuredStreaming会另起专题介绍,欢迎持续关注。39.Spark的UDF?因为目前SparkSQL本身支持的函数有限，一些常用的函数都

作者：编程之家时间：2022-09-04

数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常

作者：编程之家时间：2022-09-04

User协同过滤基于Spark实现

项目地址：https://github.com/ChanKamShing/UserCF_Spark.git推荐系统的作业流程：召回/match（推荐引擎）->物品候选集->过滤->排序->策略（保证结果多样性）->推荐list协同过滤CF属于第一阶段，我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准，包括：基于相似用户、基于相

作者：编程之家时间：2022-09-04

Spark整合Kafka并手动维护offset

Spark整合Kafka两种模式说明开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理，在Spark1.3版本后，KafkaUtils里面提供了两种创建DStream的方法：1.Receiver接收方式：KafkaUtils.createDstream有一个Receiver作为常驻的Task运行在Executor等待数据，但是

作者：编程之家时间：2022-09-04

Spark源码[1]-内存管理模型

原文链接：http://blog.leanote.com/post/kobeliuziyang/Spark-%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86%E6%A8%A1%E5%9E%8B-2Spark源码[1]-内存管理模型目录1.1堆内内存1.2Executor内部内存结构1.3堆外内存1.4内存动态调整机制 2Spar

作者：编程之家时间：2022-09-04

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1——第一个Spark程序：单词数统计添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码1，一次运行通过importscala.Tuple2;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apa

作者：编程之家时间：2022-09-04

Spark总结

1.基础1.RDD：弹性分布式数据集、不可变分布式对象集合2.Spark会自动将函数发到各个执行器节点上3.setMaster('local')可以让spark运行在单机单线程上，而无需连接到集群4.RDD的惰性计算：只有在第一次行动操作中用到时，才会真正计算5.每次transformation会返回一个新的RDD6

作者：编程之家时间：2022-09-04

Comprehensive Introduction to Apache Spark

原文链接：https://my.oschina.net/u/1474965/blog/1830780IntroductionIndustryestimatesthatwearecreatingmorethan2.5Quintillionbytesofdataeveryyear.Thinkofitforamoment– 1Qunitillion=1MillionBillion!Canyou

作者：编程之家时间：2022-09-04

spark的灵魂：RDD和DataSet

spark建立在抽象的RDD上，把不同处理的数据的需求转化为RDD，然后对RDD进行一系列的算子运算，从而得到结果。RDD是一个容错的，并行的数据结构，可以将数据存储到磁盘和内存中，并能控制数据分区，并提供了丰富的API来操作数据。1：RDD的定义及五大特性剖析RDD是分布式内存的一个抽象概念，是一种高

作者：编程之家时间：2022-09-04

Spark — Shuffle操作

Spark的shuffle操作 Spark的shuffle操作分为HashShuffle和SortShuffle，两种shuffle（还有一种tungsten-sortshuffle，这个没有研究过）。其中在Spark1.2版本之前默认的都是HashShuffle操作，HashShuffle有一个非常严重的弊端就是在没有开启consolidation机制的情况下，会产生大量

作者：编程之家时间：2022-09-04

RDD&Dataset&DataFrame

Dataset创建objectDatasetCreation{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().appName("SparkSessionTest").getOrCreate()importspark.implicits._//1:rangevalds1=spark.range

作者：编程之家时间：2022-09-04

Spark入门介绍

前言Spark自从2014年1.2版本发布以来，已成为大数据计算的通用组件。网上介绍Spark的资源也非常多，但是不利于用户快速入门，所以本文主要通从用户的角度来介绍Spark，让用户能快速的认识Spark，知道Spark是什么、能做什么、怎么去做。Spark是什么摘用官网的定义：Spark是一个快速的

作者：编程之家时间：2022-09-04

spark笔记之编写Spark SQL程序操作HiveContext

HiveContext是对应spark-hive这个项目,与hive有部分耦合,支持hql,是SqlContext的子类，在Spark2.0之后，HiveContext和SqlContext在SparkSession进行了统一，可以通过操作SparkSession来操作HiveContext和SqlContext。1.1．添加pom依赖[mw_shl_code=applescript,true]1.2．代码实现

作者：编程之家时间：2022-09-04

Spark SQL 和 DataFrames 支持下面的数据类型 :

此贴来自汇总贴的子问题，只是为了方便查询。总贴请看置顶帖：pyspark及Spark报错问题汇总及某些函数用法。https://blog.csdn.net/qq0719/article/details/86003435

作者：编程之家时间：2022-09-04

spark-part1

sparkSpark是什么?ApacheSpark是一个快速的,多用途的集群计算系统,相对于HadoopMapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行运算.Spark的特点(优点)速度快Spark的在内存时的运行速度是HadoopMapReduce的100倍

作者：编程之家时间：2022-09-04

spark笔记之DStream

3.1什么是DStreamDiscretizedStream是SparkStreaming的基础抽象，代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上，DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据，如下图：对数据的操作也是按照RDD为单位来进行的SparkStreaming使用数

作者：编程之家时间：2022-09-04

spark04

spark04joinleftOuterjoinrightOuterJoincogroupscala>vararr=Array(("zhangsan",200),("lisi",300),("wangwu",350))arr:Array[(String,Int)]=Array((zhangsan,200),(lisi,300),(wangwu,350)) scala>vararr1=

作者：编程之家时间：2022-09-04