Spark - 编程之家

No module named 'pyspark.streaming.kafka'

一、问题描述spark版本：2.4.7pyspark版本：3.1.1直接使用frompyspark.streaming.kafkaimportKafkaUtils会提示这个错误。二、解决方法1、使用新的apihttps://stackoverflow.com/questions/61891762/spark-3-x-integration-with-kafka-in-pythonhttps://spark.apache.org/do

作者：编程之家时间：2022-09-04

spark教程-Pyspark On Yarn 的模块依赖问题

原理简述Yarn模式是把资源统一交给Yarn集群来管理，其优点在于实现了application的多样性，如MapReduce程序、HBase集群、Storm集群、spark集群等；Yarn模式有两种运行模式：client和cluster，区别在于 client模式的Driver运行在client端，而client端可能是spar

作者：编程之家时间：2022-09-04

HiveOnSpark

Hive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,包含Hive支持之后,SparkSQL可以访问Hive表,对表进行创建,查询等操作,同时还能支持SQL或HQL1、内置hive：在安装Spark的同时就支持hive操作,使用是本地文件系统作为存储,使用默认数据库,使用版本是1.2.12、外

作者：编程之家时间：2022-09-04

大数据学习路线图

从今天开始，小懿就要开始给大家出一套从头开始学习大数据的教程了，这个教程全部都是以文章的形式开始推送，适合有两三年工作经验的开发工程师们来进行学习,在学习大数据之前，我们需要知道都需要学习哪些内容。第一章节：基础需要1.linux操作基础linux系统简介与安装linux常用命

作者：编程之家时间：2022-09-04

PySpark 查询数据库信息

前言最近学的东西有些杂乱无章，用到什么就要学习什么，简单记录一下所学的东西，方便后面的巩固学习。pyspark简单查询数据库的一些信息程序导入环境设置frompyspark.sqlimportSparkSession,RowfrompysparkimportSQLContextfrompyspark.sql.functionsimportudf,

作者：编程之家时间：2022-09-04

大数据roadmap

该roadmap是对自身大数据知识的一个概括和梳理，之后会写一些博客对这些知识点进行展开。大数据基础HadoopHDFSMRYarnSparkspark的原理spark常用算子。spark参数调优。Flink流计算Hive/Hbase/Flume大数据中还有其他的组件，比如作为数仓处理的Hive

作者：编程之家时间：2022-09-04

Spark一Spark介绍

一、Spark的介绍发展前景：1、目前许多领域的应用数据爆炸式增长，与前所未有的数据收集规模；例如：电子商务、社交网络、计算机生物、自媒体、公安交通、运营商等等。2、大规模数据处理和分析系统越来越流行和重要。具备良好特性如通用性、容错性、高性能的大数据处理引擎是当前

作者：编程之家时间：2022-09-04

集群运行spark程序： java.lang.IllegalStateException: Subprocess exited with status 1. Command ran: ****

————当在集群模式下提交spark程序进行运行时，报错： java.lang.IllegalStateException:Subprocessexitedwithstatus1.Commandran:******************1.首先寻找问题出现的原因：原因是基于Spark程序中调用的执行程序或命令无法正常执行的原因。2.解决方法：由于是s

作者：编程之家时间：2022-09-04

1.Spark ML学习笔记—Spark MLlib 与 Spark ML、Pipelines 的主要概念

本文目录如下：第1章Spark机器学习简介1.1SparkMLlib与SparkML1.1.1SparkMLlib1.1.2SparkML(重点)1.2Pipelines的主要概念1.2.1Transformer(转换器)1.2.2Estimator(模型学习器)1.3实例:Estimator,Transformer,Param第1章Spark机器学习简介1.

作者：编程之家时间：2022-09-04

技术选型的一点个人思考

目录1.前言2.效率2.1没有绝对的效率2.2效率是否绝对重要3环境3.1国内开发大环境3.2技术社区的影响4团队4.1团队负责人及核心骨干的技术积累以及技术偏好1.前言这个题目有点大。工作也有些年头，从开始入行的被动接受，什么流行就学什么;到有一些想法，会去思考为什么使用这种技术;再

作者：编程之家时间：2022-09-04

Spark DataFrame 的创建和保存

前言DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。DataFrame创建法一、从不同类型的文件中加载数据创建DataFrame，spark.read操作spark.read.json(“testJson.json”)或者spark.read.format(“json”).load(

作者：编程之家时间：2022-09-04

Spark2.3配置项

来源：https://spark.apache.org/docs/2.3.0/configuration.html AvailablePropertiesMostofthepropertiesthatcontrolinternalsettingshavereasonabledefaultvalues.Someofthemostcommonoptionstosetare:ApplicationPropertiesPropertyNameDef

作者：编程之家时间：2022-09-04

Spark--spark核心编程RDD

RDDRDD1.什么是RDD弹性分布式数据集数据抽象不可变可分区、并行计算2.核心属性3.执行原理4.基础编程4.1RDD创建4.2RDD并行度与分区4.3RDD转换算子1）map2）mapPartitions3）mapPartitionsWithIndex4）flatMap5）glom6）groupBy7）filter8）sample9）distinct10）coalesce11）repartition12）s

作者：编程之家时间：2022-09-04

SQL任务运行时间省40%，后悔没早从Hive迁到Spark……

一、迁移背景 Spark自从2010年面世，到2020年已经经过十年的发展，现在已经发展为大数据批计算的首选引擎，在滴滴Spark是在2015年便开始落地使用，不过主要使用的场景是更多在数据挖掘和机器学习方向，对于数仓SQL方向，主要仍以HiveSQL为主。下图是当前滴滴内部SQL任务的架构图

作者：编程之家时间：2022-09-04

sqprk集群上使用自定义udf函数，出现无法序列化的错误

在spark集群上，将读取到的csv文件生成的datafream，需要对其中一列进行转化，内置的udf函数已经不能满足需求所以需要自定义一个udf，但是在使用的时候报错，如下Exceptioninthread"main"org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.Clos

作者：编程之家时间：2022-09-04

Spark 性能优化

1. 避免创建重复的RDD2. 尽可能复用同一个RDD3. 对多次使用的RDD进行持久化//如果要对一个RDD进行持久化，只要对这个RDD调用cache()和persist()即可。//正确的做法。//cache()方法表示：使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。//此时再对rdd1执行两

作者：编程之家时间：2022-09-04

Spark 常规性能调优-参数

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后。bin/spark-submit\--classcom.xxx.xxx.Analysis\--masteryarn\--deploy-modecluster--num-executors50\--executor-c

作者：编程之家时间：2022-09-04

pyspark：RDD：groupByKey()，reduceByKey()

1.parallelize()创建RDD：words=sc.parallelize([("hadoop",1),("is",1),("good",1),\("spark",1),("is",1),("fast",1),("spark",1),("is",1),\("better",1)])

作者：编程之家时间：2022-09-04

2021-09-16

文章目录1.课题简介2.AnyScan聚类框架的具体流程3.并行化的思路4.主动学习5.AnyTime算法（任意时间算法）6.Hadoop7.Spark1.课题简介基于主动学习的分布式大规模网络聚类框架1.研究背景当今世界已经进入了大数据信息化时代，这些大数据包含了人们生产活动的各方面

作者：编程之家时间：2022-09-04

spark之交集并集差集拉链

spark之交集并集差集拉链 defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setMaster("local[*]").setAppName("Operator")valsc=newSparkContext(sparkConf)//TODO算子-双Value类型//交集，

作者：编程之家时间：2022-09-04

小白学spark日记——idea中用Spark Stuctured Streaming出现的问题

问题一： Spark Stuctured Streaming没有指定运行地点，则认为是在本地虚拟机上运行，但配置文件中为hdfs两者冲突，需要配置问题二：Hadoop权限问题：添加：

作者：编程之家时间：2022-09-04

1.Spark 学习成果转化—德国人贷款情况分析—各职业人群贷款目的Top3

本文目录如下：第1例德国贷款群体情况分析1.1数据准备1.1.1数据库表准备1.1.2数据库表字段解释1.1.3在IDEA中创建数据库表并导入数据1.2需求1：各职业人群贷款目的Top31.2.1需求简介1.2.2需求分析1.2.3功能实现1.3需求2：各职业人群贷款目的Top3(II)1.2.1需

作者：编程之家时间：2022-09-04

spark的sortShuffleManager解析

标题sortShuffleManager一、注册ShuffleHandle的策略首先，在shuffle过程中满足以下条件，选择BypassMergeSortShuffleHandle：1）map端没有聚合操作2）shufflereadpartitions<=spark.shuffle.sort.bypassMergeThreshold(阈值默认为200)其次，满足以下条件，选择SerializedShuffle

作者：编程之家时间：2022-09-04

spark解析json数据

一、scala.util.parsing.json.JSONimportscala.util.parsing.json.JSONvaldata="""["美食|1.0"]"""JSON.parseFull(data).get.asInstanceOf[List[String]]二、com.alibaba.fastjson1.添加依赖<dependency><groupI

作者：编程之家时间：2022-09-04

Spark GraphX

ConceptGraphXisApacheSpark’sAPIforgraphsandgraph-parallelcomputation.GraphXisanewcomponentinSparkforgraphsandgraph-parallelcomputation.Atahighlevel,GraphXextendstheSparkRDDbyintroducinganewGraphabstraction:adirecte

作者：编程之家时间：2022-09-04

Spark原理及源码解析【第六阶段模块四】

简答题：以下代码：importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectJoinDemo{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local

作者：编程之家时间：2022-09-04

Spark作业

Streaming新建一个txt文件用来保存黑名单在系统上找到scimportfindsparkfindspark.init()importpysparksc=pyspark.SparkContext(appName="myAppName")有的电脑直接就能找到，就不需要上面这段代码了调取Streamingfrompyspark.sqlimportSparkSessionfrompy

作者：编程之家时间：2022-09-04

2021Java精选面试实战总结整理，Java中级面试含答案

一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开

作者：编程之家时间：2022-09-04

Spark大数据分析实战-公司销售数据分析

文章目录需求一、数据字段说明1.1日期数据1.2订单头数据1.3订单明细数据二、分析步骤2.1计算所有订单中每年的销售单数、销售总额。2.2计算所有订单中每年的最大金额订单的销售额。2.3计算所有订单中每年最畅销的货品。2.4全部代码三、总结需求假设某公司为

作者：编程之家时间：2022-09-04

Spark任务中空间数据的序列化

一、引言 Spark是目前主流的分布式计算框架，通过利用内存存储中间计算结果的方式，优化了MapReduce框架并不擅长的迭代式计算。同时，Spark使用有向无环图（DirectedAcyclicGraph，DAG）统筹和优化整个计算流程。另外，Spark基于弹性分布式数据集RDD（ResilientDistributedDatasets）提供了

作者：编程之家时间：2022-09-04