手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
No module named 'pyspark.streaming.kafka'
一、问题描述spark版本:2.4.7pyspark版本:3.1.1直接使用frompyspark.streaming.kafkaimportKafkaUtils会提示这个错误。二、解决方法1、使用新的apihttps://stackoverflow.com/questions/61891762/spark-3-x-integration-with-kafka-in-pythonhttps://spark.apache.org/do
作者:编程之家 时间:2022-09-04
spark教程-Pyspark On Yarn 的模块依赖问题
原理简述Yarn模式是把资源统一交给Yarn集群来管理,其优点在于实现了application的多样性,如MapReduce程序、HBase集群、Storm集群、spark集群等;Yarn模式有两种运行模式:client和cluster,区别在于 client模式的Driver运行在client端,而client端可能是spar
作者:编程之家 时间:2022-09-04
HiveOnSpark
Hive是Hadoop上的SQL引擎,SparkSQL编译时可以包含Hive支持,包含Hive支持之后,SparkSQL可以访问Hive表,对表进行创建,查询等操作,同时还能支持SQL或HQL1、内置hive: 在安装Spark的同时就支持hive操作,使用是本地文件系统作为存储,使用默认数据库,使用版本是1.2.12、外
作者:编程之家 时间:2022-09-04
大数据学习路线图
从今天开始,小懿就要开始给大家出一套从头开始学习大数据的教程了,这个教程全部都是以文章的形式开始推送,适合有两三年工作经验的开发工程师们来进行学习,在学习大数据之前,我们需要知道都需要学习哪些内容。第一章节:基础需要1.linux操作基础linux系统简介与安装linux常用命
作者:编程之家 时间:2022-09-04
PySpark 查询数据库信息
前言最近学的东西有些杂乱无章,用到什么就要学习什么,简单记录一下所学的东西,方便后面的巩固学习。pyspark简单查询数据库的一些信息程序导入环境设置frompyspark.sqlimportSparkSession,RowfrompysparkimportSQLContextfrompyspark.sql.functionsimportudf,
作者:编程之家 时间:2022-09-04
大数据roadmap
该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。大数据基础HadoopHDFSMRYarnSparkspark的原理spark常用算子。spark参数调优。Flink流计算Hive/Hbase/Flume大数据中还有其他的组件,比如作为数仓处理的Hive
作者:编程之家 时间:2022-09-04
Spark一Spark介绍
一、Spark的介绍发展前景:1、目前许多领域的应用数据爆炸式增长,与前所未有的数据收集规模;例如:电子商务、社交网络、计算机生物、自媒体、公安交通、运营商等等。2、大规模数据处理和分析系统越来越流行和重要。具备良好特性如通用性、容错性、高性能的大数据处理引擎是当前
作者:编程之家 时间:2022-09-04
集群运行spark程序: java.lang.IllegalStateException: Subprocess exited with status 1. Command ran: ****
————当在集群模式下提交spark程序进行运行时,报错: java.lang.IllegalStateException:Subprocessexitedwithstatus1.Commandran:******************1.首先寻找问题出现的原因:原因是基于Spark程序中调用的执行程序或命令无法正常执行的原因。2.解决方法:由于是s
作者:编程之家 时间:2022-09-04
1.Spark ML学习笔记—Spark MLlib 与 Spark ML、Pipelines 的主要概念
本文目录如下:第1章Spark机器学习简介1.1SparkMLlib与SparkML1.1.1SparkMLlib1.1.2SparkML(重点)1.2Pipelines的主要概念1.2.1Transformer(转换器)1.2.2Estimator(模型学习器)1.3实例:Estimator,Transformer,Param第1章Spark机器学习简介1.
作者:编程之家 时间:2022-09-04
技术选型的一点个人思考
目录1.前言2.效率2.1没有绝对的效率2.2效率是否绝对重要3环境3.1国内开发大环境3.2技术社区的影响4团队4.1团队负责人及核心骨干的技术积累以及技术偏好1.前言这个题目有点大。工作也有些年头,从开始入行的被动接受,什么流行就学什么;到有一些想法,会去思考为什么使用这种技术;再
作者:编程之家 时间:2022-09-04
Spark DataFrame 的创建和保存
前言DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。DataFrame创建法一、从不同类型的文件中加载数据创建DataFrame,spark.read操作spark.read.json(“testJson.json”)或者spark.read.format(“json”).load(
作者:编程之家 时间:2022-09-04
Spark2.3配置项
来源:https://spark.apache.org/docs/2.3.0/configuration.html AvailablePropertiesMostofthepropertiesthatcontrolinternalsettingshavereasonabledefaultvalues.Someofthemostcommonoptionstosetare:ApplicationPropertiesPropertyNameDef
作者:编程之家 时间:2022-09-04
Spark--spark核心编程RDD
RDDRDD1.什么是RDD弹性分布式数据集数据抽象不可变可分区、并行计算2.核心属性3.执行原理4.基础编程4.1RDD创建4.2RDD并行度与分区4.3RDD转换算子1)map2)mapPartitions3)mapPartitionsWithIndex4)flatMap5)glom6)groupBy7)filter8)sample9)distinct10)coalesce11)repartition12)s
作者:编程之家 时间:2022-09-04
SQL任务运行时间省40%,后悔没早从Hive迁到Spark……
一、迁移背景 Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展为大数据批计算的首选引擎,在滴滴Spark是在2015年便开始落地使用,不过主要使用的场景是更多在数据挖掘和机器学习方向,对于数仓SQL方向,主要仍以HiveSQL为主。 下图是当前滴滴内部SQL任务的架构图
作者:编程之家 时间:2022-09-04
sqprk集群上使用自定义udf函数,出现无法序列化的错误
在spark集群上,将读取到的csv文件生成的datafream,需要对其中一列进行转化,内置的udf函数已经不能满足需求所以需要自定义一个udf,但是在使用的时候报错,如下Exceptioninthread"main"org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.Clos
作者:编程之家 时间:2022-09-04
Spark 性能优化
1. 避免创建重复的RDD2. 尽可能复用同一个RDD3. 对多次使用的RDD进行持久化//如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。//正确的做法。//cache()方法表示:使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。//此时再对rdd1执行两
作者:编程之家 时间:2022-09-04
Spark 常规性能调优-参数
Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后。bin/spark-submit\--classcom.xxx.xxx.Analysis\--masteryarn\--deploy-modecluster--num-executors50\--executor-c
作者:编程之家 时间:2022-09-04
pyspark:RDD:groupByKey(),reduceByKey()
1.parallelize()创建RDD:words=sc.parallelize([("hadoop",1),("is",1),("good",1),\("spark",1),("is",1),("fast",1),("spark",1),("is",1),\("better",1)])
作者:编程之家 时间:2022-09-04
2021-09-16
文章目录1.课题简介2.AnyScan聚类框架的具体流程3.并行化的思路4.主动学习5.AnyTime算法(任意时间算法)6.Hadoop7.Spark1.课题简介基于主动学习的分布式大规模网络聚类框架1.研究背景当今世界已经进入了大数据信息化时代,这些大数据包含了人们生产活动的各方面
作者:编程之家 时间:2022-09-04
spark之交集并集差集拉链
spark之交集并集差集拉链 defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setMaster("local[*]").setAppName("Operator")valsc=newSparkContext(sparkConf)//TODO算子-双Value类型//交集,
作者:编程之家 时间:2022-09-04
小白学spark日记——idea中用Spark Stuctured Streaming出现的问题
问题一: Spark Stuctured Streaming没有指定运行地点,则认为是在本地虚拟机上运行,但配置文件中为hdfs两者冲突,需要配置问题二:Hadoop权限问题:添加:
作者:编程之家 时间:2022-09-04
1.Spark 学习成果转化—德国人贷款情况分析—各职业人群贷款目的Top3
本文目录如下:第1例德国贷款群体情况分析1.1数据准备1.1.1数据库表准备1.1.2数据库表字段解释1.1.3在IDEA中创建数据库表并导入数据1.2需求1:各职业人群贷款目的Top31.2.1需求简介1.2.2需求分析1.2.3功能实现1.3需求2:各职业人群贷款目的Top3(II)1.2.1需
作者:编程之家 时间:2022-09-04
spark的sortShuffleManager解析
标题sortShuffleManager一、注册ShuffleHandle的策略首先,在shuffle过程中满足以下条件,选择BypassMergeSortShuffleHandle:1)map端没有聚合操作2)shufflereadpartitions<=spark.shuffle.sort.bypassMergeThreshold(阈值默认为200)其次,满足以下条件,选择SerializedShuffle
作者:编程之家 时间:2022-09-04
spark解析json数据
一、scala.util.parsing.json.JSONimportscala.util.parsing.json.JSONvaldata="""["美食|1.0"]"""JSON.parseFull(data).get.asInstanceOf[List[String]]二、com.alibaba.fastjson1.添加依赖<dependency><groupI
作者:编程之家 时间:2022-09-04
Spark GraphX
ConceptGraphXisApacheSpark’sAPIforgraphsandgraph-parallelcomputation.GraphXisanewcomponentinSparkforgraphsandgraph-parallelcomputation.Atahighlevel,GraphXextendstheSparkRDDbyintroducinganewGraphabstraction:adirecte
作者:编程之家 时间:2022-09-04
Spark原理及源码解析【第六阶段模块四】
简答题:以下代码:importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectJoinDemo{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local
作者:编程之家 时间:2022-09-04
Spark作业
Streaming新建一个txt文件用来保存黑名单在系统上找到scimportfindsparkfindspark.init()importpysparksc=pyspark.SparkContext(appName="myAppName")有的电脑直接就能找到,就不需要上面这段代码了调取Streamingfrompyspark.sqlimportSparkSessionfrompy
作者:编程之家 时间:2022-09-04
2021Java精选面试实战总结整理,Java中级面试含答案
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开
作者:编程之家 时间:2022-09-04
Spark大数据分析实战-公司销售数据分析
文章目录需求一、数据字段说明1.1日期数据1.2订单头数据1.3订单明细数据二、分析步骤2.1计算所有订单中每年的销售单数、销售总额。2.2计算所有订单中每年的最大金额订单的销售额。2.3计算所有订单中每年最畅销的货品。2.4全部代码三、总结需求假设某公司为
作者:编程之家 时间:2022-09-04
Spark任务中空间数据的序列化
一、引言 Spark是目前主流的分布式计算框架,通过利用内存存储中间计算结果的方式,优化了MapReduce框架并不擅长的迭代式计算。同时,Spark使用有向无环图(DirectedAcyclicGraph,DAG)统筹和优化整个计算流程。另外,Spark基于弹性分布式数据集RDD(ResilientDistributedDatasets)提供了
作者:编程之家 时间:2022-09-04
上一页
76
77
78
79
80
81
82
83
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native