手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
spark dataframe新增一列的四种方法
dataframe新增一列有如下四种常用方法:方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程直接写入SQL代码中方法四:以上三种是增加一个有判断的列,如果想要增加一列唯一序号
作者:编程之家 时间:2022-09-04
一个spark MurmurHash map类加器
spark累加器的理论概念不用多说原生支持的long/couble数值类加和list,但生产上实际使用场景,map<>类累加的用途非常广泛classCollectionAccumulator[T]extendsAccumulatorV2[T,java.util.List[T]]classDoubleAccumulatorextendsAccumulatorV2[jl.Double,jl.Double]cla
作者:编程之家 时间:2022-09-04
spark-submit提交程序遇到错误,纠正记录
时间:2019年10月14日spark程序按照如下提交任务后报错./spark-submit--classcom.idengyun.HiveToEs2\--confspark.yarn.executor.memoryOverhead=6144\--confspark.shuffle.io.maxRetries=100\--confspark.shuffle.io.retryWait=60\--confspark.task.maxFailures=1
作者:编程之家 时间:2022-09-04
spark dataset 相同列名 join
具有部分相同、部分不同列名的两个Dataset按照部分相同、部分不同列相等进行join操作,有以下几种方式:valdf1=Seq((1,2,3),(1,1,1)).toDF("a","b","c")valdf2=Seq((1,2,4),(2,2,2)).toDF("a","b1","d")df1.show+---+---+---+|a|
作者:编程之家 时间:2022-09-04
spark_user_behavior_demo
备注:此代码没有任何实际作用,仅作为初学者学习用<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.1.1</version></dependency><dependency><groupId&g
作者:编程之家 时间:2022-09-04
面试系列五 之 项目涉及技术Spark
#一、Spark###1.1Spark有几种部署方式?请分别简要论述-1)Local:运行在一台机器上,通常是练手或者测试环境。-2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。-3)Yarn:Spark客户端直接连接Yarn,不需要额
作者:编程之家 时间:2022-09-04
Spark 持久化cache和persist的区别
1、RDD持久化Spark中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个RDD时,每个节点的其它分区都可以使用RDD在内存中进行计算,在该数据上的其他action操作将直接使用内存中的数据。这样会让以后的action操作计算速度加
作者:编程之家 时间:2022-09-04
提交Spark任务至YARN运行的3种方式
Spark作为新一代计算平台的闪亮明星,在我们的大数据平台中具有非常重要的作用,SQL查询、流计算和机器学习等场景都能见到它的身影,可以说平台应用的数据处理、计算和挖掘等场景都可以使用Spark进行开发。在默认的情况下,如果想向Spark提交计算任务,通常会使用Spark提供的Spark-Submit脚
作者:编程之家 时间:2022-09-04
Spark 性能调优
1.常规性能调优(1)最优资源配置:Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如
作者:编程之家 时间:2022-09-04
面试系列五 之 项目涉及技术Spark
一、Spark1.1Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。3)Yarn:Spark客户端直接连接Yarn,不需要额外构建Spark集
作者:编程之家 时间:2022-09-04
Spark之DAG
DAG(DirectedAcyclicGraph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换处理在Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parentRDD处理完成后,才能开始接下来的计算,因此宽依
作者:编程之家 时间:2022-09-04
Spark读取Hive分区表出现Input path does not exist的问题!!
Hive读取正常,不会报错,Spark读取数据就会出现报错信息:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:hdfs:/estcluster/user/hive/warehouse/....然后我们去查看一下表数据的具体在hdfs上的存储路径,去hdfs上查看,发现文件确实不存在!问题解决
作者:编程之家 时间:2022-09-04
spark-submit报错:Application application_1529650293575_0148 finished with failed status
前言记录spark-submit提交Spark程序出现的一个异常,以供第一次出现这种异常且不知道原因,该怎么解决的的同学参考。1、异常信息Exceptioninthread"main"org.apache.spark.SparkException:Applicationapplication_1529650293575_0148finishedwithfailedstatusato
作者:编程之家 时间:2022-09-04
Java技术栈ppt分享:大数据+架构篇+算法篇(阿里巴巴内部资料)
前言Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以
作者:编程之家 时间:2022-09-04
spark 写 parquet 文件到 hdfs 上、以及到本地
spark写parquet文件到本地packageSQLimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.{DataFrame,SparkSession}objectDemo7_2extendsApp{valspark:SparkSession=SparkSession.builder().master("local[4]").appName("dem
作者:编程之家 时间:2022-09-04
Spark中的内存计算是什么?
由于计算的融合只发生在Stages内部,而Shuffle是切割Stages的边界,因此一旦发生Shuffle,内存计算的代码融合就会中断。在Spark中,内存计算有两层含义:第一层含义就是众所周知的分布式数据缓存;第二层含义是Stage内的流水线式计算模式,通过计算的融合来大幅提升数
作者:编程之家 时间:2022-09-04
Spark分析sogou日志, RDD
importcom.hankcs.hanlp.HanLPimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}importscala.collection.immutable.StringOpsimportscala.collection.mutableobjectSoGou_WC{defmain(args:Array[String]):Unit={//准备环境//
作者:编程之家 时间:2022-09-04
ff
使用IDEA工具运行Spark的WordCount时,运行报错,报错信息如下Exceptioninthread"main"java.lang.NoSuchMethodError:scala.Product.$init$(Lscala/Product;)V atorg.apache.spark.SparkConf$DeprecatedConfig.<init>(SparkConf.scala:810) atorg.apache.spark.SparkConf
作者:编程之家 时间:2022-09-04
Spark SQL入门之wordcount案例
SparkSQL是Spark的核心模块,主要用以对结构化的数据(流数据&批数据)进行处理。SparkSQL依然是建立在RDD之上的ETL工具(数据源到数据仓库的一系列处理过程)。学习官网:http://spark.apache.org/docs/latest/sql-programming-guide.html一、SparkSQL数据抽象SparkSQL提供了DataFr
作者:编程之家 时间:2022-09-04
java数组初始化赋值,聪明人已经收藏了!
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发必
作者:编程之家 时间:2022-09-04
Spark中的checkpoint的简单介绍
为什么要用checkpoint呢?checkpoint的意思就是建立检查点,类似于快照,比如,在spark计算中,计算流程DAG很长,要是将整个DAG计算完成并得出结果,需要很长时间,在这等待时间中突然中间数据丢失,spark就会根据RDD的依赖关系从头到尾开始计算一遍,这样会很费性能的,怎么解决呢?这就需要用到
作者:编程之家 时间:2022-09-04
spark第六次课
importorg.apache.spark.{SparkConf,SparkContext}#导入需要的类objectTopN{ defmain(args:Array[String]):Unit={ valconf=newSparkConf().setAppName("TopN").setMaster("local")#设置一些配置 valsc=newSparkContext(conf)
作者:编程之家 时间:2022-09-04
java自学网址,源码+原理+手写框架
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发必
作者:编程之家 时间:2022-09-04
Spark-submit参数优化配置
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资
作者:编程之家 时间:2022-09-04
初步理解类加载运行机制和类加载过程,Java面试真题精选
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发2.原理分析3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发四、主题与分区1.主题的管理2.初识KafkaAdminCilent3.分区的管理4.如何选
作者:编程之家 时间:2022-09-04
Spark内核原理
Spark内核原理一、依赖关系Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrowdependency)和宽依赖(widedependency,也称shuffledependency).1.宽依赖(有
作者:编程之家 时间:2022-09-04
Spark SQL 原理
SparkSQL底层执行原理SparkSql对SQL语句的处理与关系型数据库类似,会有语法或词法的解析、绑定、优化、执行等过程。SparkSQL会先将SQL语句解析成抽象语法树AST,然后使用规则Rule对Tree进行绑定、优化等处理。其中SparkSQL由Core、Catalyst、Hive、Hive-ThriftServer四部分组成
作者:编程之家 时间:2022-09-04
spark-streaming
importorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.spark.SparkConfimportorg.apache.spark.rdd.RDDimportorg.apache.spark.streaming.{Seconds,StreamingContext}import
作者:编程之家 时间:2022-09-04
spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长计算Partition时间太长且产出orc单个文件中stripe个数太多问题解决方案
sparkSQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案参考文章:(1)sparkSQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中strip
作者:编程之家 时间:2022-09-04
Java开发面试题及答案,数据库原理及mysql应用教程答案
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发必
作者:编程之家 时间:2022-09-04
上一页
71
72
73
74
75
76
77
78
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native