手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
【面试必会】java的字符常量和字符串常量的区别
一、对Kafka的认识1.Kafka的基本概念2.安装与配置3.生产与消费4.服务端参数配置二、生产者1.客户端开发必要的参数配置消息的发送序列化分区器生产者拦截器2.原理分析整体架构元数据的更新3.重要的生产者参数三、消费者1.消费者与消费组2.客户端开发必
作者:编程之家 时间:2022-09-04
Spark Operator资料收集
SparkOperator浅析SparkOperator是Google基于Operator模式开发的一款的工具helmrepoaddspark-operatorhttps://googlecloudplatform.github.io/spark-on-k8s-operatorhelminstallmy-releasespark-operator/spark-operator--namespacespark-operator--create-n
作者:编程之家 时间:2022-09-04
spark left join 和 right join 的坑
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见Spark异常问题汇总问题描述在开发SparkSQL的时候,遇到了一个问题一个小表3G左右,然后需要leftjoin两个大表,一个150
作者:编程之家 时间:2022-09-04
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.HadoopK
启动spark-shell时,报错如下:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)Vatorg.apache.hadoop.security.HadoopKerberosName.setConfiguration(HadoopKerbero
作者:编程之家 时间:2022-09-04
Filter
packagesparkcoreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectDemo03Filter{defmain(args:Array[String]):Unit={//创建spark环境valconf:SparkConf=newSparkConf().setAppName("Filter").setMaste
作者:编程之家 时间:2022-09-04
Spark SQL一DataFrame对string类型列进行加1操作
代码如下:packagecom.github.ralgond.sparkjavaapi.sql;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;importstaticorg.apache.spark.sql.functions.col;publicclassSql{ publicstaticvoi
作者:编程之家 时间:2022-09-04
Spark集群的三种部署模式
Spark有主要有三种部署模式:Spark独立服务器模式、基于YARN的Spark、基于Mesos的Spark。1.Spark独立服务器模式独立服务器模式使用内置的调度器,因而不需要任何外部调度器,如YARN或Mesos。要以独立服务器模式安装Spark,需要将Spark的二进制安装文件复制到集群的所有机器上。独
作者:编程之家 时间:2022-09-04
Consider boosting spark.yarn.executor.memoryOverhead
前言本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见Spark异常问题汇总问题描述sparksubmit报错:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task
作者:编程之家 时间:2022-09-04
spark streaming 1
packagecom.shujia.spark.streamingimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.dstream.{DStream,ReceiverInputDStream}importorg.apache.spark.streaming.{Durations,StreamingContext}objectDemo1WordCount{defmain(args:Array
作者:编程之家 时间:2022-09-04
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
stypora-copy-images-to:imgtypora-root-url:./SparkDay08:SparkSQL01-[了解]-昨日课程内容回顾上次课程主要讲解3个方面内容:SparkSQL模块概述、DataFrame数据集及综合案例分析。1、SparkSQL模块概述 -发展史【前世今生】 Shark->SparkSQL(1.0)->DataFram
作者:编程之家 时间:2022-09-04
SparkOnHive
packagecom.shujia.spark.sqlimportorg.apache.spark.sql.{DataFrame,SaveMode,SparkSession}objectDemo6SparkOnHive{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("submit&quo
作者:编程之家 时间:2022-09-04
spark知识点图解
cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请
作者:编程之家 时间:2022-09-04
Spark3自适应查询计划Adaptive Query Execution,AQE
动态合并shuffle分区(Dynamicallycoalescingshufflepartitions)动态调整join策略(Dynamicallyswitchingjoinstrategies)动态优化数据倾斜join(Dynamicallyoptimizingskewjoins)参数:spark.sql.adaptive.enabled默认关闭,开启此参数后上述三种策略才会执行1、动态优化
作者:编程之家 时间:2022-09-04
spark练习 stu 行转列 列转行
packagecom.shujia.spark.sqlimportorg.apache.spark.sql.{DataFrame,SparkSession}objectDemo8Stu{defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().appName("stu").master("local
作者:编程之家 时间:2022-09-04
Hive、Spark、Impala原理阅读笔记
前言-从Hadoop说起什么是HadoopApacheHadoop软件库是一个框架,它允许使用简单的编程模型,实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障,从单个机器扩展到数千台机器(这些机器可以是廉价的),每个机器提供本地计算和存储,而不是
作者:编程之家 时间:2022-09-04
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
stypora-copy-images-to:imgtypora-root-url:./SparkDay02:Spark基础环境(二)Hadoop3.0-HDFS https://www.bilibili.com/video/BV1yX4y1K7LqHadoop3.0-MapReduce https://www.bilibili.com/video/BV1Tf4y167U8Hadoop3.0-yarn https://www.bilibili.com/video/BV1
作者:编程之家 时间:2022-09-04
Partition
packagecom.shujia.spark.coreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{Partitioner,SparkConf,SparkContext}objectDemo13Patition{defmain(args:Array[String]):Unit={valconf:SparkConf=newSparkConf().setMaster(&
作者:编程之家 时间:2022-09-04
spark streaming 2 streaming on RDD
packagecom.shujia.spark.streamingimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.{DataFrame,SparkSession}importorg.apache.spark.streaming.dstream.ReceiverInputDStreamimportorg.apache.spark.streaming.{Durations,Stream
作者:编程之家 时间:2022-09-04
Spark六Shuffle
原文链接:https://0x0fff.com/spark-architecture-shuffle如上图所示,橙色箭头表示shuffle阶段,箭头的起始端称为mapper端,箭头结束端称为reducer。在Spark中,有多种shuffle的实现,它取决于参数spark.shuffle.manager。一共有三个选项:hash,sort,tungsten-sort,其中从Spark1.2.0开
作者:编程之家 时间:2022-09-04
spark优化总结
spark优化:一、代码优化:1.避免创建重复的RDD2.对多次使用的rdd进行缓存缓存级别一般使用MEMORY_AND_DISK_SER3.使用高性能的算子(reducebykey,foreachpatition[一般用于和外部数据库进行连接时],coalelce【合并小文件】)4.避免使用shuffle类的算子5.广播大变量 mapjoin6.优
作者:编程之家 时间:2022-09-04
Spark SQL二关于schema
加载csv文件时参数inferSchema会起作用比如下面代码:packagecom.github.ralgond.sparkjavaapi.sql;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SparkSession;publicclassSql{ publicstaticvoidmain(Strin
作者:编程之家 时间:2022-09-04
关于Spark默认并行度spark.default.parallelism的理解
spark.default.parallelism是指RDD任务的默认并行度,Spark中所谓的并行度是指RDD中的分区数,即RDD中的Task数。当初始RDD没有设置分区数(numPartitions或numSlice)时,则分区数采用spark.default.parallelism的取值。Spark作业并行度的设置代码如下:valconf=newSparkConf()
作者:编程之家 时间:2022-09-04
Idea开发Spark直接以yarn-cluster模式提交到Ambari集群的解决方案
一.背景介绍许多中小型企业使用Ambari去管理自己的大数据集群,以Spark作为主要的计算框架去实现数据的分析。通用的Spark的开发调试流程是往往需要以下流程:Idea上进行开发,并使用sparklocal模式进行调试。打包程序放到测试分布式环境上进行sparkonyarnclient模式进行调试。使用
作者:编程之家 时间:2022-09-04
[spark] spark2.4运行在k8s
准备:ClientVersion:version.Info{Major:"1",Minor:"21",GitVersion:"v1.21.3",GitCommit:"ca643a4d1f7bfe34773c74f79527be4afd95bf39",GitTreeState:"clean",BuildDate:"2021-07-15T21:04:39Z",GoVers
作者:编程之家 时间:2022-09-04
spark任务提交流程源码分析
我这里使用spark2.4.4版本;1.入口脚本与入口类进入org.apache.spark.deploy.SparkSubmit类的main方法overridedefmain(args:Array[String]):Unit={valsubmit=newSparkSubmit(){self=>overrideprotecteddefparseArguments(args:Array[
作者:编程之家 时间:2022-09-04
Spark的两种核心Shuffle详解
在MapReduce框架中,Shuffle阶段是连接Map与Reduce之间的桥梁,Map阶段通过Shuffle过程将数据输出到Reduce阶段中。由于Shuffle涉及磁盘的读写和网络I/O,因此Shuffle性能的高低直接影响整个程序的性能。Spark也有Map阶段和Reduce阶段,因此也会出现Shuffle。
作者:编程之家 时间:2022-09-04
Spark Shuffle和Mapreduce Shuffle
SparkShuffle和MapreduceShuffle的区别MRShuffleMRshuffleSparkShuffle中包括HashShuffle(优化和未优化)、sortShuffle、BypassMergeSortShuffleMRShuffle包括MapShuffle和ReduceShuffle//MRShuffleMap端Shuffle从Map方法之后开始:环形缓冲区刷写、分区排序(分区
作者:编程之家 时间:2022-09-04
Spark算子介绍和比较
转换算子1)map(func):返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成.2)mapPartitions(func):类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]。假设有N个元素,有M个分区,那
作者:编程之家 时间:2022-09-04
spark-sql 笔记
1、get_json_object 返回json键值selectget_json_object('{"a":"dd"}','$.a');ddselectget_json_object('{"b":"c"}','$.a');//json键“b”≠a这里没有返回值➜selectget_json_object('{&quo
作者:编程之家 时间:2022-09-04
大数据学习27—— DataSet和DataFrame
DataFrame是spark1.3之后引入的分布式集合,DataSet是spark1.6之后引入的分布式集合。在spark2.0之后,DataFrame和DataSet的API统一了,DataFrame是DataSet的子集(DataSet[Row]),DataSet是DataFrame的扩展。 DataFrameDataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一
作者:编程之家 时间:2022-09-04
上一页
74
75
76
77
78
79
80
81
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native