手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
浅析 Spark Shuffle 内存使用
在使用Spark进行计算时,我们经常会碰到作业(Job)OutOfMemory(OOM)的情况,而且很大一部分情况是发生在Shuffle阶段。那么在SparkShuffle中具体是哪些地方会使用比较多的内存而有可能导致OOM呢?为此,本文将围绕以上问题梳理Spark内存管理和Shuffle过程中与内存使用相
作者:编程之家 时间:2022-09-04
spark学习
spark版本:2.4.4scala版本:2.12.6jdk版本:8u221/usr/localmphadoop.tmp.dir/usr/localmp/usr/localamenode/usr/local/datanodemaster192.168.242.146192.168.242.144192.168.242.147(FSNamesystem.java:686)atorg.apache.hadoop.hdfs.server.namenode.
作者:编程之家 时间:2022-09-04
SPARK运行基本流程
1)构建sparkContext2)向资源管理器申请本次Spark运行需要的executor资源,并启动分布在各个节点上的executor3)sparkContext进行任务拆解,并生达成任务集合(taskSet)并将任务集合交给任务调度器(TaskScheduler)4)executor向任务调度器申请任务,任务调度器将任务分配给Executor并spa
作者:编程之家 时间:2022-09-04
电商用户画像环境搭建
众所周知,Hive的执行任务是将hql语句转化为MapReduce来计算的,Hive的整体解决方案很不错,但是从查询提交到结果返回需要相当长的时间,查询耗时太长。这个主要原因就是由于Hive原生是基于MapReduce的,那么如果我们不生成MapReduceJob,而是生成SparkJob,就可以充分利用Spark的快速执行能力
作者:编程之家 时间:2022-09-04
spark本地开发环境搭建及打包配置
在idea中新建工程image.png image.png删除新项目的src,创建moudleimage.png在父pom中添加spark和scala依赖,我们项目中用scala开发模型,建议scala,开发体验会更好(java、python也可以)<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/P
作者:编程之家 时间:2022-09-04
Spark安装配置
Scala基础语法学习的差不多了,先把spark安装上首先官网下载解压安装后进入到conf目录下修改文件名修改spark-env.sh(配置jdk路径)exportJAVA_HOME=/usr/local/java/jdk1.8.0_221修改slaves(添加子节点名)chun2chun3chun4chun5到此就配置好了然后发送个子节点即可
作者:编程之家 时间:2022-09-04
Spark学习02——创建DStream的方法
SparkStreaming提供两类内置流媒体源。基本来源:StreamingContextAPI中直接提供的源。示例:文件系统和套接字连接。高级资源:Kafka,Flume,Kinesis等资源可通过额外的实用程序类获得。基本来源如下,高级来源可参考官网例子:https://github.com/apache/spark/blob/master/exa
作者:编程之家 时间:2022-09-04
Spark2.2五SparkSQL读写Hive
IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"spark-sql"%"2.2.0",
作者:编程之家 时间:2022-09-04
SparkSQL(一)
一、概述 组件 运行机制 转 SparkSQL–从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157深入研究SparkSQL的Catalyst优化器(原创翻译) 更高效 查询优化 优化:把filter提前
作者:编程之家 时间:2022-09-04
spark笔记之DStream相关操作
DStream上的操作与RDD的类似,分为Transformations(转换)和OutputOperations(输出)两种,此外转换操作中还有一些比较特殊的操作,如:updateStateByKey()、transform()以及各种Window相关的操作。4.1 TransformationsonDStreams特殊的Transformations(1)UpdateStateByKeyOperationUpdate
作者:编程之家 时间:2022-09-04
spark解决org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow
原文链接:https://blog.csdn.net/zhao897426182/article/details/78282676使用sparksql的thriftjdbc接口查询数据时报这个错误Exceptioninthread"main"java.sql.SQLException:org.apache.spark.SparkException:Jobabortedduetostagefailu
作者:编程之家 时间:2022-09-04
Spark大数据学习1--Spark连接HIVE进行SQL查询
1.Spark可以连接Hive进行SQL查询,目前我了解的有如下两种(1)构建SparkContext,创建HiveContext对象,连接hive进行查询(2)直接采用SparkSession方式,enableHive2.使用第二种方式,直接使用SparkSession.sql()方法进行sql查询,返回一个DataFrame对象。3.maven的使用:(1)mavencompil
作者:编程之家 时间:2022-09-04
spark整合Phoenix相关案例
spark读取Phoenixhbasetable表到DataFrame的方式Demo1:方式一:sparkread读取各数据库的通用方式方式二:spark.load方式三:phoenixTableAsDataFrame(需要指定列名,留空就可以不指定列名)方式四:phoenixTableAsRDD(需要指定列名,留空就可以不指定列名)Demo2:方式一:方式二:Demo3:De
作者:编程之家 时间:2022-09-04
spark笔记之RDD编程API
4.1RDD的算子分类 Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。Action(动作):对rdd结果计算后返回一个数值value给驱动程序;例如:collect算子将数据集的所有元素收集完成返回给驱动程序。4.2Transfor
作者:编程之家 时间:2022-09-04
spark02
spark02自定义资源分配--executor-cores--executor-memory--total-executor-cores最大允许使用多少核数3台机器每个机器8cores1G--executor-cores--executor-memory--total-executor-coresexecutors81G 341G 341G
作者:编程之家 时间:2022-09-04
spark错误信息
1.windows10使用idea创建wordcount时,hadoop二进制 加 空指针异常。是因为没有hadoop,hadoop环境变量解决:配置下载hadoop,配置环境变量2.写的wordcount在spark集群上跑是19/09/1120:19:54INFOspark.SparkContext:Createdbroadcast0fromtextFileatWordCount.sc
作者:编程之家 时间:2022-09-04
Spark SQL Dataset 常用API 二
原文链接:https://blog.csdn.net/Brad_Q1/article/details/87529122TransformationUntypedAPI前面一篇写了SELECT这个API的一些主要用法,本文打算通过一个SQL示例来展开讲述下Dataset其他常用的UntypedAPI,比如filter(类似于where),join,groupby等等
作者:编程之家 时间:2022-09-04
Spark二-- RDD 的分布式共享变量八) -- 广播变量(二)
目录7.2广播变量7.2.1广播变量的作用7.2.2广播变量的API7.2.2.1使用广播变量的一般套路7.2.2.2使用 value 方法的注意点7.2.2.3使用 destroy 方法的注意点7.2.3广播变量的使用场景7.2.4扩展7.2广播变量目标理解为什么需要广播变量,以及其应用场景
作者:编程之家 时间:2022-09-04
基于Spark的交互式大数据预处理系统设计与实现七 Web站点搭建数据可视化
分享学习我的本科毕业论文,欢迎指教。 Web站点开发概述在web端主要负责从集群获取数据进行展示以及简单的数据图形化操作。获取数据沿用kafka工具实时从集群获取数据流处理结果,而后展示至web页面。为了快捷开发,本系统采用springboot为基础架构,实现的依旧是传统mvc模式,但基
作者:编程之家 时间:2022-09-04
Python3实战Spark大数据分析及调度 网盘分享
Python3实战Spark大数据分析及调度搜索QQ号直接加群获取其它学习资料:715301384 部分课程截图: 链接:https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg 提取码:cv9zPS:免费分享,若点击链接无法获取到资料,若如若链接失效请加群其它资源在群里,私聊管理员即可免费领取;群—
作者:编程之家 时间:2022-09-04
spark分布式的相关学习笔记
driver完成所有任务的调度和executor与cluster之间的协调。分为client和cluster模式。client模式是指driver在任务提交的机器上运行,cluster模式是指随机选择一台机器执行。job是指脚本中的action,一个action对应了一个job(transformation不会对应一个job)stage组成action/j
作者:编程之家 时间:2022-09-04
运行 jar
rzrm-rfincoHive.jar>>spark-submit--queue=mr--classcom.inco.hive.CNlawTOxml.Lge_SparkRead--masteryarn--num-executors10--executor-memory10g--total-executor-cores100--jars/opt/exlib/source-1.0.jar/home/liyingying/incoHive.j
作者:编程之家 时间:2022-09-04
Spark
SparkSparkSparkRDDRDD转换CheckPointSpark 基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage依赖底层文件系统(如HDFS)来存储每一个Stage的输出结果
作者:编程之家 时间:2022-09-04
基于spark的关系型数据库到HDFS的数据导入
packagecom.shenyuchong;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.spark.sql.SaveMode;importorg.apache.spark.sql.SparkSession;importjava.net.HttpURLConnection;imp
作者:编程之家 时间:2022-09-04
我们应该如何学习大数据?
对于大数据的学习,很多人都觉得这种技术性知识的学习,更多的是需要专业讲师的知道才能更加高效的学习,那么专业讲师又是以怎样的方式教授知识的呢?想要在大数据这个领域汲取养分,让自己壮大成长。分享方向,行动以前先分享下一个大数据交流分享资源群870097548,欢迎想学习,想转行
作者:编程之家 时间:2022-09-04
大数据开发技术生态Hadoop、Hive、Spark之间是什么关系
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所有需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己
作者:编程之家 时间:2022-09-04
java实现spark常用算子之mapPartitions
importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.FlatMapFunction;importorg.apache.spark.api.java.function.VoidFunction;importjava.util.
作者:编程之家 时间:2022-09-04
Spark学习笔记——进阶
不适合人类阅读的学习笔记有问题经常去stackoverflow.com上找找或者直接去看官方的API原版或者翻译版:官方文档的中文版DataSet与DataFrameDataset是特定域对象中的强类型集合,它可以使用函数或者相关操作并行地进行转换等操作。每个Dataset都有一个称为DataFrame的非类
作者:编程之家 时间:2022-09-04
Update:sparksql:第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8.Dataset(DataFrame)的基础操作8.1.有类型操作8.2.无类型转换8.5.Column对象9.缺失值处理10.聚合11.连接8.Dataset(DataFrame)的基础操作导读这一章节主要目的是介绍 Dataset 的基础操作,当然, DataFrame 就是 Dataset,所以这些操作大部
作者:编程之家 时间:2022-09-04
Spark(二): 内存管理
Spark作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块;Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark1.5和之前版本里,两者是静态配置的,不支持借用,s
作者:编程之家 时间:2022-09-04
上一页
28
29
30
31
32
33
34
35
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native