手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
spark-数据倾斜
spark-数据倾斜1.解决方案1.1使用HiveETL预处理数据1.2、过滤少数导致倾斜的key1.3、提高shuffle操作的并行度1.4、双重聚合1.5、将reducejoin转为mapjoin1.6、采样倾斜key并分拆join操作1.7、使用随机前缀和扩容RDD进行join
作者:编程之家 时间:2022-09-04
pyspark
1:PySpark类库和标准Spark框架的简单对比 2:安装将/spark/python/pyspark 复制到 python的安装包中 或者pipinstallpyspark (注意版本对应关系)3:sparkonhive本质:将hive的执行引擎替换为spark的执行引擎! 配置:校验hive的是否正常运行
作者:编程之家 时间:2022-09-04
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
SparkStreaming实时消费kafka数据,结合redis实时统计pv,uv,结果保存到mysql。
作者:编程之家 时间:2021-01-07
Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的、不可变、可分区,里面的元素可分布式并行计算的数据集。RDD是一个很
作者:编程之家 时间:2020-12-11
聊聊Spark的分区、并行度 —— 前奏篇
聊聊Spark的分区机制,以及通过spark.default.parallelism谈Spark并行度
作者:编程之家 时间:2020-12-11
重要 | Spark分区并行度决定机制
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.par
作者:编程之家 时间:2020-12-11
Spark SQL | 目前Spark社区最活跃的组件之一
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此S
作者:编程之家 时间:2020-12-11
Spark集群和任务执行
Spark是典型的Master/Slave架构,集群主要包括以下4个组件:
Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的M
作者:编程之家 时间:2020-12-11
Spark闭包 | driver & executor程序代码执行
Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码,运行在driver端还是executor端呢?
作者:编程之家 时间:2020-12-11
Spark为什么只有在调用action时才会触发任务执行呢附算子优化和使用示例?
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存
作者:编程之家 时间:2020-12-11
必须掌握的Spark调优技术点
在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候,就需要做一定的参数配置调整和优化,以保证业务的安全、稳定的运行。并且在实际优化中,
作者:编程之家 时间:2020-12-11
对Spark硬件配置的建议
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出一些建议
作者:编程之家 时间:2020-12-11
Spark核心组件通识概览
Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark
作者:编程之家 时间:2020-12-11
Spark流式状态管理updateStateByKey、mapWithState等
通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基
作者:编程之家 时间:2020-12-11
解析SparkStreaming和Kafka集成的两种方式
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark strea
作者:编程之家 时间:2020-12-11
上一页
93
94
95
96
97
98
99
100
101
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native