手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
Spark
Spark和Flink的状态管理State的区别和应用
大数据技术与架构点击右侧关注,大数据开发领域最强公众号!暴走大数据点击右侧关注,暴走大数据!By 大数据技术与架构场景描述:如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失
作者:编程之家 时间:2022-09-04
阿里云Spark Shuffle的优化
本次分享者:辰石,来自阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。SparkShuffle介绍SmartShuffle设计性能分析SparkShuffle流程Spark0.8及以前HashBasedShuffleSpark0.8.1为HashBasedShuffle引入FileConsolidation机制Sp
作者:编程之家 时间:2022-09-04
阿里云Spark Shuffle的优化
本次分享者:辰石,来自阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。SparkShuffle介绍SmartShuffle设计性能分析SparkShuffle流程Spark0.8及以前HashBasedShuffleSpark0.8.1为HashBasedShuffle引入FileConsolidation机制Sp
作者:编程之家 时间:2022-09-04
独孤九剑-Spark面试80连击(上)
By 大数据技术与架构场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删
作者:编程之家 时间:2022-09-04
写在开头:Blink开源,Spark3.0,谁才是大数据领域最闪亮的星?
2018和2019年是大数据领域蓬勃发展的两年,自2019年伊始,实时流计算技术开始步入普通开发者视线,各大公司都在不遗余力地试用新的流计算框架,实时流计算引擎SparkStreaming、KafkaStreaming、Beam和Flink持续火爆。最近Spark社区,来自Databricks、NVIDIA、Google以及阿里巴巴的工
作者:编程之家 时间:2022-09-04
独孤九剑-Spark面试80连击(上)
By 大数据技术与架构场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删
作者:编程之家 时间:2022-09-04
阿里云E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台
本文来自夏立的分享,花名雷飙,阿里巴巴计算平台EMR高级产品专家。2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。产品介绍阿里云EMR的整体架构如下:管理运维能力集群管理,作业管理和调度操作Web化、SDK&API完全
作者:编程之家 时间:2022-09-04
大数据成神之路(持续更新)
《2021年最新版大数据面试题全面开启更新》《2021年最新版大数据面试题全面开启更新》 已经在公众号更新文章目录:大数据成神之路-Java高级特性增强 -大数据成神之路系列:[Java高级特性增强-集合][Java高级特性增强-多线程][Java高级特性增强-Synchronized][Java高级特
作者:编程之家 时间:2022-09-04
大数据成神之路(持续更新)
《2021年最新版大数据面试题全面开启更新》《2021年最新版大数据面试题全面开启更新》 已经在公众号更新文章目录:大数据成神之路-Java高级特性增强 -大数据成神之路系列:[Java高级特性增强-集合][Java高级特性增强-多线程][Java高级特性增强-Synchronized][Java高级特
作者:编程之家 时间:2022-09-04
数据算法第三章中的问题你面试和工作中遇到过吗?
昨天我写了一篇文章《年轻人你渴望力量吗|我读过的一些书推荐》,其中推荐了一本书《数据算法》,这是其中的一个章节,恰巧前几天我在和一个读者交流的过程中,这个题目在他面试字节跳动的时候有被问到过。这个章节说起来非常简单,就是用Hadoop或者Spark来解决TopN。这个章节详细的
作者:编程之家 时间:2022-09-04
你不知道的冷知识 | 指数退避思想及其在Flume/Hadoop中的应用
前言前段时间爆改Codis的Java客户端Jodis,它的测试类中用到了指数退避算法。这是大学计算机网络课程会讲到的知识,本文权当复习,并且看看它的思想是如何应用在大数据组件中的。计算机网络中的指数退避所谓指数退避(exponentialbackoff),是一种根据系统反馈来成倍地削减操作的速率(
作者:编程之家 时间:2022-09-04
【开源资讯】微软发布 .NET for Apache Spark 预览版
自从微软收购了GitHub后,越来越拥抱开源了。在今年的 Spark+AI峰会上,微软宣布 .NETforApacheSpark,并推出了首个预览版本v0.1.0,这是一个用于Spark大数据的.NET框架,可以让.NET开发者轻松地使用 ApacheSpark。近期在.net FoundationGitHub看到开源了.NETforApache
作者:编程之家 时间:2022-09-04
网站用户行为分析项目之会话切割六=> 参数配置化
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您
作者:编程之家 时间:2022-09-04
你不知道的冷知识 | 指数退避思想及其在Flume/Hadoop中的应用
前言前段时间爆改Codis的Java客户端Jodis,它的测试类中用到了指数退避算法。这是大学计算机网络课程会讲到的知识,本文权当复习,并且看看它的思想是如何应用在大数据组件中的。计算机网络中的指数退避所谓指数退避(exponentialbackoff),是一种根据系统反馈来成倍地削减操作的速率(
作者:编程之家 时间:2022-09-04
我读过的一些书推荐
本文总结了一些读书的时候和工作后看过的书,这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书,当然算起来其实没有花多少钱,有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书,大家可以搜一下,其实大部分书都可以在往上找
作者:编程之家 时间:2022-09-04
数据算法第三章中的问题你面试和工作中遇到过吗?
昨天我写了一篇文章《年轻人你渴望力量吗|我读过的一些书推荐》,其中推荐了一本书《数据算法》,这是其中的一个章节,恰巧前几天我在和一个读者交流的过程中,这个题目在他面试字节跳动的时候有被问到过。这个章节说起来非常简单,就是用Hadoop或者Spark来解决TopN。这个章节详细的
作者:编程之家 时间:2022-09-04
Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析
本文来源于云栖社区:https://yq.aliyun.com/articles/743514作者:xy_xin共同点定性上讲,三者均为DataLake的数据存储中间层,其数据管理的功能均是基于一系列的meta文件。meta文件的角色类似于数据库的catalog/wal,起到schema管理、事务管理和数据管理的功能。与数据库不同的
作者:编程之家 时间:2022-09-04
所以说读者们才是最优秀的 | 某读者喜提offer(+85%)后的分享
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源这是小编的一个读者喜提offer后在群里做的分享,文中隐藏了读者的个人隐私信息,小编这里把他的面经分享出来供大家学习。 群友们看到后都纷纷表示【我酸了,现在我就是个柠檬精系列】。小编现在也是个柠檬精??????????
作者:编程之家 时间:2022-09-04
所以说读者们才是最优秀的 | 某读者喜提offer(+85%)后的分享
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源这是小编的一个读者喜提offer后在群里做的分享,文中隐藏了读者的个人隐私信息,小编这里把他的面经分享出来供大家学习。 群友们看到后都纷纷表示【我酸了,现在我就是个柠檬精系列】。小编现在也是个柠檬精??????????
作者:编程之家 时间:2022-09-04
网站用户行为分析项目之会话切割三
文章目录0x00文章内容0x01配置Kryo序列化机制1.情景解析0x02使用缓存机制缓存RDD1.缓存RDD0x03调整控制台日志级别1.调整控制台日志级别的方式2.编写log4j.properties文件0xFF总结0x00文章内容配置Kryo序列化机制使用缓存机制缓存RDD调整控制台日志
作者:编程之家 时间:2022-09-04
我读过的一些书推荐
本文总结了一些读书的时候和工作后看过的书,这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书,当然算起来其实没有花多少钱,有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书,大家可以搜一下,其实大部分书都可以在往上找
作者:编程之家 时间:2022-09-04
Spark学习一RDD理解与操作
RDD概念RDD是Spark的数据核心抽象,全名弹性分布式数据集(ResilientDistributedDataset)定义:分布式元素集合特点:不是变量,不可改变可分为多个分区,分区可运行在集群中的不同节点上支持Python,Java,Scala中类型对象,支持用户自定义对象RDD创建包括两种:读取外部数据创建,例如读
作者:编程之家 时间:2022-09-04
我读过的一些书推荐
本文总结了一些读书的时候和工作后看过的书,这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书,当然算起来其实没有花多少钱,有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书,大家可以搜一下,其实大部分书都可以在往上找
作者:编程之家 时间:2022-09-04
我读过的一些书推荐
本文总结了一些读书的时候和工作后看过的书,这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书,当然算起来其实没有花多少钱,有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书,大家可以搜一下,其实大部分书都可以在往上找
作者:编程之家 时间:2022-09-04
Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析
本文来源于云栖社区:https://yq.aliyun.com/articles/743514作者:xy_xin共同点定性上讲,三者均为DataLake的数据存储中间层,其数据管理的功能均是基于一系列的meta文件。meta文件的角色类似于数据库的catalog/wal,起到schema管理、事务管理和数据管理的功能。与数据库不同的
作者:编程之家 时间:2022-09-04
Spark和Java API四分区
RDD的分区是什么?RDD,顾名思义它是分布式的,那么它是怎么实现分布式呢?答案就是分区,也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区,通过水平扩展的方式提供系统的吞吐量。那么分区是如何分布在整个集群中呢?我们拿hdfs举例,假设hdfs上有一个文件A,大小为1个GB,h
作者:编程之家 时间:2022-09-04
在SPARK中实现RDD编程
1)pyspark交互式编程(1)该系总共有多少学生(代码及其结果如下图所示);(2)该系共开设了多少门课程(代码及其结果如下图所示);(3)Tom同学的总成绩平均分是多少(代码及其结果如下图所示);(4)求每名同学的选修的课程门数(代码及其结果如下图所示);(5)该系DataBase课程共有多少人选修(代码及其结果如
作者:编程之家 时间:2022-09-04
Spark-core性能优化——开发调优
目录Spark-core性能优化——开发调优开发调优基本原则原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作原则六:使用高性能的算子原则七:广播大变量原则八:使用Kr
作者:编程之家 时间:2022-09-04
Spark创建HiveContext报错tez的问题
java.lang.NoClassDefFoundError:org/apacheez/dag/api/SessionNotRunning报错信息Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apacheez/dag/api/SessionNotRunning atorg.apache.hadoop.hive.ql.session.SessionState.start(SessionS
作者:编程之家 时间:2022-09-04
Spark与Hadoop的之间的藕断丝连
在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的,对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。就这个问题查阅了一些资料,观点分享给大家:1.目的首先需要明确一点,hadoop和spark这二者都是大数据框架,即便如此二者各自存在的目的是不
作者:编程之家 时间:2022-09-04
上一页
69
70
71
72
73
74
75
76
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native