Spark - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

子栏目导航大数据图像处理 chatgpt 文心一言 DevOps Kafka Spark Dubbo NLP 力扣

Spark和Flink的状态管理State的区别和应用

大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！By 大数据技术与架构场景描述：如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失

作者：编程之家时间：2022-09-04

阿里云Spark Shuffle的优化

本次分享者：辰石，来自阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。SparkShuffle介绍SmartShuffle设计性能分析SparkShuffle流程Spark0.8及以前HashBasedShuffleSpark0.8.1为HashBasedShuffle引入FileConsolidation机制Sp

作者：编程之家时间：2022-09-04

阿里云Spark Shuffle的优化

本次分享者：辰石，来自阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。SparkShuffle介绍SmartShuffle设计性能分析SparkShuffle流程Spark0.8及以前HashBasedShuffleSpark0.8.1为HashBasedShuffle引入FileConsolidation机制Sp

作者：编程之家时间：2022-09-04

独孤九剑-Spark面试80连击(上)

By 大数据技术与架构场景描述：这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题，这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案，只是希望可以给出更好的回答，一般上我都会把原文链接贴上，如有侵权请联系删

作者：编程之家时间：2022-09-04

写在开头：Blink开源，Spark3.0，谁才是大数据领域最闪亮的星？

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎SparkStreaming、KafkaStreaming、Beam和Flink持续火爆。最近Spark社区，来自Databricks、NVIDIA、Google以及阿里巴巴的工

作者：编程之家时间：2022-09-04

独孤九剑-Spark面试80连击(上)

By 大数据技术与架构场景描述：这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题，这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案，只是希望可以给出更好的回答，一般上我都会把原文链接贴上，如有侵权请联系删

作者：编程之家时间：2022-09-04

阿里云E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。产品介绍阿里云EMR的整体架构如下：管理运维能力集群管理，作业管理和调度操作Web化、SDK&API完全

作者：编程之家时间：2022-09-04

大数据成神之路(持续更新)

《2021年最新版大数据面试题全面开启更新》《2021年最新版大数据面试题全面开启更新》已经在公众号更新文章目录：大数据成神之路-Java高级特性增强 -大数据成神之路系列：[Java高级特性增强-集合][Java高级特性增强-多线程][Java高级特性增强-Synchronized][Java高级特

作者：编程之家时间：2022-09-04

大数据成神之路(持续更新)

《2021年最新版大数据面试题全面开启更新》《2021年最新版大数据面试题全面开启更新》已经在公众号更新文章目录：大数据成神之路-Java高级特性增强 -大数据成神之路系列：[Java高级特性增强-集合][Java高级特性增强-多线程][Java高级特性增强-Synchronized][Java高级特

作者：编程之家时间：2022-09-04

数据算法第三章中的问题你面试和工作中遇到过吗？

昨天我写了一篇文章《年轻人你渴望力量吗|我读过的一些书推荐》，其中推荐了一本书《数据算法》，这是其中的一个章节，恰巧前几天我在和一个读者交流的过程中，这个题目在他面试字节跳动的时候有被问到过。这个章节说起来非常简单，就是用Hadoop或者Spark来解决TopN。这个章节详细的

作者：编程之家时间：2022-09-04

你不知道的冷知识 | 指数退避思想及其在Flume/Hadoop中的应用

前言前段时间爆改Codis的Java客户端Jodis，它的测试类中用到了指数退避算法。这是大学计算机网络课程会讲到的知识，本文权当复习，并且看看它的思想是如何应用在大数据组件中的。计算机网络中的指数退避所谓指数退避（exponentialbackoff），是一种根据系统反馈来成倍地削减操作的速率（

作者：编程之家时间：2022-09-04

【开源资讯】微软发布 .NET for Apache Spark 预览版

自从微软收购了GitHub后，越来越拥抱开源了。在今年的 Spark+AI峰会上，微软宣布 .NETforApacheSpark，并推出了首个预览版本v0.1.0，这是一个用于Spark大数据的.NET框架，可以让.NET开发者轻松地使用 ApacheSpark。近期在.net FoundationGitHub看到开源了.NETforApache

作者：编程之家时间：2022-09-04

网站用户行为分析项目之会话切割六=＞参数配置化

大家好，我是邵奈一，一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为：被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年，我整理了很多IT技术相关的教程给大家，主要是大数据教程，帮助了很多小伙伴入坑大数据行业。3、如果您

作者：编程之家时间：2022-09-04

你不知道的冷知识 | 指数退避思想及其在Flume/Hadoop中的应用

前言前段时间爆改Codis的Java客户端Jodis，它的测试类中用到了指数退避算法。这是大学计算机网络课程会讲到的知识，本文权当复习，并且看看它的思想是如何应用在大数据组件中的。计算机网络中的指数退避所谓指数退避（exponentialbackoff），是一种根据系统反馈来成倍地削减操作的速率（

作者：编程之家时间：2022-09-04

我读过的一些书推荐

本文总结了一些读书的时候和工作后看过的书，这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书，当然算起来其实没有花多少钱，有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书，大家可以搜一下，其实大部分书都可以在往上找

作者：编程之家时间：2022-09-04

数据算法第三章中的问题你面试和工作中遇到过吗？

昨天我写了一篇文章《年轻人你渴望力量吗|我读过的一些书推荐》，其中推荐了一本书《数据算法》，这是其中的一个章节，恰巧前几天我在和一个读者交流的过程中，这个题目在他面试字节跳动的时候有被问到过。这个章节说起来非常简单，就是用Hadoop或者Spark来解决TopN。这个章节详细的

作者：编程之家时间：2022-09-04

Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

本文来源于云栖社区：https://yq.aliyun.com/articles/743514作者：xy_xin共同点定性上讲，三者均为DataLake的数据存储中间层，其数据管理的功能均是基于一系列的meta文件。meta文件的角色类似于数据库的catalog/wal，起到schema管理、事务管理和数据管理的功能。与数据库不同的

作者：编程之家时间：2022-09-04

所以说读者们才是最优秀的 | 某读者喜提offer(+85%)后的分享

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源这是小编的一个读者喜提offer后在群里做的分享，文中隐藏了读者的个人隐私信息，小编这里把他的面经分享出来供大家学习。群友们看到后都纷纷表示【我酸了，现在我就是个柠檬精系列】。小编现在也是个柠檬精??????????

作者：编程之家时间：2022-09-04

所以说读者们才是最优秀的 | 某读者喜提offer(+85%)后的分享

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源这是小编的一个读者喜提offer后在群里做的分享，文中隐藏了读者的个人隐私信息，小编这里把他的面经分享出来供大家学习。群友们看到后都纷纷表示【我酸了，现在我就是个柠檬精系列】。小编现在也是个柠檬精??????????

作者：编程之家时间：2022-09-04

网站用户行为分析项目之会话切割三

文章目录0x00文章内容0x01配置Kryo序列化机制1.情景解析0x02使用缓存机制缓存RDD1.缓存RDD0x03调整控制台日志级别1.调整控制台日志级别的方式2.编写log4j.properties文件0xFF总结0x00文章内容配置Kryo序列化机制使用缓存机制缓存RDD调整控制台日志

作者：编程之家时间：2022-09-04

我读过的一些书推荐

本文总结了一些读书的时候和工作后看过的书，这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书，当然算起来其实没有花多少钱，有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书，大家可以搜一下，其实大部分书都可以在往上找

作者：编程之家时间：2022-09-04

Spark学习一RDD理解与操作

RDD概念RDD是Spark的数据核心抽象，全名弹性分布式数据集（ResilientDistributedDataset）定义：分布式元素集合特点：不是变量，不可改变可分为多个分区，分区可运行在集群中的不同节点上支持Python，Java，Scala中类型对象，支持用户自定义对象RDD创建包括两种：读取外部数据创建，例如读

作者：编程之家时间：2022-09-04

我读过的一些书推荐

本文总结了一些读书的时候和工作后看过的书，这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书，当然算起来其实没有花多少钱，有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书，大家可以搜一下，其实大部分书都可以在往上找

作者：编程之家时间：2022-09-04

我读过的一些书推荐

本文总结了一些读书的时候和工作后看过的书，这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书，当然算起来其实没有花多少钱，有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书，大家可以搜一下，其实大部分书都可以在往上找

作者：编程之家时间：2022-09-04

Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

本文来源于云栖社区：https://yq.aliyun.com/articles/743514作者：xy_xin共同点定性上讲，三者均为DataLake的数据存储中间层，其数据管理的功能均是基于一系列的meta文件。meta文件的角色类似于数据库的catalog/wal，起到schema管理、事务管理和数据管理的功能。与数据库不同的

作者：编程之家时间：2022-09-04

Spark和Java API四分区

RDD的分区是什么？RDD，顾名思义它是分布式的，那么它是怎么实现分布式呢？答案就是分区，也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区，通过水平扩展的方式提供系统的吞吐量。那么分区是如何分布在整个集群中呢？我们拿hdfs举例，假设hdfs上有一个文件A，大小为1个GB，h

作者：编程之家时间：2022-09-04

在SPARK中实现RDD编程

1）pyspark交互式编程（1）该系总共有多少学生（代码及其结果如下图所示）；（2）该系共开设了多少门课程（代码及其结果如下图所示）；（3）Tom同学的总成绩平均分是多少（代码及其结果如下图所示）；（4）求每名同学的选修的课程门数（代码及其结果如下图所示）；（5）该系DataBase课程共有多少人选修（代码及其结果如

作者：编程之家时间：2022-09-04

Spark-core性能优化——开发调优

目录Spark-core性能优化——开发调优开发调优基本原则原则一：避免创建重复的RDD原则二：尽可能复用同一个RDD原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子原则五：使用map-side预聚合的shuffle操作原则六：使用高性能的算子原则七：广播大变量原则八：使用Kr

作者：编程之家时间：2022-09-04

Spark创建HiveContext报错tez的问题

java.lang.NoClassDefFoundError:org/apacheez/dag/api/SessionNotRunning报错信息Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apacheez/dag/api/SessionNotRunning atorg.apache.hadoop.hive.ql.session.SessionState.start(SessionS

作者：编程之家时间：2022-09-04

Spark与Hadoop的之间的藕断丝连

在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的，对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。就这个问题查阅了一些资料，观点分享给大家：1.目的首先需要明确一点，hadoop和spark这二者都是大数据框架，即便如此二者各自存在的目的是不

作者：编程之家时间：2022-09-04

上一页 69 70 71 727374 75 76 下一页