AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

马铁大神的 Apache Spark 十年回顾

时间：2022-09-04分类：Spark作者：编程之家原文地址

马铁大神的 Apache Spark 十年回顾

过往记忆大数据过往记忆大数据

首先祝大家端午节快乐，幸福安康。
就在上周五， Apache Spark 3.0 全新发布，此版本给我们带来了许多重要的特性，感兴趣的同学可以看下这篇文章： Apache Spark 3.0.0 正式版终于发布了，重要特性全面解析。
Spark 是从 2010 年正式开源，到今年正好整整十年了！

马铁大神的 Apache Spark 十年回顾

一年一度的 Spark+AI SUMMIT 在本周正在如火如荼的进行。Apache Spark 的发明者马铁大神给我们带来了 Apache Spark 3.0 介绍：回顾 Spark 过去十年，以及未来展望。

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

大神首先激情回顾了自己过去十年的情况，介绍了发明 Spark 的目的，以及后面几年 Spark 的发展。

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

马铁大神的 Apache Spark 十年回顾

Apache Spark 大概是从 2009年8月开始开发的

马铁大神的 Apache Spark 十年回顾

2010年 Spark 正式开源

马铁大神的 Apache Spark 十年回顾

2010-2011年期间开始有大量的用户使用，产生了许多预料之外的案例。

马铁大神的 Apache Spark 十年回顾

2012-2015年期间社区对 Spark 加了很多扩充，在语言支持上增加了 Python、R 以及 sql 等；在类库上增加了 ML、图以及实时流处理功能；添加了许多高层次的 API。

马铁大神的 Apache Spark 十年回顾

今天，数砖公司的产品中 68% 的 notebook 命令都是使用 Python 写的。

马铁大神的 Apache Spark 十年回顾

超过 90% 的 Spark API 都是通过调用 Spark sql 进行的，所以搞到最后 Spark sql 才是最重要的东西，其底层的优化器为大多数作业进行优化。最近发布的 Spark 3.0 的 TPC-DS 测试性能比Spark 2.4 提升近2倍，甚至比 Presto 还快！

马铁大神的 Apache Spark 十年回顾

数砖的产品每天处理5万亿条数据。

马铁大神的 Apache Spark 十年回顾

过去几年学到的经验：

产品的易用性很重要
支持最佳实践的 API
接下来马铁大神简单介绍了 Apache Spark 3.0 的新功能：感兴趣的同学也可以到过往记忆大数据的 Apache Spark 3.0.0 正式版终于发布了，重要特性全面解析去看看。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展API用来支持高吞吐、高容错的处理流式数据数据源可以是:Kafka、TCPsockets、Flume、Twitter等流式数据源处理数据:可以用SparkCore的算子map、reduce、join、...

作者：编程之家时间：2022-11-24

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这...

作者：编程之家时间：2022-11-11

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说...

作者：编程之家时间：2022-11-11

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“S...

作者：编程之家时间：2022-11-12

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数据分析”，在日常操作中，相信很多人在TSDB的数据怎么利用Hadoop/spark集群做数据分析问题上存在疑惑...

作者：编程之家时间：2022-11-12

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这

作者：编程之家时间：2022-11-12

Hadoop和Spark有什么不同

小编给大家分享一下Hadoop和Spark有什么不同，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们

作者：编程之家时间：2022-11-12

Hadoop和Spark的Shuffle过程有什么不同

这篇文章主要讲解了“Hadoop和Spark的Shuffle过程有什么不同”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习...

作者：编程之家时间：2022-11-12

基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的

本篇文章给大家分享的是有关基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获...

作者：编程之家时间：2022-11-12

Spark中foreachRDD、foreachPartition和foreach的区别是什么

这篇文章主要介绍“Spark中foreachRDD、foreachPartition和foreach的区别是什么”，在日常操作中，相信很多人在Spark中foreachRDD、foreachPartition和foreach的...

作者：编程之家时间：2022-11-12