马铁大神的 Apache Spark 十年回顾
过往记忆大数据 过往记忆大数据
首先祝大家端午节快乐,幸福安康。
就在上周五, Apache Spark 3.0 全新发布,此版本给我们带来了许多重要的特性,感兴趣的同学可以看下这篇文章: Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析 。
Spark 是从 2010 年正式开源,到今年正好整整十年了!
2010年 Spark 正式开源
2010-2011年期间开始有大量的用户使用,产生了许多预料之外的案例。
2012-2015年期间社区对 Spark 加了很多扩充,在语言支持上增加了 Python、R 以及 sql 等;在类库上增加了 ML、图以及实时流处理功能;添加了许多高层次的 API。
今天,数砖公司的产品中 68% 的 notebook 命令都是使用 Python 写的。
超过 90% 的 Spark API 都是通过调用 Spark sql 进行的,所以搞到最后 Spark sql 才是最重要的东西,其底层的优化器为大多数作业进行优化。最近发布的 Spark 3.0 的 TPC-DS 测试性能比Spark 2.4 提升近2倍,甚至比 Presto 还快!
数砖的产品每天处理5万亿条数据。
过去几年学到的经验:
- 产品的易用性很重要
- 支持最佳实践的 API
接下来马铁大神简单介绍了 Apache Spark 3.0 的新功能:感兴趣的同学也可以到过往记忆大数据的 Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析 去看看。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。