Spark - 编程之家

一条SQL在ApacheSpark之旅（下）过往记忆大数据过往记忆大数据也可以到我个人博客阅读（点击下面阅读原文即可）https://www.iteblog.com/archives/2563.html。终于到最后一篇了，我们在前面两篇文章中《一条SQL在ApacheSpark之旅（上）》和《一条SQL在ApacheSpark之旅（中）》

作者：编程之家时间：2022-09-04

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

重磅|ApacheSpark社区期待的DeltaLake开源了过往记忆大数据过往记忆大数据本文原文（点击下面阅读原文即可进入）https://www.iteblog.com/archives/2545.html2019年4月24日在美国旧金山召开的Spark+AISummit2019会上，Databricks的联合创始人及CEOAliGhodsi宣布将

作者：编程之家时间：2022-09-04

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

Koalas:让pandas开发者轻松过渡到ApacheSpark过往记忆大数据过往记忆大数据本文原文（点击下面阅读原文即可进入）https://www.iteblog.com/archives/2549.html今年的Spark+AISummit2019databricks开源了几个重磅的项目，比如DeltaLake，Koalas等，Koalas是一个新的开

作者：编程之家时间：2022-09-04

流式数据处理在百度数据工厂的应用与实践

度数据工厂最原先用Hive引擎，进行离线批量数据分析和PB级别的查询，处理一些核心报表数据。但是在我们推广过程中发现，用户其实还是有复杂分析、实时处理、数据挖掘的请求，我们在Spark1.0推出的时候，就开始跟进Spark。在Spark1.6时彻底在团队中推广起来，当时是Spark Streaming

作者：编程之家时间：2022-09-04

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark3.0中七个必须知道的SQL性能优化过往记忆大数据过往记忆大数据本文来自IBM东京研究院的高级技术人员KazuakiIshizaki博士在SparkSummitNorthAmerica2020的《SQLPerformanceImprovementsataGlanceinApacheSpark3.0》议题的分享，本文视频参见今天

作者：编程之家时间：2022-09-04

简化数据获取！Uber开源深度学习分布训练库Petastorm

深度学习集群的搭建即使是在现代硬件上训练深度模型也很耗时，而且在很多情况下，很有必要在多台机器上分配训练负载。典型的深度学习集群需要执行以下几个步骤：一台或多台机器读取集中式或本地数据集。每台机器计算损失函数的值，并根据模型参数计算梯度。在这一步通常会使用GPU。通过组

作者：编程之家时间：2022-09-04

如果你在准备面试，好好看看这130道题

如果你在准备面试，好好看看这130道题大数据技术与架构大数据技术与架构这些题目是一个知识星球的球友发给我的，其中有几个题帮着解答了一下。对部分题目也做了一点修正，希望对大家有帮助。如果你不知道如何准备面试，那么看看这个《剑谱总纲|大数据方向学习面试知识图谱》。年

作者：编程之家时间：2022-09-04

Spark分区器HashPartitioner和RangePartitioner代码详解

Spark分区器HashPartitioner和RangePartitioner代码详解iteblog过往记忆大数据在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。我们需要注意的

作者：编程之家时间：2022-09-04

英雄惜英雄-当Spark遇上Zeppelin之实战案例

英雄惜英雄-当Spark遇上Zeppelin之实战案例import_bigdata大数据技术与架构我们在之前的文章《大数据可视化从未如此简单-ApacheZepplien全面介绍》中提到过一文中介绍了Zeppelin的主要功能和特点，并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例

作者：编程之家时间：2022-09-04

Spark 2.0介绍：Catalog API介绍和使用

Spark2.0介绍：CatalogAPI介绍和使用iteblog过往记忆大数据《Spark2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark2.0带来的新技术等。Spark2.0是ApacheSpark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的

作者：编程之家时间：2022-09-04

Kafka落选！InfoWorld最佳开源数据平台奖公布

现如今，没有什么东西能够比数据更大的了！我们有比以前多得多的数据，我们有更多方式来存储和分析数据：SQL数据库、NoSQL数据库、分布式OLTP数据库、分布式OLAP平台、分布式混合OLTP/OLAP平台。2018年数据库和数据分析平台方面的Bossie大奖获得者也包括了流式处理方面的创新者

作者：编程之家时间：2022-09-04

Spark源码阅读的正确打开方式

Spark源码阅读的正确打开方式群主王知无大数据技术与架构Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，吊打其他的大数据处理框架。Spark至今只经历过1.x、2.x和3.x三个大版本的变化，在核心实现上，我们在G

作者：编程之家时间：2022-09-04

Kafka落选！InfoWorld最佳开源数据平台奖公布

现如今，没有什么东西能够比数据更大的了！我们有比以前多得多的数据，我们有更多方式来存储和分析数据：SQL数据库、NoSQL数据库、分布式OLTP数据库、分布式OLAP平台、分布式混合OLTP/OLAP平台。2018年数据库和数据分析平台方面的Bossie大奖获得者也包括了流式处理方面的创新者

作者：编程之家时间：2022-09-04

Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展

ApacheHivemall:可运行在ApacheHive,Spark和Pig上的可扩展机器学习库iteblog过往记忆大数据ApacheHivemall是机器学习算法（machinelearningalgorithms）和多功能数据分析函数（versatiledataanalyticsfunctions）的集合，它通过ApacheHiveUDF/UDAF/UDTF接口提供

作者：编程之家时间：2022-09-04

年轻人你渴望力量吗 | 我读过的一些书推荐

年轻人你渴望力量吗|我读过的一些书推荐群主大数据技术与架构本文总结了一些读书的时候和工作后看过的书，这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书，当然算起来其实没有花多少钱，有大量的书都是搞活动买到的。我挑了其中一

作者：编程之家时间：2022-09-04

从Storm到Flink，有赞五年实时计算效率提升实践

实时计算在有赞发展从技术栈的角度，我们的选择和大多数互联网公司一致，从早期的Storm，到JStorm，SparkStreaming和最近兴起的Flink。从发展阶段来说，主要经历了两个阶段，起步阶段和平台化阶段；下面将按照下图中的时间线，介绍实时计算在有赞的发展历程。2.1起步阶段这里的的起步阶段的

作者：编程之家时间：2022-09-04

spark 消费kafka的数据

通过flume将日志数据读取到kafka中，然后再利用spark去消费kafka的数据，1.保证zookeeper服务一直开启2.配置flume文件，其配置信息如下a1.sources=r1a1.sinks=k1a1.channels=c1#Describe/configurethesourcea1.sources.r1.type=execa1.sources.r1.command=tail

作者：编程之家时间：2022-09-04

Apache Spark 2.1.0正式发布，Structured Streaming有重大突破

ApacheSpark2.1.0正式发布，StructuredStreaming有重大突破iteblog过往记忆大数据ApacheSpark2.1.0是2.x版本线的第二个发行版。此发行版在为StructuredStreaming进入生产环境做出了重大突破，StructuredStreaming现在支持eventtimewatermarks了，并且支持Kafka0.10。此

作者：编程之家时间：2022-09-04

即将发布的 Apache Spark 2.4 都有哪些新功能

即将发布的ApacheSpark2.4都有哪些新功能过往记忆大数据过往记忆大数据本文来自于2018年09月19日在AdobeSystemsInc举行的ApacheSparkMeetup。即将发布的ApacheSpark2.4版本是2.x系列的第五个版本。本文对ApacheSpark2.4的主要功能和增强功能进行了概述

作者：编程之家时间：2022-09-04

SparkRDD转DataSet/DataFrame的一个深坑

SparkRDD转DataSet/DataFrame的一个深坑半个橙子丶大数据技术与架构场景描述：本文是根据读者反馈的一个问题总结而成的。关键词：SaprkRDD原需求：希望在map函数中将每一个rdd转为DataSet或者DataFrame。SparkRDD转为DataSet的两种方式第一种方法是使用反射来推断包含特定对

作者：编程之家时间：2022-09-04

Structured Streaming编程 Programming Guide

StructuredStreaming编程ProgrammingGuideOverviewQuickExampleProgrammingModelBasicConceptsHandlingEvent-timeandLateDataFaultToleranceSemanticsAPIusingDatasetsandDataFramesCreatingstreamingDataFramesandstreamingDatasetsInput

作者：编程之家时间：2022-09-04

阿里云Spark Shuffle的优化

阿里云SparkShuffle的优化辰石大数据技术与架构本次分享者：辰石，来自阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。SparkShuffle介绍SmartShuffle设计性能分析SparkShuffle流程Spark0.8及以前HashBasedShuffleSpark0.

作者：编程之家时间：2022-09-04

【电子书分享】Learning PySpark下载，包含pdf、epub格式

【电子书分享】LearningPySpark下载，包含pdf、epub格式iteblog过往记忆大数据图书简介本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统中。您将首先了解Spark2.0的架构以及如何为Spark设置Python环境。通过本书，你将会使用Python操作RDD、DataFrames、MLli

作者：编程之家时间：2022-09-04

Apache CarbonData 1.0.0发布及其新特性介绍

ApacheCarbonData1.0.0发布及其新特性介绍iteblog过往记忆大数据首先祝大家新年快乐啊。大年初二ApacheCarbonData迎来了第四个稳定版本CarbonData1.0.0。CarbonData是由华为开发、开源并支持ApacheHadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现

作者：编程之家时间：2022-09-04

Spark 从 Kafka 读数并发问题

Spark从Kafka读数并发问题过往记忆大数据过往记忆大数据经常使用ApacheSpark从Kafka读数的同学肯定会遇到这样的问题：某些Spark分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致Spark作业无法及时消费Kafka中的数据。

作者：编程之家时间：2022-09-04

SparkRDMA：使用RDMA技术提升Spark的Shuffle性能

SparkRDMA：使用RDMA技术提升Spark的Shuffle性能过往记忆大数据过往记忆大数据如下面的图片看不清，请参见https://www.iteblog.com/archives/1964.html，或点击下面阅读原文即可。SparkShuffle基础在MapReduce框架中，Shuffle是连接Map和Reduce之间的桥梁，Reduce要读取到M

作者：编程之家时间：2022-09-04

2017年Apache Spark两大发展方向：深度学习和提升实时流性能

2017年ApacheSpark两大发展方向：深度学习和提升实时流性能MateiZaharia过往记忆大数据最近在美国旧金山举行的SparkSummit2017，ApacheSpark的发明者MateiZaharia介绍了2017年ApacheSpark的重点开发方向：深度学习以及对流性能的改进。2016年是深度学习之年，而且目前越来越多

作者：编程之家时间：2022-09-04

Rheem：可扩展且易于使用的跨平台大数据分析系统

Rheem：可扩展且易于使用的跨平台大数据分析系统iteblog过往记忆大数据RHEEM是一个可扩展且易于使用的跨平台大数据分析系统，它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务，为开发者提供了不同的方式进行性能优化，编写好

作者：编程之家时间：2022-09-04

Apache Hudi：CDC的黄金搭档

1.介绍ApacheHudi是一个开源的数据湖框架，旨在简化增量数据处理和数据管道开发。借助Hudi可以在AmazonS3、AliyunOSS数据湖中进行记录级别管理插入/更新/删除。AWSEMR集群已支持Hudi组件，并且可以与AWSGlueDataCatalog无缝集成。此特性可使得直接在Athena或RedshiftSpectr

作者：编程之家时间：2022-09-04

spark on k8s架构解析

之前学习spark，最近需要在k8s集群上提交spark应用，学习过程中，记录了以下几点1.k8s集群架构MasterNodek8s集群控制节点，对集群进行调度管理，接受集群外用户去集群操作请求；MasterNode由APIServer、Scheduler、ClusterStateStore（ETCD数据库）和ControllerMangerServer所组

作者：编程之家时间：2022-09-04