AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

数据湖简介

时间：2022-09-04分类：Flink作者：编程之家原文地址

数据湖是将公司所有数据，外部数据，不知道要不要用的数据放在一起，通过一定的数据治理，让数据可以被发现，被理解，以用于交叉查询或机器学习的研究。

数据湖不麻烦，管理数据湖中的数据最麻烦，一不小心就会变成数据沼泽。没人知道里面有什么数据，从哪来的，是干嘛的。

目前市面上流行的三大开源数据湖方案分别为：DeltaLake, Hudi, Iceberg 。

1. 对比数仓

数据湖支持非结构化，半结构化数据

数据湖的数据多为原始数据

数据湖是read-on-schema

2.特点

支持修改和删除，增量更新

历史回溯

支持多种底层存储

元数据可扩展

3.iceberg支持的存储格式：parquet,orc,avro

支持使用spark,flink,presto,hive 引擎查询

4. iceberg核心思想

快照snapshot，在时间轴上线性的记录表的所有变化

每次更新会生产一个快照，原子性commit

原子性，读写分离，时间旅行和版本回溯，增量消费

5. 提供ACID事务能力。提供upsert以及merge into功能。

灵活的存储：parquet,orc,avro

支持多种分析引擎：spark,flink,presto,hive

提供基于流式的增量计算模型和基于批式的全量计算模型

增量适配：spark streaming, flink sink/source 适配

6. GDPR出台后，要求能够删除用户的数据。支持delete 很重要。

7. upsert基本原理

copy on write：将目标数据读到内存，完成更新后替换掉目标文件。后续读取快且不产生小文件，但将数据读到内存里消耗资源。

merge on read：直接更新到目标端，会产生delta文件，在读时合并，写速度快，但会产生小文件。

8 delta lake的upsert就是实现了copy on wirte模式。

hudi抽象了merge on read和copy on write，用户可以根据读写延迟需求选择任意一种表进行upsert。

9. iceberg提供了一套基于data file的事务操作接口，方便进行包装实现copy on write。有两种操作：

9.1：将upsert拆成delete, update, insert合并成一个事务提交

9.2：将目标表和源表进行join，然后在内存根据match条件进行操作并生成文件，再通过事务提交delete和insert操作。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

Flink-core小总结

Flink-core小总结1.实时计算和离线计算1.1离线计算离线计算的处理数据是固定的离线计算是有延时的，T+1离线计算是数据处理完输出结果，只是输出最终结果离线计算相对可以处理复杂的计算1.2实时计算实时计算是实时的处...

作者：编程之家时间：2022-10-13

开源项目丨Taier1.2版本发布，新增工作流、租户绑定简化等多项功能

2022年7月26日，Taier1.2版本正式发布！本次版本发布更新功能：新增工作流新增OceanBaseSQL新增Flinkjar任务数据同步、实时采集支持脏数据管理HiveUDF控制台UI升级租户绑定简化新版本的使用文档已在社区中推送，大家...

作者：编程之家时间：2022-10-13

Flink Java DemoWindows

关于Flink相关的概念性东西就不说了，网上都有，官网也很详尽。本文主要记录一下Java使用Flink的简单例子。首先，去官网下载Flink的zip包（链接就不提供了，你已经是个成熟的程序员了，该有一定的搜索能力了），解压...

作者：编程之家时间：2022-09-04

Flink window二翻译官方文档

最近准备用flink对之前项目进行重构，这是一个有挑战（但我很喜欢）的工作。几个月过去了，flink社区比起我做技术调研那阵发生了很多变化（包括blink的版本回推），我这边的版本也由1.4->1.7.2。现在网上有很多大...

作者：编程之家时间：2022-09-04

Flink监控：Monitoring Apache Flink Applications

Thispostoriginallyappearedonthe ApacheFlinkblog.Itwasreproducedhereunderthe ApacheLicense,Version2.0.ThisblogpostprovidesanintroductiontoApacheFlink’sbuilt-inmonitoringandmetricssystem,thatallowsde...

作者：编程之家时间：2022-09-04

flink-conf.yaml

Flink配置文件对于管理员来说，差不多经常调整的就只有conf下的flink-conf.yaml：经过初步的调整，大约有以下模块的参数（未优化）LicensedtotheApacheSoftwareFoundation(ASF)underoneormorecontributorlicenseagre...

作者：编程之家时间：2022-09-04

flink入门：01 构建简单运行程序

1.mac平台安装flink（默认最新版）brewinstallapache-flink安装结果：Version1.7.1,commitID:89eafb42.jdk版本，我尝试使用了Java8和Java11，都能兼容3.在flink的安装目录下，启动flink目录一般默认在/usr/local/Cel...

作者：编程之家时间：2022-09-04

基于Flink流处理的动态实时电商实时分析系统视频教程

课程目标：学完该课程大家会对Flink有非常深入的了解，同时可以体会到Flink的强大之处，以及可以结合自己公司的业务进行使用，减少自己研究和学习Flink的时间。适合人群：适合有大数据开发基础和flink基础的同学。在...

作者：编程之家时间：2022-09-04

聊聊flink的NetworkEnvironmentConfiguration

本文主要研究一下flink的NetworkEnvironmentConfigurationNetworkEnvironmentConfigurationflink-1.7.2/flink-runtime/src/main/java/org/apache/flinkuntimeaskmanager/NetworkEnvironmentConfiguration.javapublic...

作者：编程之家时间：2022-09-04

Flink应用案例：How Trackunit leverages Flink to process real-time data from industrial IoT devices

January22,2019 UseCases, ApacheFlinkLasseNedergaard Recentlytherehasbeensignificantdiscussionaboutedgecomputingasamajortechnologytrendin2019.Edgecomputingbrings computingcapabilitiesawayfromth...

作者：编程之家时间：2022-09-04