AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Flink笔记

时间：2022-09-04分类：Flink作者：编程之家原文地址

Flink学习笔记-容错数据流

有状态的函数和操作需要存储关于计算的数据，这使得状态成为复杂计算的关键。在 Flink 中的每一种函数和操作都可以成为有状态的。为了达到很好的容错，Flink 的容错机制持续的记录分布式的数据流的快照。这些快照是非常轻量化的，因此高频的记录快照并不会影响性能。当进程由于机器，网络甚至是软件异常而失败的时候，Flink 会停止数据流。系统重启操作同时将他们恢复到最近的快照点。输入流也会被设置到记录快照点那个时间点。系统可以确保任何一条新于快照点的记录都不会记录在快照中，通俗点说就是一条记录不会存在于快照中同时还在数据流中等待被处理。

记录快照

Flink 容错机制的核心就是，记录分布式的数据流和状态的一致性快照。通过这些快照，系统可以从失败中恢复回来

屏障Barriers

A barrier separates the records in the data stream into the set of records that goes into the current snapshot, and the records that go into the next snapshot. 这些屏障将数据流分割成很多记录的集合。屏障自身非常轻量，不会影响数据流。

屏障被加入到流中的那一点称为 Sn，就是一个快照会覆盖的数据截止位置。当快照 n 被认为完成，那么 Job 将永远不会向数据源去请求先于 Sn 的数据，因为即便任务失败，可以从快照 n 恢复，无需重新请求数据。

当一个操作对象接收多个流的情况下，需要按照以下逻辑，对输入流做对齐操作。

只有操作对象接收到屏障 n 便不在继续处理此输入流的数据，一直等到其它的输入流也收到屏障 n。否则不同批次快照数据会混合起来
属于快照 n 的数据流会被放入临时的 buffer 中
一旦最后一个流接收到屏障 n，操作对象开始发送全部缓存的数据，包括屏障 n 自身
最后，恢复接收并处理全部的输入的数据。处理 buffer 的数据优先于处理流中数据。

状态

当操作对象包含状态的时候，这些状态必须连同快照一并被记录下来。

操作对象接收到全部输入流的同一屏障后，会将自身状态记录下来。在这一点上，任何来自记录数据的更新都会生效，并且不在依赖这些记录数据。状态被记录后，操作对象确认记录的快照，然后会将快照屏障发送到输出流。

一个快照包括下面两点内容：

每一个输入流在记录快照时候的偏移量或者准确位置
一个操作对象的自身状态

恢复

恢复机制非常清晰明了，一旦失败发生，Flink 会选择最新的快照 k。系统会重新部署全部的数据流。将每一个操作对象的状态恢复为快照中记录的内容。数据源也会被重置到快照点的位置。

如果快照是增量式的。那么操作对象会恢复到最新的全量状态，然后开始应用一系列的增量快照的更新数据。

文章来源:https://www.dazhuanlan.com/2019/08/18/5d583f6397030/

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

Flink-core小总结

Flink-core小总结1.实时计算和离线计算1.1离线计算离线计算的处理数据是固定的离线计算是有延时的，T+1离线计算是数据处理完输出结果，只是输出最终结果离线计算相对可以处理复杂的计算1.2实时计算实时计算是实时的处...

作者：编程之家时间：2022-10-13

开源项目丨Taier1.2版本发布，新增工作流、租户绑定简化等多项功能

2022年7月26日，Taier1.2版本正式发布！本次版本发布更新功能：新增工作流新增OceanBaseSQL新增Flinkjar任务数据同步、实时采集支持脏数据管理HiveUDF控制台UI升级租户绑定简化新版本的使用文档已在社区中推送，大家...

作者：编程之家时间：2022-10-13

Flink Java DemoWindows

关于Flink相关的概念性东西就不说了，网上都有，官网也很详尽。本文主要记录一下Java使用Flink的简单例子。首先，去官网下载Flink的zip包（链接就不提供了，你已经是个成熟的程序员了，该有一定的搜索能力了），解压...

作者：编程之家时间：2022-09-04

Flink window二翻译官方文档

最近准备用flink对之前项目进行重构，这是一个有挑战（但我很喜欢）的工作。几个月过去了，flink社区比起我做技术调研那阵发生了很多变化（包括blink的版本回推），我这边的版本也由1.4->1.7.2。现在网上有很多大...

作者：编程之家时间：2022-09-04

Flink监控：Monitoring Apache Flink Applications

Thispostoriginallyappearedonthe ApacheFlinkblog.Itwasreproducedhereunderthe ApacheLicense,Version2.0.ThisblogpostprovidesanintroductiontoApacheFlink’sbuilt-inmonitoringandmetricssystem,thatallowsde...

作者：编程之家时间：2022-09-04

flink-conf.yaml

Flink配置文件对于管理员来说，差不多经常调整的就只有conf下的flink-conf.yaml：经过初步的调整，大约有以下模块的参数（未优化）LicensedtotheApacheSoftwareFoundation(ASF)underoneormorecontributorlicenseagre...

作者：编程之家时间：2022-09-04

flink入门：01 构建简单运行程序

1.mac平台安装flink（默认最新版）brewinstallapache-flink安装结果：Version1.7.1,commitID:89eafb42.jdk版本，我尝试使用了Java8和Java11，都能兼容3.在flink的安装目录下，启动flink目录一般默认在/usr/local/Cel...

作者：编程之家时间：2022-09-04

基于Flink流处理的动态实时电商实时分析系统视频教程

课程目标：学完该课程大家会对Flink有非常深入的了解，同时可以体会到Flink的强大之处，以及可以结合自己公司的业务进行使用，减少自己研究和学习Flink的时间。适合人群：适合有大数据开发基础和flink基础的同学。在...

作者：编程之家时间：2022-09-04

聊聊flink的NetworkEnvironmentConfiguration

本文主要研究一下flink的NetworkEnvironmentConfigurationNetworkEnvironmentConfigurationflink-1.7.2/flink-runtime/src/main/java/org/apache/flinkuntimeaskmanager/NetworkEnvironmentConfiguration.javapublic...

作者：编程之家时间：2022-09-04

Flink应用案例：How Trackunit leverages Flink to process real-time data from industrial IoT devices

January22,2019 UseCases, ApacheFlinkLasseNedergaard Recentlytherehasbeensignificantdiscussionaboutedgecomputingasamajortechnologytrendin2019.Edgecomputingbrings computingcapabilitiesawayfromth...

作者：编程之家时间：2022-09-04