ink大数据计算引擎入门

Flink入门

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能。
Apache Flink的前身是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，然后迅速地成为了Apache Software Foundation的顶级项目之一。

Flink 特点

ink大数据计算引擎入门

Flink组件栈

ink大数据计算引擎入门

Deployment层

主要涉及了Flink的部署模式、Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）.

Runtime层

Runtime层提供了支持Flink计算的全部核心实现，比如：支持分布式Stream处理、JobGraph到ExecutionGraph的映射、调度等等，为上层API层提供基础服务

API层

API层主要实现了面向***Stream的流处理和面向Batch的批处理API，其中面向流处理对应DataStream API，面向批处理对应DataSet API

Libaries层

在API层之上构建的满足特定应用的实现计算框架，也分别对应于面向流处理和面向批处理两类。

ink大数据计算引擎入门

Flink优势

ink大数据计算引擎入门

Flink数据流和时间窗口
基本概念

时间窗口

ink大数据计算引擎入门

Flink分布式运行环境

JobManager

TaskManager

Client

Flink安装
方式一

方式二

到官网下载编译版：https://flink.apache.org/downloads.html
不同环境下到bin目录，运行start-local.bat
运行正常，访问页面：http://localhost:8081

ink大数据计算引擎入门

▼