Flink是一个分布式处理引擎,对无界数据流和有界数据流进行计算。
流数据(双十一)
传统数据架构是基于有限数据集的
目标:
- 低延迟
- 高吞吐
- 结果的准确性和良好的容错性
二、行业
-
电商和市场营销
数据报表,广告投放,业务流程 -
物联网(IOT)
传感器实时数据采集和显示,实时报警,交通运输业 -
电信业
基站流量调配 -
银行和金融业
实时结算和通知推送,实时检测异常行为
书:Stream Processing with Apache Flink

传统数据处理架构

CRM: 客户关系管理系统
order System : 订单系统
问题:

从传统数据库将数据进行ETL,放到数仓里面。
问题:延迟高

数据流 -》 处理逻辑 -》 本地状态 -》 周期性检查点 -》 落盘

Batch Layer 批处理(延迟)
Stream Processor 实时处理(准确性有问题)




ProcessFunction 过程函数,最底层API,啥都能干。
DataStream API
SQL/Table API 最抽象,未开发完



网友评论