论文概要 该论文是Spark团队在2018年发表的一篇基于Spark引擎之上新构建的一套Streaming api...[作者空间]
根据集群的生命周期、资源隔离方式和应用程序的main()方法执行位置(client或者JobManager)可以将...[作者空间]
Flink集群架构 Flink采用Master-Slave架构,其中JobManager作为集群Master节点,...[作者空间]
快照策略(SnapshotStrategy) Flink的检查点机制是建立在分布式一致快照之上的,从而实现数据处理...[作者空间]
Flink系统组成 Flink是一个分层系统,从下到上分为:系统部署层、任务运行层、API层以及基于API开发的通...[作者空间]
Flink API介绍 Flink提供了三层API,每层在简洁性和表达性之间进行了不同的权衡。 ProcessFu...[作者空间]
Flink作为一个分布式流式计算引擎,需要计算资源才可以执行应用程序。Flink能够与目前所有通用的资源管理框架集...[作者空间]
Trident是什么 Trident是Storm上的高层次抽象,它能够在提供高吞吐量的能力同时(每秒几百万消息),...[作者空间]
Storm架构 Storm是一个分布式、可靠的实时计算系统。与Hadoop不同的是,它采用流式的消息处理方法,对于...[作者空间]
Spark简介 什么是Spark? Apache Spark是由加州伯克利分校AMP实验室开发的通用大数据处理框架...[作者空间]
基础环境 Java8或更高版本 Linux、Mac OSX或者其它类Unix操作系统,目前不支持Windows操系...[作者空间]
我们知道Druid能够同时提供对大数据集的实时摄入和高效复杂查询的性能,主要原因就是它独到的架构设计和基于Data...[作者空间]
Druid介绍 Druid是什么 Druid("德鲁伊")是由广告公司MetaMarkets开源的实时大数据分析引...[作者空间]
OLTP和OlAP 数据处理大致可分为两大类:联机事务处理OLTP(On-Line Transaction Pro...[作者空间]
kafka客户端 Kafka除了提供内置Java客户端外,还提供了二进制连接协议,即向Kafka网络端口发送适当的...[作者空间]
Kakfa介绍 Kafka是什么 Kafka最初是LinkedIn的内部内部基础设施系统。它被认为是一个流平台,在...[作者空间]
Spark简介 什么是Spark? Apache Spark是用于大规模数据处理的快速(fast)和通用(gene...[作者空间]
源码下载 源码获取有两种渠道:一种是通过Spark官网直接下载,第二种是通过github直接将spark的代码cl...[作者空间]