一、Flink 简介 Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处...[作者空间]
一、Apache Storm 简介 1、基本概念 Storm 为分布式实时计算提供了一组通用原语,可被用于 “...[作者空间]
一、什么是 Flume? 1、Flume 是做什么的? Flume 是 Cloudera 开发的一个高可用、高...[作者空间]
一、数据采集引擎 在 Hadoop 生态圈中,数据采集引擎负责直接对数据源进行数据采集,常用的有 Sqoop ...[作者空间]
一、Pig 1、简介 Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE...[作者空间]
一、数据分析引擎 大数据的终极目标,是使用 SQL 语句来处理大数据,这样就能方便不知道怎么编程的数据分析人员...[作者空间]
一、BigTable 1、产生背景 使用传统的关系型数据库时,需要根据应用系统设计一张张的数据表,数据表可以看...[作者空间]
一、背景 MapReduce 是谷歌大数据 “三驾马车” 的第二篇论文,它是一个分布式计算编程模型,主要是为了...[作者空间]
1、下载数据 通过 ftp://ftp.ncdc.noaa.gov/pub/data/noaa 可以下载《ha...[作者空间]
一、背景和作用 Yarn 是 Hadoop 的资源管理系统,用于取代 MapReduce1 的资源调度,改善 ...[作者空间]
一、背景 在大数据的场景下,单台物理机无法满足数据的存储和运算的需求,所以我们需要有一个分布式集群来做数据的存...[作者空间]