一、业务背景 1、应用场景 在多变的数据服务场景中,应用中常见如下的业务需求,通过对多种数据结构的灵活组合,快速实...[作者空间]
一、业务背景 在系统业务开发的过程中,都会面临这样一个问题:面对业务的快速扩展,很多版本在当时没有时间去全局考虑,...[作者空间]
一、Flink概述 1、基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Fl...[作者空间]
一、Spark概述 1、Spark简介 Spark是专为大规模数据处理而设计的,基于内存快速通用,可扩展的集群计算...[作者空间]
一、Presto概述 1、Presto简介 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数...[作者空间]
一、Druid概述 1、Druid简介 Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能...[作者空间]
一、Azkaban概述 1、任务时序 在数据服务的业务场景中,很常见的业务流程就是日志文件经过大数据分析,再向业务...[作者空间]
一、Sqoop概述 Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据...[作者空间]
一、Flume简介 1、基础描述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、...[作者空间]
一、基本角色划分 数字营销模式中三个基本角色和模式:广告主通过流量主把广告内容传递到受众人群。 1、广告主 广告主...[作者空间]
一、Hbase简介 1、基础描述 Hadoop原生的特点是解决大规模数据的离线批量处理场景,HDFS具备强大存储能...[作者空间]
一、Hive基础简介 1、基础描述 Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是...[作者空间]
一、标签简介 标签概念 标签,最初用来对实物进行分类和标记,例如标明物品的品名、重量、体积、用途等简要信息。后来逐...[作者空间]
一、场景描述 做面向C端用户的产品,十分依赖用户数据的收集,下面都见过这样一张数据分析图,通过链路上各个环节的数据...[作者空间]
一、Yarn基本结构 Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集...[作者空间]
一、MapReduce概述 1、基本概念 Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程...[作者空间]
一、HDFS高可用 1、基础描述 在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以...[作者空间]
一、工作机制 1、基础描述 DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数...[作者空间]
一、存储机制 1、基础描述 NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,...[作者空间]
一、读写机制 1、数据写入 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存...[作者空间]