美文网首页
从0开始研究数据仓库的一些想法

从0开始研究数据仓库的一些想法

作者: lodestar | 来源:发表于2020-10-12 21:16 被阅读0次

研究方向

数仓理论:分层设计理论、维度建模理论
基于OLAP数仓:adb/clickhouse/greenplum/presto/kylin等
基于阿里云EMR的hadoop平台:hdfs/hbase/hive等
基于阿里云MaxCompute/DataWorks平台
基于阿里云DLA平台
基于阿里云DMS数仓开发平台
实时计算引擎:Flink
存储:kafka/redis/hbase/es/rds等

数仓建设如果从头开始,那么需要调研的技术非常多,需要花费很多的时间来学习相关的技术,然后从中选择使用哪些技术,更多的是满足自身的需求。

阿里将数仓分为如下几层:
操作数据层ODS,存储在kafka/hive/hbase
明细数据层DWD,存储在kafka/hive/hbase
汇总数据层DWS,存储在kafka/hive/hbase,impala/presto/kylin等OLAP
应用数据层ADS ,存储在rds或KV系统

目前比较通用的方案是通过维度建模来实现数仓建设,维度表始终贯穿于整个数仓全局,参考下有赞技术关于数仓建设实践 https://tech.youzan.com/dw-in-youzan/

目前有2种可以实施的方案:

方案一、DTS+Datahub+Kafka+Hbase+Flink
流程:通过DTS同步工具,将Polardb数据库中的表同步到Datahub,然后通过Flink关联Datahub和kafka,然后再通过Flink写入到Hbase中,具体使用方法可以参考前一篇文章。
方案二、DLA+DMS+ADB
流程:在数据湖分析DLA中将Polardb关联存储到OSS中,然后再DMS管理工具中通过查询的方式将OSS中数据写入到ADB中。

方案一 方案二
流批一体计算 批量计算
灵活性高、可以分层设计 设计受限于DMS
延时低,准实时(秒级) 延时高,定时任务
ETL繁琐 ETL简单
宽表实现复杂 宽表通过物化视图(最低2分钟延时)
前期费用高,费用平稳 前期费用低,随着请求量级增加、费用增加巨大
使用难度高、维护成本高 使用难度低、维护成本低
可以满足高QPS QPS低
海量存储 湖量存储

总结起来就是,方案一功能强大,复杂度高;方案二功能简单,复杂度低

核心观点:

1、不管是用OLAP还是Hadoop平台做数仓,有个核心环节是明细层(大宽表)是如何实现的。如果OLAP支持物化视图,那就会省去很多工作量。

2、对于OLAP的数仓,QPS都不算高,如果QPS比较高,需要提供给业务,那么无论如何需要将数据统计结果转化到RDS或者KV存储系统中。

相关文章

  • 从0开始研究数据仓库的一些想法

    研究方向 数仓理论:分层设计理论、维度建模理论基于OLAP数仓:adb/clickhouse/greenplum/...

  • 从0开始学大数据-数据仓库建模

    为什么要数据仓库建模 数据模型是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。有了适合业务和基...

  • 浅谈数据仓库(DW & BI)(一)

    前一段时间,有描述过数据仓库的一些概念,但是还没说完,慢慢补充自己的一些想法吧。行文有点乱,见谅。 数据仓库,是为...

  • 过研究性教学生活

    当教师对某个教育问题、教育现象有了一些感悟和想法,开始思考,这就是教师研究的开始。 教师研究什么呢?研究课堂,研究...

  • 从0开始创建数据仓库需要考虑的问题

  • 从0开始学大数据-数据仓库理论篇

    什么是数据仓库 数据仓库(DW)是一个 面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程...

  • 从0开始

    不想再碌碌无为继续这么混下去了好嘛

  • 从0开始

    空杯心态,说着容易做着难。 当我们从有了孩子的欣喜若狂,到孩子第一天上幼儿园的充满希望,然后到小学三四年级的开始纠...

  • 从0开始

    当一家公司开始招聘专业安全人员的时候,意味着安全对这家公司已经比较重要了,比如曾发生一些入侵或者信息泄漏等安全事件...

  • 从0开始

    The best time to plant a tree is twenty years ago. The se...

网友评论

      本文标题:从0开始研究数据仓库的一些想法

      本文链接:https://www.haomeiwen.com/subject/bfzluktx.html