大数据平台

作者: 第十页 | 来源:发表于2018-05-29 17:58 被阅读1次
数据加工

框架

存储

海量的数据怎样有效的存储?主要包括hdfs、Kafka;

计算

海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等

查询

海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主

要解决随机查询,Olap技术主要解决关联查询

挖掘

海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等

数据层级

ODS :

原始业务数据库,实际业务生产中产生的数据结构

FACT:

顾名思义即为真正正确的数据,通过ODS进行数据清洗而来

TOPIC:

主题层,数仓是面向主题的数据平台,核心体现,即面向主题的数据结构,例如用户主题,基于用户主题可以记

性用户画像的梳理

APP:

应用层,对外提供服务的数据层级,可以用于BI数据的数据来源点等等

常见大数据应用 系统结构示例

数据分析

定义

数据分析是用来衡量某个对象好坏的工具

BI是用来分析业务经营好坏的互联网工具平台

核心问题

对象是什么:分析的是人还是商品,分析的是业务还是体验

衡量标准是什么:什么样子的情况代表好,什么样子的情况代表不好

标准怎么计算:使用什么算法来生成工具

分析工具

报表:

预设好的工具,预设好相关的维度和指标,展示相关的指标

指标分析:

指标是度量,衡量某个事件好坏的标准;维度是角度,看待对象的角度;使用不同的维度来看指标,能够分析出问题具体出现在哪个业务角度

漏斗分析:

漏斗顾名思义是转化,用来衡量某个流程好坏的工具;流程是由多个事件窜起来的集合,同时一个流程也可以看做一个事件;既然是一个集合,那么漏斗的维度和窗口期必须一致才有意义

留存分析:

用来衡量重复性事件的工具;当一个事件发生之后,在一定的时间窗口期重复发生的比例,既然是重复事件,那么就需要是同一批事件的行动者

关联分析:

用来衡量两个时间关联性的工具;没有任何的条件约束,只需要放在同一个坐标系就可以衡量

用户画像

宽泛讲是用来描述对象特征的工具,除了用于用户,还可以是商品,商家等等

实际的工作就是:从各种维度给用户打标签

欢迎关注微信公众号 :第十页

相关文章

  • Flink基础系列4-CDH6.3集成Flink1.9

    一.准备工作 1.1 CDH 6.3.1大数据平台搭建 CDH 6.3 大数据平台搭建[https://blog....

  • 魅族大数据运维平台实践

    一、大数据平台介绍 1.1大数据平台架构演变 如图所示魅族大数据平台架构演变历程: 2013年底,我们开始实践大数...

  • 魅族大数据运维平台实践

    一、大数据平台介绍 1.1大数据平台架构演变 如图所示魅族大数据平台架构演变历程: 2013年底,我们开始实践大数...

  • 魅族大数据运维平台实践

    一、大数据平台介绍 1.1大数据平台架构演变 如图所示魅族大数据平台架构演变历程: 2013年底,我们开始实践大数...

  • python爬虫基础

    大数据时代:数据如何产生? 1、大的公司打的企业:通过用户产生的数据2、大的数据平台:通过收集或者和其他的企业或者...

  • 爬虫基础

    大数据时代:数据如何产生? 1、大的公司打的企业:通过用户产生的数据2、大的数据平台:通过收集或者和其他的企业或者...

  • python爬虫入门

    大数库时代:数据如何产生? 1. 大的公司大的企业:通过用户产生的数据 2.大的数据平台:通过收集或者和其他企业或...

  • 爬虫one-Day总结

    1,大叔据时代数据产生: (1)大的公司大的企业:通过用户产生的数据 (2)大的数据平台:通过手机或者和其他企业或...

  • MOOC平台的那些“大”数据

    曾经很长一段时间在聊起慕课的时候,总会有人提起所谓的“大数据”,并谈及这些MOOC平台所产生的大数据对于未来的教育...

  • 大数据架构师文集目录

    1. 大数据平台安装、部署、运维篇 基于阿里云CentOS7.6搭建CM6.3大数据平台[https://www....

网友评论

    本文标题:大数据平台

    本文链接:https://www.haomeiwen.com/subject/drbajftx.html