大数据技术全系列概述

作者: a9c7d9d01e55 | 来源:发表于2019-01-26 15:58 被阅读2次

什么是大数据?

大数据是指在一定时间范围内,传统软件工具无法捕捉、管理和处理的数据集。它是一种巨大的、高增长率的、多样化的信息资产,需要一种新的处理模式来具有更强的决策能力、洞察力和流程优化能力。

在大数据时代,大数据指的是对所有数据的分析和处理,而不是随机分析(抽样调查)的捷径。大数据的5V特性(IBM提出):容量(大容量)、速度(高速)、多样性(多样性)、值(低值密度)、准确性(真实性)。

大数据应用现状

医疗卫生

百度、平安、阿里、腾讯、春雨医生、易跟进、华大基因、丁香园、微软、良医在线、39健康网、医学问答网、育儿网、中国育儿网、宝贝树、百度医学前智能提问平台、东软、金蝶。

在线零售商

淘宝、天猫、京东、亚马逊

精准销售

分析了用户消费全过程的数据,掌握了用户的基本属性、购买力、行为特征、社会特征、心理特征和兴趣偏好。

业务和供应商决策支持

提供高度及时的行业平均数据、市场需求变化、行业上下游动态等市场信息,帮助企业和供应商分析经营状况,预测销售和用户趋势,提供有针对性的经营优化策略;

平台运行优化

通过大数据分析,为各级管理和运营经理提供数据分析和决策支持服务。

语音服务

科大新闻飞扬,云博学,四一,街通华生;

广告营销

Yzap、智紫云、二手系统、品友互动、尖端科技、奥运会聚、远心等。

财务

闪银(Wecash)、宜信、拍拍贷、陆金所、人人贷、芝麻征信、腾讯征信、京小贷、元宝铺、融360、数联铭品、九次方;

电影/电视/娱乐

腾讯视频、iqi、优酷土豆、搜狐视频、虾米音乐、网易云音乐、豆瓣FMQQ音乐、艺恩世纪国际信息咨询(北京)有限公司、新片数字新闻、爱曼科技、牧民影视。

网络教育

家庭作业,家庭作业帮助,学习君主

人力资源

寻找潜在客户、工作地点、电子城招聘、人才招聘、内部招聘网络、人人猎头

旅游

去哪,好桥网,蜂巢,智游拉,携程

地理信息服务

百度地图、高德地图、中海道友、东方道友、图片软件

运输/物流

垂直和水平行驶,始终准确飞行,雄心壮志,来车,北京汇通世界物联科技,快速出租车,美丽的空调,快速逃生,95明智驾驶

房地产

万科房地产、连锁房地产、中国便捷旅游、万达房地产

企业应用程序

企业包括东方国信、亚洲信、金地、用友、神州数码

舆论

鹰击,邦福,30岁,百度,新浪

大数据技术的共同特点

行业主流大数据技术框架

磁盘存储器

HDFS、HBase、S3、Cassandra、MongoDB、Redis

内存存储

阿鲁希奥,Redis

数据分析

spark(SQL,流媒体,mllib,graphx),storm,mapreduce,mahout,hive,pig

集群系统监控

CDH-CMS、Metrics、Grafana、Ambari

消息总线

卡夫卡、ActiveMQ、阿波罗、Redis

指标体系

Solr,Lucene,弹性搜索

大数据组件应用分类

数据采集

水槽、Kafka连接器、Sqoop、插座、SFTP、Mina

实时处理

火花流,卡夫卡流,风暴,桑扎,弗林克

数据存储

HDFS、HBase、S3、Cassandra、MongoDB、Redis、Solr、弹性搜索

脱机处理

spark sql,hive,map reduce,pig,黑斑羚

交互式查询

Drill、Presto和Kylin

数据表示

Echarts、Tableau、d3js

大数据组件简介


1、Hadoo

p是Apache开源组织的一个分布式计算框架,提供了一个分布式文件系统 (HDFS)、MapReduce分布式计算及统一资源管理框架(Yarn)的软件架构。

为大规模数据的存储提供解决方案(HDFS);

解决大规模分步式计算(MapReduce);

作为其周边软件Hbase、Hive、Pig、Mahout等的基础平台。

2、HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

解决海量数据的存储;

解决随机、实时读写大数据;

提供简化访问HDFS的编程接口。

3、kafka是Apache旗下的一个高性能,高吞吐量的分步式消息总线系统。

分布式系统相互通信;

数据复制、同步;

日志同步;

Delay Queue;

广播通知。

4、Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

解决海量数据的存储;

解决大规模数据的分析:SQL。

5、MongoDB 是一个高性能,开源,无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。MongoDB不支持SQL,但有自己功能强大的查询语法。MongoDB使用BSON作为数据存储和传输的格式。BSON是一种类似JSON的二进制序列化文档,支持嵌套对象和数组。

解决海量数据在线存储;

许多情况下可以代替传统关系数据库;

代替键/值存储方式。

6、Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。

7、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

8、Storm是一个分布式的、容错的实时计算系统。使用Storm进行实时大数据分析。

9、Flink 是可扩展的批处理和流式数据处理的数据处理平台,设计思想主要来源于Hadoop、MPP数据库、流式计算系统等,支持增量迭代计算。

10、Alluxio A memory speed virtual distributed storage. Alluxio是一个高容错的内存分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享。典型特点就是加速读写数据的速度。

11、ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。其典型特点是全文快速检索。

-

相关文章

网友评论

    本文标题:大数据技术全系列概述

    本文链接:https://www.haomeiwen.com/subject/ehpijqtx.html