1、 大数据的原理,本质
大量的数据如何存储? 分布式文件系统(分布式存储)
大量的数据如何计算? 分布式计算
2、Java和大数据的关系
(1)Hadoop: 基于Java语言开发
(2)Spark: 基于Scala语言开发,Scala基于Java语言开发
3、学习大数据的需要基础和路线
(1)学习大数据需要的基础:
Java基础(JavaSE)——类、继承、l/O、反射、泛型……
Linux基础(Linux的基本操作)创建文件、目录、VI编辑器……
(2)学习路线
1、Java基础和Linux基础
2、Hadoop的学习:体系结构、原理、编程
第一阶段: HDFS、MapReduce、HBace(NoSQL数据库)
第二阶段: 数据分析引擎——Hive、Pig
数据采集引擎——Sqoop、Flume
第三阶段: HUE : Web管理工具
Zookeepr: 实现Hadoop的HA
Oozie: 工作流引擎
3、Spark的学习
第一阶段: Scala编程语言
第二阶段: Spark Core——基于内存,数据的计算
第三阶段: Spark SQL——类似Oracle中的SQl语句
第四阶段: Spark Streaming——进行实时计算(流失计算)比如: 自来水厂













网友评论