作者: 清风_d587 | 来源:发表于2018-08-29 15:03 被阅读6次

    一、大数据相关工作介绍

    大数据方向的工作目前主要分为三个主要方向:

    大数据工程师

    数据分析师

    大数据科学家

    其他(数据挖掘等)

    二、大数据工程师的技能要求

    附上大数据工程师技能图:

    必须掌握的技能11条

    Java高级(虚拟机、并发)

    Linux 基本操作

    Hadoop(HDFS+MapReduce+Yarn )

    HBase(JavaAPI操作+Phoenix )

    Hive(Hql基本操作和原理理解)

    Kafka

    Storm/JStorm

    Scala

    Python

    Spark (Core+sparksql+Spark streaming )

    辅助小工具(Sqoop/Flume/Oozie/Hue等)

    高阶技能6条

    机器学习算法以及mahout库加MLlib

    R语言

    Lambda 架构

    Kappa架构

    Kylin

    Alluxio

    三、学习路径

    假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;

    3个月会有(21*3+4*2*10)*3=423小时的学习时间。

    第一阶段(基础阶段)

    1)Linux学习(跟鸟哥学就ok了)—–20小时

    Linux操作系统介绍与安装。

    Linux常用命令。

    Linux常用软件安装。

    Linux网络。

    防火墙。

    Shell编程等。

    官网:https://www.centos.org/download/ 

    中文社区:http://www.linuxidc.com/Linux/2017-09/146919.htm

    2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时

    掌握多线程。

    掌握并发包下的队列。

    了解JMS。

    掌握JVM技术。

    掌握反射和动态代理。

    官网:https://www.java.com/zh_CN/ 

    中文社区:http://www.java-cn.com/index.html

    3)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html

    Zookeeper分布式协调服务介绍。

    Zookeeper集群的安装部署。

    Zookeeper数据结构、命令。

    Zookeeper的原理以及选举机制。

    官网:http://zookeeper.apache.org/ 

    中文社区:http://www.aboutyun.com/forum-149-1.html

    第二阶段(攻坚阶段)

    4)Hadoop (《Hadoop 权威指南》)—80小时

    HDFS

    HDFS的概念和特性。

    HDFS的shell操作。

    HDFS的工作机制。

    HDFS的Java应用开发。

    MapReduce

    运行WordCount示例程序。

    了解MapReduce内部的运行机制。 

    MapReduce程序运行流程解析。

    MapTask并发数的决定机制。

    MapReduce中的combiner组件应用。

    MapReduce中的序列化框架及应用。

    MapReduce中的排序。

    MapReduce中的自定义分区实现。

    MapReduce的shuffle机制。

    MapReduce利用数据压缩进行优化。

    MapReduce程序与YARN之间的关系。

    MapReduce参数优化。

    MapReduce的Java应用开发

    官网:http://hadoop.apache.org/ 

    中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/ 

    中文社区:http://www.aboutyun.com/forum-143-1.html

    5)Hive(《Hive开发指南》)–20小时

    Hive 基本概念

    Hive 应用场景。

    Hive 与hadoop的关系。

    Hive 与传统数据库对比。

    Hive 的数据存储机制。

    Hive 基本操作

    Hive 中的DDL操作。

    在Hive 中如何实现高效的JOIN查询。

    Hive 的内置函数应用。

    Hive shell的高级使用方式。

    Hive 常用参数配置。

    Hive 自定义函数和Transform的使用技巧。

    Hive UDF/UDAF开发实例。

    Hive 执行过程分析及优化策略

    官网:https://hive.apache.org/ 

    中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html 

    中文社区:http://www.aboutyun.com/thread-7598-1-1.html

    6)HBase(《HBase权威指南》)—20小时

    hbase简介。

    habse安装。

    hbase数据模型。

    hbase命令。

    hbase开发。

    hbase原理。

    官网:http://hbase.apache.org/ 

    中文文档:http://abloz.com/hbase/book.html 

    中文社区:http://www.aboutyun.com/forum-142-1.html

    7)Scala(《快学Scala》)–20小时

    Scala概述。

    Scala编译器安装。

    Scala基础。

    数组、映射、元组、集合。

    类、对象、继承、特质。

    模式匹配和样例类。

    了解Scala Actor并发编程。

    理解Akka。

    理解Scala高阶函数。

    理解Scala隐式转换。

    官网:http://www.scala-lang.org/ 

    初级中文教程:http://www.runoob.com/scala/scala-tutorial.html

    8)Spark (《Spark 权威指南》)—60小时

    相关文章

      网友评论

          本文标题:

          本文链接:https://www.haomeiwen.com/subject/mtfkwftx.html