00 初识Hadoop

作者: 悟空很开心 | 来源:发表于2017-09-21 23:37 被阅读0次

1 Hadoop是个什么鬼?

简单的说,Hadoop是一个用来处理大数据的分布式软件,它提供了一个分布式文件存储(HDFS)、一个资源调度系统(YARN)以及一个分布式并行计算框架(MAPREDUCE)。作为介绍Hadoop的第一篇文章,笔者认为还是有必要好好唠唠嗑,说说它的前世今生,颜值妙用。

Hadoop最早起源于Nutch。Nutch的目标是创建出一个大型的、健壮、可扩展的搜索引擎,

1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案

——分布式文件系统(GFS),可用于处理海量网页的存储

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

3.Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

相关文章

  • 00 初识Hadoop

    1 Hadoop是个什么鬼? 简单的说,Hadoop是一个用来处理大数据的分布式软件,它提供了一个分布式文件存储(...

  • 00 - Hadoop

  • 初识Hadoop

    三大核心组件 1. HDFS 概念 是一个分布式文件系统 源于谷歌GFS论文的开源实现 设计目标 非常巨大的分布式...

  • Hadoop 初识

    Hadoop的前世今生 Google大数据技术 MapReduce BigTable GFS 革命性的变化: 成本...

  • 初识Hadoop

    Hadoop的学习有一段时间了,把本地的笔记整理之后写入简书,为了长久的保存,也为了与志同道合者共同学习。 Had...

  • 初识Hadoop

    Hadoop 概述 Hadoop 是开源的,分布式存储和分布式计算平台。我们可以通过它搭建大型数据仓库,PB级数据...

  • 初识Hadoop

    目录## Hadoop背景介绍 Hadoop生态圈以及各组成部分的简介 Hadoop案例感性认识 1、Hadoop...

  • 初识Hadoop

    公司领导让部门内部结成小组,研究一下Hadoop,并说哪个组做得最好,年终奖有加成。无论奖励与否,多学一点总是好的...

  • 初识Hadoop

    大数据简介 定义 大数据是指无法在一定时间范围内用常规软件工具进行处理和分析的数据集合,需要新处理模式才能具有更强...

  • 初识Hadoop

    1.什么是Hadoop 官网如下:http://hadoop.apache.org估计你们也不会点进去看 。。。 ...

网友评论

    本文标题:00 初识Hadoop

    本文链接:https://www.haomeiwen.com/subject/jchxextx.html