<...">
美文网首页
Hadoop分布式计算原理

Hadoop分布式计算原理

作者: Ariel_Tian | 来源:发表于2017-04-26 18:35 被阅读74次

hdfs原始数据:
hello a
hello b

map阶段[映射成键值对]:
输入数据:
<0,"hello a">
<8,"hello b">

输出数据:
    map(key,value,context) {
        String line = value;    //hello a
        String[] words  = value.split("\t");
        for(String word : words) {
            //hello
            // a
            // hello 
            // b
            context.write(word,1);
        }
    }
<hello,1>
<a,1>
<hello,1>
<b,1>

reduce阶段(分组排序):
输入数据:
<a,1>
<b,1>
<hello,{1,1}>

输出数据:
    reduce(key,value,context) {
        int sum = 0;
        String word = key;
        for(int i : value) {
            sum += i;
        }
        context.write(word,sum);
    }

相关文章

  • Hadoop分布式计算原理

    hdfs原始数据:hello ahello b map阶段[映射成键值对]:输入数据:<0,"hello a"><...

  • hadoop简介

    一. 什么是hadoop hadoop是一个具有分布式存储和分布式计算能力的分布式软件系统 hadoop基本特点 ...

  • Hadoop简介

    Hadoop概述 Hadoop是一个适合海量数据存储的分布式存储和分布式计算的平台。 Hadoop Modules...

  • 太厉害了!终于有人把Hadoop+Spark+HBase+Net

    一、Hadoop实战 Hadoop是Apache软件基金会旗下的一一个开源分布式计算平台。以Hadoop分布式文件...

  • 真狠!涵盖了Netty+Spark+Hadoop+分布式五部分!

    一、Hadoop实战 Hadoop是Apache软件基金会旗下的一一个开源分布式计算平台。以Hadoop分布式文件...

  • Hadoop 学习笔记 1

    Hadoop 基本组成结构 Hadoop HDFS 分布式文件系统 Map Reduce 分布式离线并行计算框架 ...

  • 分布式计算(二)Hadoop原理

    Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,可以简单...

  • Hadoop概述

    Hadoop简介 Hadoop是由Apache所开发的分布式系统基础架构,是适合海量数据的分布式存储和分布式计算的...

  • 玩转大数据计算之Hadoop

    Hadoop版本:我们采用目前主流的版本:2.7.3 Hadoop介绍:目前最流行的分布式计算平台。 Hadoop...

  • Hadoop 概览

    Hadoop Hadoop 是一个提供分布式存储和分布式计算的框架,为大量数据的存储和计算提供了一个可靠的平台支持...

网友评论

      本文标题:Hadoop分布式计算原理

      本文链接:https://www.haomeiwen.com/subject/nylwzttx.html