MapReduce体系结构指南

作者: 盗梦者_56f2 | 来源:发表于2018-04-03 14:26 被阅读25次

1. 简介

Hadoop Mapreduce是一个易于编程并且能在大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的方式部署在商用机器上。

MapReduce作业通常将输入数据集分成独立的块,由map任务以完全平行的方式进行处理。框架对map的输出进行排序,然后输入到reduce任务。 通常,作业的输入和输出都存储在文件系统中。 该框架负责调度任务,监控它们并重新执行失败的任务。

通常,计算节点和存储节点是相同的,即MapReduce框架和Hadoop分布式文件系统在同一组节点上运行。 该配置允许框架在数据已经存在的节点上有效地调度任务,从而在整个集群中产生非常高的聚合带宽。

MapReduce框架由单个主ResourceManager,每个集群节点的一个从属NodeManager和每个应用程序的MRAppMaster组成。

Hadoop 客户端提交Job和配置信息给ResourceManger,它将负责把配置信息分配给从属节点,调度任务并且监控它们,把状态信息和诊断信息传输给客户端。

2. Inputs and Outputs

MapReduce 框架只操作键值对,MapReduce 将job的不同类型输入当做键值对来处理并且生成一组键值对作为输出。

Key和Value类必须通过实现Writable接口来实现序列化。此外,Key类必须实现WritableComparable 来使得排序更简单。
MapReduce作业的输入和输出类型:

(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)

3. Mapper、Reducer、Partitioner、Counter

应用通常实现Mapper和Reducer接口提供map和reduce方法。这是Job的核心代码。

  1. Mapper
    Mappers将输入的键值对转换成中间键值对。
    Maps是多个单独执行的任务将输入转换成中间记录。那些被转换的中间记录不一定要和输入的记录为相同类型。输入键值对可以在map后输出0或者更多的键值对。MapReduce 会根据 InputFormat 切分成的各个 InputSplit 都创建一个map任务。所有的中间值都会按照Key进行排序,然后传输给一个特定的Reducer做最后确定的输出。maps的数量通常依赖于输入数据的总长度,也就是,输入文档的总block数。每个节点map的正常并行度应该在10-100之间。
  2. Reducer
    Reduce处理一系列相同key的中间记录。Reducer有3个主要阶段:混洗(Shuffle)、排序(Sort)和reduce。
    Shuffle - 输出到Reducer的数据都在Mapper阶段经过排序的。在这个阶段框架将通过HTTP从恰当的Mapper的分区中取得数据。
    Sort - 这个阶段框架将对输入到的 Reducer 的数据通过key(不同的 Mapper 可能输出相同的key)进行分组。混洗和排序阶段是同时进行;map的输出数据被获取时会进行合并。
    Recude - 在这个阶段reduce方法将会被调用来处理每个已经分好的组键值对。Recuder 输出的数据是不经过排序的。
    合适的 reduce 总数应该在 节点数每个节点的容器数0.95 至 节点数每个节点的容器数1.75 之间。当设定值为0.95时,map任务结束后所有的 reduce 将会立刻启动并且开始转移数据,当设定值为1.75时,处理更多任务的时候将会快速地一轮又一轮地运行 reduce 达到负载均衡。Reduce 的数目的增加将会增加框架的负担,但是会提高负载均衡和降低失败率。当没有 reduction 需求的时候可以将 reduce-task 的数目设置为0,是允许的。
  3. Partitioner
    Partitioner对key进行分区。Partitioner 对 map 输出的中间值的 key(Recuder之前)进行分区。分区采用的默认方法是对 key 取 hashcode。分区数等于 job 的 reduce 任务数。因此这会根据中间值的key 将数据传输到对应的 reduce。HashPartitioner 是默认的的分区器。
  4. Counter
    计数器是一个工具用于报告 Mapreduce 应用的统计。
    Mapper 和 Reducer 实现类可使用计数器来报告统计值。
    Hadoop Mapreduce 是普遍的可用的 Mappers、Reducers 和 Partitioners 组成的一个库。

相关文章

  • MapReduce体系结构指南

    1. 简介 Hadoop Mapreduce是一个易于编程并且能在大型集群(上千节点)快速地并行得处理大量数据的软...

  • Journal 10月 18,2017(Wed)

    Done:《Hadoop权威指南》第7章 MapReduce的工作机制《Hadoop权威指南》第8章 MapRed...

  • Hadoop相关学习笔记

    大数据架构体系结构及开源组件 Hadoop HDFS:大数据存储Mapreduce:大数据计算 - 批量计算 Sp...

  • spark认知

    一、Spark体系结构 Spark是一种基于内存的开源计算框架,不同于Hadoop的MapReduce和HDFS,...

  • OpenPai v1.1.1安装部署手册

    OpenPAI 1.1.1安装部署教程 安装指南 OpenPAI的体系结构已在v1.0.0中更新和优化。v1.0....

  • App体系结构指南

    本指南适用于过去构建应用程序的基础知识的开发人员,现在想知道构建强大的生产质量应用程序的最佳实践和建议的体系结构。...

  • YARN体系结构指南

    1. 简介 hadoop-0.23引入的新体系结构将JobTracker的两个主要功能:资源管理和作业生命周期管理...

  • HDFS 体系结构指南

    1. 简介 HDFS是一个高容错和可部署在廉价机器上的系统。HDFS提供高吞吐数据能力适合处理大量数据。HDFS松...

  • HDFS体系结构指南

    原文 介绍 Hadoop分布式文件系统( HDFS )是一种分布式文件系统,设计用于在商品硬件上运行。它与现有...

  • App体系结构指南

    本文翻译开发者官网 App体系结构指南 本指南适用于那些过去构建应用程序的基础知识的开发人员,现在想知道构建强大的...

网友评论

  • IT人故事会:做开发很累,还的学习,之前你这个我也碰到过,但是没记录谢谢了

本文标题:MapReduce体系结构指南

本文链接:https://www.haomeiwen.com/subject/mcsqhftx.html