美文网首页大数据程序员
大数据||MapReduce的shuffle

大数据||MapReduce的shuffle

作者: 明明德撩码 | 来源:发表于2018-02-14 12:28 被阅读23次

mapreduce的数据处理过程中,shuffle出于map和Reduce之间。
Shuffle:洗牌或弄乱。
Collections.shuffle(List):随机地打乱参数list里的元素顺序。
MapReduce里Shuffle:描述着数据从map task输出到reduce task输入的这段过程。

mapreduce处理过程 input --> map --> shuffle --> reduce -->output

MapReduce shuffle

MapReduce优化

  • 分区Partitioner
  • 排序Sort
  • 合并Combiner(可选)
  • 压缩Compress(可选)
  • 分组Group
  • Reduce Task Number
  • Map Task 输出压缩
  • Shuffle Phase 参数

MapReduce Shuffle过程如何在Job中进行设置

image.png

相关文章

网友评论

    本文标题:大数据||MapReduce的shuffle

    本文链接:https://www.haomeiwen.com/subject/ojletftx.html