美文网首页
shuffle机制

shuffle机制

作者: scott_alpha | 来源:发表于2019-09-28 17:59 被阅读0次

1.环形缓冲区
排序方式:快排+字典序
默认溢写阈值:80%
默认大小:100M
提示:合理的调节缓冲区大小以及溢写阈值是一种常见的MR优化手段
2.切片机制
简单地按照文件的内容长度进行切片
切片大小,默认等于block大小
切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
提示:切片大小公式max(0,min(Long_max,blockSize))

相关文章

网友评论

      本文标题:shuffle机制

      本文链接:https://www.haomeiwen.com/subject/avetpctx.html