Hive中的Order by ,Sort by ,Distrib

作者: 吃货大米饭 | 来源:发表于2019-07-18 10:27 被阅读0次

Hive中的Order by ,Sort by ,Distrib
Hive常用算子实现原理简述--MapReduce版
Hive中order by、sort by、distribute
hive中order by,sort by, distribut
Hive中sort by，order by，cluster by
Hive高级查询
Hive中的order by、sort by、distribut
Hive 1.2.1 排序
【转载】hive中order by,sort by, distr
转载：hive中order by,sort by, distri

一、order by

order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

set hive.mapred.mode=nonstrict; (default value / 默认值)
set hive.mapred.mode=strict;
order by 和数据库中的Order by 功能一致，按照某一项 & 几项排序输出。
与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。

hive> select * from test order by id;
FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

原因：在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce，如果在数据量大的情况下会出现无法输出结果的情况。

注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n个。否则由于数据过大可能出不了结果

二、sort by

sort by不是全局排序，其在数据进入reducer前完成排序.

因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。

使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=<number>）,对输出的数据再执行归并排序，即可以得到全部结果。

需要注意的是，N个Reduce处理的数据范围是可以重叠的，所以最后排序完的N个文件之间数据范围是有重叠的。

三、distribute by

按照指定的字段对数据进行划分到不同的输出reduce / 文件中。

insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);

此方法会根据name的长度划分到不同的reduce中，最终输出到不同的文件中。

length 是内建函数，也可以指定其他的函数或这使用自定义函数

这个可以保证每个Reduce处理的数据范围不重叠，每个分区内的数据是没有排序的。

四、Cluster By

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。

但是排序只能是倒序排序，不能指定排序规则为asc 或者desc

网友评论

本文标题：Hive中的Order by ,Sort by ,Distrib

本文链接：https://www.haomeiwen.com/subject/stdklctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive中的Order by ,Sort by ,Distrib

一、order by

二、sort by

三、distribute by

四、Cluster By

相关文章

Hive中的Order by ,Sort by ,Distrib

Hive常用算子实现原理简述--MapReduce版

Hive中order by、sort by、distribute

hive中order by,sort by, distribut

Hive中sort by，order by，cluster by

Hive高级查询

Hive中的order by、sort by、distribut

Hive 1.2.1 排序

【转载】hive中order by,sort by, distr

转载：hive中order by,sort by, distri

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读