hive count distinct和group by-白红宇

hive count distinct和group by

阅读量：6253 次

发布时间：2019-06-22

本文共 698 字，大约阅读时间需要 2 分钟。

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。

实例代码：

select a,count(distinct b) from t group by aselect tt.a,count(tt.b) from (select a,b from t group by a,b)tt group by tt.a

上面两句代码产生的结果是一样的，但是两者从效率和空间复杂度上来讲，是有很大的差别的。

distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM。

group by会先把b列的值进行排序，如果以快速派序来说的话，他的空间复杂度就是O(1)，时间复杂度是O（nlogn），这样在大数据的环境下，只有排序阶段会比较慢，时间复杂度是O(nlogn)。

两者比较来说，distinct 耗费内存，但是效率极高，但是数据较大时，可能会产生OOM；group by如果在时间复杂度允许的情况下，可以展现出突出的空间复杂度的优势。

使用distinct会将所有的数据都shuffle到一个reducer里面，group by会分组，将数据分布到多台机器上执行。

最后，对于Hive来说，含有distinct的HQL语句，如果遇到瓶颈，想要调优，第一时间都是想到用group by来替换distinct来实现对数据的去重。

转载于:https://my.oschina.net/u/2000675/blog/2989271

你可能感兴趣的文章