hive中 count结果和spark sql中count结果不一致

总结

hive统计错误 spark统计正确

原因和解决方案

解决方法1 set hive.compute.query.using.stats=false

原因分析:

这是hive中的一个优化参数导致的，对于一些使用频率可能很高的sql会进行查询优化，会将这个参数[hive.compute.query.using.stats]设置为true(默认是false)，这样的话，Hive在执行某些查询时，例如select count(1)，只利用元数据存储中保存的状态信息返回结果，从而提高了响应速度。

所以关闭该参数即可.

-- count(*) 和 count(列名) 区别:

count(*) + set hive.compute.query.using.stats=true (默认值)

从元数据、表统计信息中得到答案。统计数据可能尚未更新，结果可能完全错误。

count() :

这将为您提供中非空值的计数

解决方法2

所以如果你不想临时修改参数: set hive.compute.query.using.stats=false

可以使用下面的sql搞定:

select count(*) as count_all, count() as dummy from

;

相关阅读:
JNI编程之字符串处理
2023年高教社杯数学建模国赛C题详细版思路
JSP宅急送物流管理系统
【无标题】
ArrayList源码解析
Linux tips: shell中启动多进程并行批处理的技巧
用floyd算法求图中任意两点最短距离（matlab）
MySQL之存储引擎
Spring Statement 状态机应用实例
新超导光子电路

原文地址：https://blog.csdn.net/qq_35515661/article/details/126277743