提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
多表联查–07— Hash join
如果null值得数据,是业务需要的, 那么有可能实际跑MR任务的时候会造成数据倾斜
随机分布空 null 值
如果2个表join,都是数据量特表大的表, 化大为小, 用join 字段进行分桶拆分,效率会高很多
创建分通表 桶的个数不要超过可用 CPU的核数
默认情况下,Map阶段同一 key数据分发给一个reduce,当一个key数据过大时就倾斜了
案例1 的执行计划,会先对b表和o表进行id字段过滤,再表关联.
因为框架底层优化器,发现where过滤条件id,正好是表的关联字段 id. 所以会进行谓词下推的优化