Hive增量查询Hudi表

前言

简单总结如何利用Hive增量查询Hudi表

同步Hive

我们在写数据时，可以配置同步Hive参数，生成对应的Hive表，用来查询Hudi表，具体来说，在写入过程中传递了两个由table name命名的Hive表。例如，如果table name = hudi_tbl，我们得到

hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图，从而提供了纯列式数据。
hudi_tbl_rt 实现了由 HoodieParquetRealtimeInputFormat 支持的数据集的实时视图，从而提供了基础数据和日志数据的合并视图。

其中实时视图_rt表只有在MOR表同步Hive元数据时才会有

Hive查询Hudi

按照我之前总结的Apache Hudi 入门学习总结中Hive和Tez部分配置，就可以在Hive命令行里用Hive SQL查询Hudi表了

增量查询

修改配置hive-site.xml

在Hive SQL白名单里添加hoodie.*,其他均为已存在的配置，还可以根据需要添加其他白名单，如：tez.*|parquet.*|planner.*

hive.security.authorization.sqlstd.confwhitelist.append hoodie.*|mapred.*|hive.*|mapreduce.*|spark.*
1

设置参数

以表名为hudi_tbl为例：
连接Hive connect/Hive Shell

设置该表为增量表

set hoodie.hudi_tbl.consume.mode=INCREMENTAL;
1

设置增量开始的时间戳（不包含）,作用：起到文件级别过滤，减少map数。

set hoodie.hudi_tbl.consume.start.timestamp=20211015182330;
1

设置增量消费的commit次数，默认设置为-1即可，表示增量消费到目前新数据。

set hoodie.hudi_tbl.consume.max.commits=-1;
1

自己根据需要修改commit次数

查询语句

select * from hudi_tbl where `_hoodie_commit_time` > "20211015182330";
1

因小文件合并机制，在新的commit时间戳的文件中，包含旧数据，因此需要再加where做二次过滤。

注：这里的设置设置参数有效范围为connect session
Hudi 0.9.0版本只支持表名参数，不支持数据库限定，这样设置了hudi_tbl为增量表后，所有数据库的该表名的表查询时都为增量查询模式，起始时间等参数为最后一次设定值，在后面的新版本中，添加了数据库限定，如hudi数据库

相关阅读:
hbuilderx ios自定义基座真机测试
阿里云SLB之：基于URL调度场景的SLB七层负载均衡配置（十三）
常见的序列化数据结构方法及其优缺点汇总
（四）JPA - JQPL 实现增删改查
虾皮二面：既然有 HTTP 协议，为什么还要有 RPC?
溶出度质量标准的拟定注意事项
PCIe系列专题之二：2.2 TLP事务处理方式解析
jsp 前端传值，后端接受不到
数据结构---二叉搜索树
探索编译软件栈新范式；高端GPU禁售的影响；陈天奇DL系统免费课程｜AI系统前沿动态

原文地址：https://blog.csdn.net/dkl12/article/details/125486457