码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hive增量查询Hudi表


    前言

    简单总结如何利用Hive增量查询Hudi表

    同步Hive

    我们在写数据时,可以配置同步Hive参数,生成对应的Hive表,用来查询Hudi表,具体来说,在写入过程中传递了两个由table name命名的Hive表。 例如,如果table name = hudi_tbl,我们得到

    hudi_tbl 实现了由 HoodieParquetInputFormat 支持的数据集的读优化视图,从而提供了纯列式数据。
    hudi_tbl_rt 实现了由 HoodieParquetRealtimeInputFormat 支持的数据集的实时视图,从而提供了基础数据和日志数据的合并视图。

    其中实时视图_rt表只有在MOR表同步Hive元数据时才会有

    Hive查询Hudi

    按照我之前总结的Apache Hudi 入门学习总结中Hive和Tez部分配置,就可以在Hive命令行里用Hive SQL查询Hudi表了

    增量查询

    修改配置hive-site.xml

    在Hive SQL白名单里添加hoodie.*,其他均为已存在的配置,还可以根据需要添加其他白名单,如:tez.*|parquet.*|planner.*

    hive.security.authorization.sqlstd.confwhitelist.append hoodie.*|mapred.*|hive.*|mapreduce.*|spark.*
    
    • 1

    设置参数

    以表名为hudi_tbl为例:
    连接Hive connect/Hive Shell

    设置该表为增量表

    set hoodie.hudi_tbl.consume.mode=INCREMENTAL;
    
    • 1

    设置增量开始的时间戳(不包含),作用:起到文件级别过滤,减少map数。

    set hoodie.hudi_tbl.consume.start.timestamp=20211015182330;
    
    • 1

    设置增量消费的commit次数,默认设置为-1即可,表示增量消费到目前新数据。

    set hoodie.hudi_tbl.consume.max.commits=-1;
    
    • 1

    自己根据需要修改commit次数

    查询语句

    select * from hudi_tbl where `_hoodie_commit_time` > "20211015182330";
    
    • 1

    因小文件合并机制,在新的commit时间戳的文件中,包含旧数据,因此需要再加where做二次过滤。

    注:这里的设置设置参数有效范围为connect session
    Hudi 0.9.0版本只支持表名参数,不支持数据库限定,这样设置了hudi_tbl为增量表后,所有数据库的该表名的表查询时都为增量查询模式,起始时间等参数为最后一次设定值,在后面的新版本中,添加了数据库限定,如hudi数据库

  • 相关阅读:
    hbuilderx ios自定义基座真机测试
    阿里云SLB之:基于URL调度场景的SLB七层负载均衡配置(十三)
    常见的序列化数据结构方法及其优缺点汇总
    (四)JPA - JQPL 实现增删改查
    虾皮二面:既然有 HTTP 协议,为什么还要有 RPC?
    溶出度质量标准的拟定注意事项
    PCIe系列专题之二:2.2 TLP事务处理方式解析
    jsp 前端传值,后端接受不到
    数据结构---二叉搜索树
    探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态
  • 原文地址:https://blog.csdn.net/dkl12/article/details/125486457
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号