Hudi是现在非常热门的数据湖开源方案,非常适合于搭建一个数据湖平台。
有些人认为数据湖肯定与大数据技术体系完全不一样,是两个东西,甚至认为他俩没关系。
但是,你知道Hudi的全称叫啥么?就是“Hadoop Updates and Incrementals”
简单来说,就是基于Hadoop生态,支持HDFS的数据删除和增量更新的技术框架。
所以,Apache Hudi其实本就是从Hadoop生态里来的,依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。同时基于update和Incrementals两个原语解决流批一体的存储问题:
Update/Delete 记录:Hudi 支持更新/删除记录,使用文件/记录级别索引,同时对写操作提供事务保证。查询可获取最新提交的快照来产生结果。
变更流:支持增量获取表中所有更新/插入/删除的记录,从指定时间点开始进行增量查询,可以实现类似 Kafka 的增量消费机制。
Hudi设计原则