本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见大数据理论体系
湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。
关于数据仓库请参考我的这篇博客——数据仓库是什么?
关于数据湖请参考我的这篇博客——什么是数据湖?为什么需要数据湖?
湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。
关于 BI 请参考我的这篇博客——什么是商业智能(BI)?
湖仓一体架构将数据仓库的数据结构和管理功能与数据湖的低成本存储和灵活性相结合。
这种实现的好处是巨大的,包括:
湖仓一体的主要缺点是它仍然是一种相对较新且不成熟的技术。
因此,目前还不清楚它是否一定会符合上面的优点。
湖仓一体可能需要几年时间才能与成熟的大数据存储解决方案竞争。
但以现代创新的速度,很难预测新的数据存储解决方案最终是否会替代它。
数据仓库是最古老的大数据存储技术,在商业智能、报告和分析应用方面有着悠久的历史。然而,数据仓库很昂贵,难以应对流数据、多样化数据等非结构化数据。
数据湖的出现是为了在机器学习和数据科学工作负载的廉价存储中处理各种格式的原始数据。虽然数据湖与非结构化数据配合得很好,但它们缺乏数据仓库的 ACID 事务功能,因此很难确保数据的一致性和可靠性。
湖仓一体最新的数据存储架构,它结合了数据湖的成本效益和灵活性以及数据仓库的可靠性和一致性。
下表总结了数据仓库与数据湖与湖仓一体之间的差异。
差异点 | 数据仓库 | 数据湖 | 湖仓一体 |
---|---|---|---|
存储数据类型 | 很好地处理结构化数据 | 很好地处理半结构化和非结构化数据 | 能够处理结构化、半结构化和非结构化数据 |
目的 | 适用于数据分析和商业智能(BI) | 适用于机器学习(ML)和人工智能(AI)工作负载 | 适用于数据分析和机器学习工作负载 |
费用 | 存储既昂贵又耗时 | 存储具有成本效益、快速性和灵活性 | 存储具有成本效益、快速性和灵活性 |
ACID 合规性 | 以符合ACID的方式记录数据,以确保最高水平的完整性 | 非 ACID 合规性:更新和删除是复杂的操作 | 符合 ACID,以确保多方同时读取或写入数据的一致性 |
湖仓一体仍然是一个不断发展的数据存储解决方案。
选择哪种大数据存储架构最终将取决于你正在处理的数据类型、数据源以及利益相关者将如何使用数据。
虽然湖仓一体结合了数据仓库和数据湖的所有好处,但我们不建议你将现有的数据存储技术交给湖仓一体。