分布式数据库技术正在迅速发展,随着数据处理的实时性需求越来越高,公司在管理数据处理的过程中,开始从ETL方案,逐渐转向ELT方案。
ETL(Extract-Transform-Load),是对数据进行抽取、转换、加载的一系列过程,数据从数据源移动到中间区域(Staging Area),然后再进入数据仓库,所有转换都在数据加载到仓库之前执行。
而ELT(Extract-Load-Transform),则提供了更现代化的替代方案,在该方案中,分析师在转换数据之前将数据加载到数据仓库中,从而支持更灵活、更敏捷的工作方式。
无论是ETL,还是ELT,都是把数据从数据源移动到数据仓库的过程。两种方案的根本区别,在于原始数据「转换」和「加载」的先后顺序,以及随后如何执行分析。
在本文中,我们将对两种方案之间的差异,以及ELT的优势展开讨论。
传统ETL步骤: