首先,这在很大程度上取决于用户组织当前的使用案例及其成熟度。
在我看来,数据工程师喜欢查看数据流并对依赖关系有直观的了解,但他们最终真的会使用数据沿袭吗?使用频率是多少?具体用例是什么?
从我们的观察来看,数据沿袭确实引起了人们的兴趣。然而,在实际使用中,它并不是核心功能。这可能是因为我们的实现仅限于某些数据源。然而,将沿袭限制在某些管道上对我来说似乎也不太有意义(即 dbt 或Dataform中的沿袭),因为提取和其他过程被忽略了。一个典型的用例可能是组织中的某个人每周大约两次花几分钟搜索特定的管道或模型。
我们看到的最常见的血统用例是:
在这些时候,血统就变得非常有用。基本上,当公司开始不仅维护其数据仓库或数据湖中的内容,而且实际构建和现代化数据生态系统时,血统就变得非常有用。
这是否意味着在这种情况下必须有血统?绝对不是。但如果你想更快更聪明地行动,那么答案绝对是肯定的。
因此,这很大程度上取决于组织当前正在做什么。我并不是想在这里表现得自信,而是明智而诚实地询问您是否真的需要数据沿袭。您可能希望从以下问题开始:
然后你向宇宙发声并决定:购买还是建造。这里有很多需要考虑的地方。我的看法如下:
最终,我个人认为,数据沿袭作为独立的可视化效果并不有效。我们使用数据沿袭的案例是帮助排除损坏的管道或模型错误,因为当组织拥有包含数百条管道和数千张表的活动仓库时,不可能跟踪一切是否按预期运行。当我们谈论数据质量时,那些是 SQL 规则和已经预料到和已知的东西,但管道和模型是另一回事。它很大程度上与数据平台的连接性、兼容性和有效性有关。将数据管道/模型错误检测与数据沿袭配对是我们看到用户响应和价值的领域。此外,它还帮助我们的客户节省资金,因为它还与成本洞察有关。
仅凭血统并不能解决问题;它会产生新问题。没有人理解解决方案是如何使用的,因为仅凭血统并不能产生作用。相反,结合异常检测和管道错误检测,它有助于更快地解决问题。
虽然数据沿袭本身可能只是另一个闪亮的工具,但当与全面的监控机制以及组织和数据团队建立强大而可靠的数据平台的承诺相结合时,它的真正价值就会显现出来。