地址:Azure Purview - Unified Data Governance Solution | Microsoft Azure
特点:
1、创建跨整个数据资产的统一数据地图,为有效的数据治理和使用奠定基础
1.1、自动化和管理混合源的元数据;
1.2、使用内置和自定义分类器以及 Microsoft 信息保护敏感度标签对数据进行分类;
1.3、在 SQL Server、Azure、Microsoft 365 和 Power BI 中一致地标记敏感数据;
1.4、使用 Apache Atlas API 轻松集成所有数据系统
2、更加容易定位数据
2.1、使用熟悉的业务和技术搜索术语,更加快速A容易找到想要的数据;
2.2、使用企业级业务词汇表消除对 Excel 数据字典的需求;
2.3、通过交互式数据血缘可视化了解数据的来源为数据科学家、工程师和分析师提供 BI、分析、人工智能和机器学习所需的数据
3、通过预览版全面了解数据管理活动
3.1、按资源类型、分类和文件大小等资产维度查看整个数据资产及其分布
3.2、获取有关扫描成功、失败或取消的状态更新
3.3、添加重要观点或重新分发词汇表术语以获得更好的搜索结果
地址:Enterprise Data Catalog & Data Governance | Alation
特点:
1、发现管理数据:Alation通过清点、分类和整理数据, 提供了对企业数据资产的可见性。与耗时的自上而下、孤立的方法相比,Alation 使企业能够将治理工作集中在最关键的数据资产上,以便对业务产生最大的影响。
2、推动实施、工作流程和管理:Alation 实现了治理策略、工作流和文档的敏捷批准和交流。通过提供分析和仪表板来监控和跟踪策展进度
3、积极吸引业务线用户:Alation 没有限制业务线用户使用数据,而是将治理、协作和通信功能直接放入他们的日常工作流程中,以鼓励准确、合规的数据驱动决策。
4、自动化数据治理流程:Alation 平台结合了机器学习和众包,以自动化和加速数据管理、数据分类、业务术语表和数据质量文档。
5、建立对数据的信任:Alation 对数据质量指标、描述和看板进行编目,并在消费和分析点实时向用户展示数据质量信息。通过触手可及的数据分析信息,数据使用者可以查看有关数据的重要特征、统计数据和数字图表,从而使他们能够自信地快速采取行动
6、主动降低风险:数据血缘可帮助用户了解数据的来源、谁使用它以及如何使用它。而且,通过影响分析报告,用户可以全面了解变更的下游影响,有助于主动降低风险
地址:https://data.world
特点:
1、数据发现:在整个数据生态系统进行统一搜索和发现
2、治理和访问:获得敏捷的环境治理,以便可以扩展自助分析。同时为每个人提供个性化的发现,使数据工作合规。
3、协作沟通:让不同的团队可以轻松地在数据项目上协同工作。让每个人都使用他们熟悉和喜爱的工具,以便他们可以充分贡献,这样可以在上下文中共享结果,并捕获跨工具、团队和数据源的血缘
4、复用:创建可重用、可扩展的数据和分析
地址:https://blog.twitter.com/engineering/en_us/topics/insights/2016/discovery-and-consumption-of-analytics-data-at-twitter.html
致力目标:
1、数据发现:我们如何找到最重要的数据集,谁拥有这些数据集,它们的语义和其他相关元数据是什么?
2、数据审计:谁创建或使用这些数据集,它们是如何创建的,它们的依赖关系和服务级别协议 (SLA) 是什么,它们的警报规则是什么以及它们与它们的依赖关系是否一致,以及数据集的生命周期如何管理?
3、数据抽象:数据在逻辑上代表什么,它的物理表示是什么,它位于哪里,复制到哪里,格式是什么?
Artifact 是一种建立在数据模型之上的搜索和浏览工具,该模型将元数据集中在各种数据过程中。 Artifact 允许所有团队发现数据资产、他们的文档、血缘、使用、权限和其他有助于用户构建必要数据上下文的元数据。此工具可帮助团队在其角色中更有效地利用数据
地址:How We’re Solving Data Discovery Challenges at Shopify — Data Science & Engineering
架构如下:
从一个通用数据模型和一个简单的元数据摄取管道开始,该管道从 Shopify 的各种数据存储和流程中提取信息。元数据提取器还会基于特征构建依赖图。处理后,信息存储在 Elasticsearch 索引中,GraphQL API 通过 Apollo 客户端将数据公开给 Artifact UI。