码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • [数据管理] 数据治理/大数据平台-开源软件与框架篇


    目录

    • 1 序:数据治理体系
    • 2 最新一代数据治理开源软件
      • 2.0 一站式数据开发集成平台
        • DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019
      • 2.1 元数据
        • Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021 【推荐】
        • Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019
        • Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018
        • Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015
        • Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014
        • Dataedo [闭源]
        • ERD Online [闭源]
      • 2.2 数据集成
        • Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017 【推荐】
        • Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013
        • ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018
        • DataX : 5.2k fork / 14.8k star
        • 其他成熟度低的产品
      • 2.3 数据开发
        • Apache Flink 【推荐】
        • Apache Spark 【推荐】
      • 2.4 数据质量
      • 2.5 数据标准
      • 2.6 数据模型 /数据建模
      • 2.7 数据资产
      • 2.8 数据服务
      • 2.9 数据分析与可视化
        • Superset 【推荐】
        • Grafana
        • Metabase
        • DataEase
        • ECharts
      • 2.10 调度系统 & 工作流系统
        • Apache Dolphi Scheduler 【推荐】
        • XXL-JOB 【推荐】
    • X 参考文献

    数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。

    回到顶部(Back to Top)

    1 序:数据治理体系

    企业数据治理体系包括元数据管理、主数据管理、数据资产管理、数据质量管理、数据安全及数据标准等内容。

    回到顶部(Back to Top)

    2 最新一代数据治理开源软件

    2.0 一站式数据开发集成平台

    DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019

    • DataSphere Studio
    • https://github.com/WeBankFinTech/DataSphereStudio
      DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。
      基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。
    • 主要编程语言:Java / Scala

    • 社区活跃情况

    2.1 元数据

    Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021 【推荐】

    • Open Metadata | 元数据管理
    • https://open-metadata.org/
    • https://github.com/open-metadata/OpenMetadata
      Open-Metadata 是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。

    • 主要编程语言 : TypeScript / Java / Python

    • 社区活跃情况

    Commits

    Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019

    • Amundsen | 数据发现、元数据引擎
    • https://www.amundsen.io/
    • https://www.amundsen.io/amundsen/
    • https://github.com/amundsen-io/amundsen
    • 主要编程语言: Python / TypeScript

    • 社区活跃情况

    Commits

    Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018

    • Marquez
    • https://marquezproject.ai/
    • https://github.com/MarquezProject/marquez
      Marquez 是一款WeWork发布并开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。

    • 主要编程语言:Java / TypeScript

    • 社区活跃度

    Commits

    Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015

    • Data Hub |

    DataHub 是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。
    目的就是为了解决多种多样数据生态系统的元数据管理问题
    它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

    • https://datahubproject.io/
    • https://github.com/datahub-project/datahub
    • 主要编程语言:Java / Python / TypeScript

    • 社区活跃情况:

    Commits

    Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014

    • Apache Atlas | 元数据、数据血缘

    Apache Atlas是Apache Hadoop的数据和元数据治理的框架,是Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,2015年5月5日进入Apache孵化,2017年6月21日成为Apache顶级项目。
    是为解决Hadoop生态系统的元数据治理问题而产生的开源项目。它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心登能力。

    • https://atlas.apache.org/#/
    • https://github.com/apache/atlas.git | https://github.com/apache/atlas
    • 主要编程语言 : Java / JavaScript

    • 社区活跃度

    Commits

    Dataedo [闭源]

    • Dataedo | 数据字典、元数据管理

    Dataedo是一个开源的数据字典和元数据管理工具。它可以帮助用户创建和维护数据字典,并对数据进行元数据建模和文档化。

    • https://dataedo.com/
    • https://github.com/Dataedo

    ERD Online [闭源]

    • ERD Online

    ERD(Entity-Relationship Diagram) Online 是全球第一个开源、免费在线数据建模、元数据管理平台(口号)。提供简单易用的元数据设计、关系图设计、SQL查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。

    • https://www.erdonline.com/
    • https://www.erdonline.com/ERD Online白皮书.html

    2.2 数据集成

    Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017 【推荐】

    • Sea Tunnel
    • https://seatunnel.apache.org/
    • https://github.com/apache/seatunnel

    • 主要编程语言:Java

    • 社区活跃情况

    Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013

    • Kettle (全名 : Pentaho Data Integration - Kettle)
    • https://github.com/pentaho/pentaho-kettle
    • https://www.hitachivantara.com/en-us/products/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html
      厂商 : Hitachi Vantara
    • 主要编程语言:Java

    • 社区活跃情况

    ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018

    • ChunJun(纯均)
    • https://dtstack.github.io/chunjun/
    • https://github.com/DTStack/chunjun
    • https://www.dtstack.com/resources?src=dsyzh
      ChunJun 是易用、稳定、高效的批流一体的数据集成框架。
      该项目最早启动的初衷是为【袋鼠云】的核心业务一站式大数据基础软件 - 数栈 ,打造一款具有 “袋鼠特色 “的核心计算引擎,承载实时平台、离线平台、数据资产平台等多个应用的底层数据同步及计算任务。
      ChunJun 基于 Flink 并采用插件式架构,将源数据库抽象成 Reader 插件,将目的数据库抽象成 Writer 插件。

    • 核心特点
    • 基于 json、sql 构建任务
    • 支持多种异构数据源之间数据传输
    • 支持断点续传、增量同步
    • 支持任务脏数据存储管理
    • 支持 Schema 同步
    • 支持 RDBS 数据源实时采集

    • 主要编程语言:Java

    • 社区活跃情况

    DataX : 5.2k fork / 14.8k star

    • DataX => DataWorks (商业版)
    • https://github.com/alibaba/DataX
      DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
    • 主要编程语言:Java(97.6%)、Python (2.3%)

    其他成熟度低的产品

    • Cannal : 7.5 fork / 27.4k star | Since : Sep 21, 2014
    • https://github.com/alibaba/canal
      阿里巴巴 MySQL binlog 增量订阅&消费组件
    • 主要编程语言:Java

    • 社区活跃情况

    2.3 数据开发

    Apache Flink 【推荐】

    • Apache Flink
    • https://flink.apache.org/
    • https://github.com/apache/flink
    • https://github.com/ververica/flink-cdc-connectors
    • https://ververica.github.io/flink-cdc-connectors/

    Apache Spark 【推荐】

    • Apache Spark
    • https://spark.apache.org/
    • https://github.com/apache/spark

    2.4 数据质量

    2.5 数据标准

    2.6 数据模型 /数据建模

    2.7 数据资产

    2.8 数据服务

    2.9 数据分析与可视化

    Superset 【推荐】

    • Superset | 开源BI

    由Airbnb贡献的轻量级BI产品;
    数据源方面,Superset支持CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch等27种数据源,并深度支持Druid。

    • https://superset.apache.org/
    • https://github.com/apache/superset

    Grafana

    • Grafana

    Grafana 主要用于对接时序数据库,分析展示监控数据。
    目前支持的数据源包括 InfluxDB、Elasticsearch、Graphite、Prometheus 等,同时也支持 MySQL、MSSQL、PG 等关系数据库。

    Metabase

    • Metabase

    数据源方面,Metabase 支持 Redshift、Druid、Google BigQuery、MongoDB、MySQL、PG 等 15 种数据源。

    DataEase

    • DataEase |

    理念:人人可用的开源数据可视化分析工具。

    • https://github.com/dataease/dataease
    • https://dataease.io/

    ECharts

    • ECharts | 基于 JavaScript 的开源可视化图表库
    • https://echarts.apache.org/zh/index.html
    • https://echartsjs.com/

    2.10 调度系统 & 工作流系统

    Apache Dolphi Scheduler 【推荐】

    • Apache Dolphi Scheduler

    一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面

    • https://dolphinscheduler.apache.org/zh-cn
    • https://github.com/apache/dolphinscheduler

    XXL-JOB 【推荐】

    • XXL-Job
    • https://www.xuxueli.com/xxl-job/
    • https://github.com/xuxueli
    • https://gitee.com/xuxueli0323/xxl-job
    回到顶部(Back to Top)

    X 参考文献

    • 数据治理操作指南 - Weixin/BAT大数据架构
    • 【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台 - Weixin/大数据流动
    • 有哪些开源的BI工具? - Zhihu/Terry陈
    • 开源免费的数据质量管理工具 Data Quality - Zhihu 【TODO】
    • 数据字典管理系统-后台管理界面-UI设计 - 站酷
  • 相关阅读:
    Spring Cloud Gateway微服务网关快速入门
    【前端基础小案例】HTML+CSS打造精美选项卡菜单效果
    MySQL 主从读写分离入门——基本原理以及ProxySQL的简单使用
    详解 Apache Hudi Schema Evolution(模式演进)
    探索低代码技术
    二十六、Eclipse 查找
    产品评论观点提取Baseline-2021 CCF BDCI 数据挖掘 top3方案分享 数据+代码
    FITC标记的脱氧胆酸修饰右旋糖酐纳米粒子,FITC-Dex-DCA-FI/FA NPs
    Java类初始化、实例化流程你真的清楚吗
    AI语音系统电销机器人系统搭建|AI智能|电话机器人源码|《各版本机器人部署》
  • 原文地址:https://www.cnblogs.com/johnnyzen/p/18029696/data-governance-tools
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号