数据工程是设计和构建用于大规模收集、存储和分析数据的系统的实践。组织可以收集大量数据,但为了确保数据在到达数据科学家和分析师时处于高度可用的状态,他们需要合适的人员和合适的技术,数据工程师在这里采取行动。这些是您在处理数据时可能执行的一些常见任务
必须学习的大量工具和主题不应让初学者感到负担过重。有各种学习阶段,因此作为新手,您应该只专注于掌握要领。随着时间和经验的积累,您会感到轻松自在,并准备好进入高级主题。
关系数据库、约束、键、触发器、规范化
课程推荐:关系数据库设计
基本语法、处理文件、连接到数据库、构建基本 API、处理结构化(数据库和表)和非结构化(XML、JSON 等)数据。
Basic 数据抽取、连接表、键、约束、窗口函数、聚合函数等。
基本数据仓库概念、数据仓库数据建模、星雪花模式、事实和维度表等。
弹性、可扩展性、云中的存储和计算、云中的数据堆栈。
Hadoop、MapReduce、为什么引入 spark、Spark 基础知识。
这是现代数据堆栈中一个非常重要的组件。在 AirFlow(最受欢迎和市场领导者)或其他任何东西(Luigi,Prefect)之间进行选择
数据流是由数千个数据源以近乎实时的方式将数据连续发送到目的地
课程推荐
Redshift、Snowflake、BigQuery
Power BI、Tableau 或 Looker
Docker 有助于避免与基础设施相关的复杂性。这有助于独立且轻松地设置数据环境。
对于我们作为数据工程师的日常工作来说,这些能力中的每一个可能都不是必需的。然而,根据功能,您可能经常需要其中的一项或多项。
掌握其中的大部分内容需要一些时间。每天都在学习新事物。复合学习将保证您随着时间的推移而提高。没有捷径可走,因此不要相信那些说您可以在几周或几个月内成为数据工程师的人。