雷顿学院大数据（一期课程） - 码农知识堂

雷顿学院大数据（一期课程）

雷顿学院大数据课程大纲（第一期）

学时：75 课时

适用对象：雷顿学院招收大数据班全体学员

一、课程的性质与目标

互联网企业作为大数据的发源地，一直都是大数据应用与技术快速发展的行业。作为大数据从业者，进入互联网企业工作，一直都是学习大数据与成就自己的最佳选择。目前互联网作为国内最热门的 IT 前沿阵地，逐渐成为热门转型与从业方向。本课程系统地介绍了互联网大数据发展历史及最新进展，从而完整地还原了互联网大数据的业务场景与开发技术。针对重点内容进行深入讲解，让学员掌握目前互联网大数据最常使用的研发与分析技能。

二、课程的主要内容

第一章 Hadoop生态体系(6课时)

1.1 大数据行业发展与技术应用

1.2 Hadoop起源

1.3 Hadoop生态体系简介（HDFS MapReduce Hive等）

1.4 Hadoop 3.0新特性

1.5 Hadoop 2.X 安装的三种模式（集群，伪分布式，Local）

1.6 Hadoop配置文件解析

第二章大数据文件系统HDFS（5课时）

2.1 HDFS设计与基本概念

2.2 HDFS的体系结构

2.3 HDFS存储原理

2.4 HDFS数据读写过程

2.5 HDFS命令操作

第三章 MapReduce原理及实战（5课时）

3.1 MapReduce工作流程

3.2 WordCount案例实战

3.3 MapReduce作业运行机制

3.4 MapReduce Shuffle过程

3.5 MapReduce作业调优

第四章 HIVE数据仓库技术（12课时）

4.1 Hive系统概述

4.2 Hive安装配置

4.3 Hive与传统数据库的对比

4.4 Hive数据类型

4.5 Hive表类型与操作

4.6 Hive存储格式与压缩

4.7 Hive 查询

4.8 Hive常用函数

4.9 用户定义函数

4.10 Hive数据倾斜问题

4.11 Hive性能优化

第五章分布式数据库Hbase（5课时）

5.1 Hbase概念和数据模型

5.2 Hbase的系统架构

5.3 Hbase集群搭建

5.4 Hbase Shell操作命令

5.5 Hbase性能调优

第六章 Spark原理与算子操作（7课时）

6.1 Spark运行机制和安装

6.2 Spark运行和作业提交

6.3 Rdd编程课时一

6.4 Rdd编程课时二

6.5 Spark DataFrame和DataSet

第七章 Spark SQL编程（7课时）

7.1 Spark Session介绍

7.2 Rdd与DataFrame转化

7.3 加载数据与保存数据

7.4 jdbc链接数据库

7.5 Spark hive操作表和SparkAPi

7.6 Spark配置和调优

第八章 Spark 实时计算（12课时）

8.1 Spark Streaming大数据实时计算介绍

8.2 Dstream工作原理

8.3 Input Streams 和 Receivers原理讲解

8.4 Dstream上的转换

8.5 Dstream上的输出

8.6 Spark Streaming updateStateByKey实时wordcount程序

8.7 Spark Streaming 转换成DataFrame

8.8 Spark Streaming缓存与持久化

8.9 Spark Streaming部署和监控

8.10 Spark Streaming性能调优

第九章 Kafka核心技术（9课时）

9.1 Kafka概念与功能

9.2 Kafka架构图与工作流

9.3 Kafka集群搭建

9.4 Kafka特性详解

9.5 提交与偏移量

9.6 消息发布与订阅

第十章 ElasticSearch核心技术（9课时）

10.1 ElasticSearch介绍

10.2 ElasticSearch安装部署

10.3 ES存储原理

10.4 数据输入和输出

10.5 ES数据查询

10.6 分布式检索原理

10.7 组合过滤

10.8 数据聚合

10.9 ES优化技巧

三、学时分配

章节

课时

第一章 Hadoop生态体系

6

第二章大数据文件系统HDFS

5

第三章 MapReduce实战及原理

4

第四章 HIVE数据仓库技术

11

第五章分布式数据库Hbase

5

第六章 Spark原理与算子操作

5

第七章 Spark SQL编程

7

第八章 Spark 实时计算

12

第九章 Kafka核心技术

9

第十章 ElasticSearch核心技术

9

合计

73

课程链接

https://ke.qq.com/course/343598
相关阅读:
全新防关联技术出炉：亚马逊测评环境优化，下单成功率大提升
 c++中一种数据封装的技巧
 用爬虫保存文章到TXT文件丨Python爬虫实战系列(7)
Java基础单元测试
 TOREX | 单功能充电IC的外置电流通路电路
 数据密集型应用存储与检索设计
 C和指针第13章高级指针话题 13.5 字符串常量
 C#解析Markdown文档，实现替换图片链接操作
 服务治理-Eureka
杰夫 · 迪恩：《深度学习的黄金十年：计算系统与应用》
原文地址：https://blog.csdn.net/web18224617243/article/details/126619901