hadoop 4.0 知识整理

hadoop

hadoop 是什么

hadoop是一个分布式系统基础架构，主要解决海量数据存储和计算问题。

hadoop 优势

多副本机制保证系统可靠性，处理节点可以动态添加/删除保证系统的可扩展性，MapReduce并行工作保证系统的高效性，失败任务默认重新分配4次执行保证系统的容错性。

hadoop 组成部分

HDFS存储数据，MapReduce分析计算数据，Yarn根据计算任务分发资源。

HDFS 组成部分

NameNode：管理文件块名称列表和对应文件块所在的DataNode，副本数量，权限信息。
DataNode：文件块数据存储的节点，NameNode上维护的信息是DataNode主动发给NameNode的，默认6个小时和hadoop重启会发送。还会主动发送心跳机制，NameNode默认在10分钟+30秒没有收到心跳则判断该DataNode节点不可用。
SecondaryNameNode：NameNode节点的辅助管理节点，辅助追加日志和元数据的合并。

MapReduce 组成部分

Map阶段：并行处理传入数据
Reduce阶段：并行根据分区拉起Map输出结果进行汇总等处理，输出结果。
Shuffle阶段：Map阶段到Reduce阶段的中间部分，主要设置分区或根据key值进行排序/合并或中间文件压缩传输等操作。

Yarn

相关阅读:
c# class 执行实例化时，执行的步骤
面试问题记录一 --- C++(Qt方向)
C# OpenCvSharp 玉米粒计数
Ceph入门到精通-Macvlan网络模式
使用 TiUP 部署运维 TiDB 线上集群
SpringBoot项目如何实现热启动？
山东大学高频电子线路实验七锁相环调频及解调实验详解
反射(类加载、加载流程、加载的五个阶段、获取类结构信息、反射暴破创建实例、操作属性、操作方法)
C#中通过BeginInvoke()和EndInvoke()来实现异步
怎样建立实战化的安全体系

原文地址：https://blog.csdn.net/fenggfa/article/details/127933499