Apache Hadoop（一）

概述

Apache Hadoop是一套用于在由通用硬件构建的大型集群上运行应用程序的框架，狭义上是Hadoop指的是Apache软件基金会的一款开源软件（用java语言实现），允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
Hadoop核心组件，Hadoop广义上指生态圈。
Hadoop HDFS(分布式文件存储系统):解决海量数据存储；
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度，是Hadoop的资源管理器；
Hadoop MapReduce(分布式计算框架):解决海量数据计算。（读取慢有弊端，导致企业一线不再直接使用MapReduce进行编程处理）。

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

优点：

高可靠性：底层维护多个数据副本，所以即使Hadoop某个计算元素或储存出现故障，也不会导致数据丢失；

效率高：并行工作，以加快任务处理速度；

高扩展性：在集群将分配任务数据，可方便的扩展以千计节点；

高容错性：能够自动将失败的任务重新分配。

发行版本：

开源社区版:官网https://hadoop.apache.org/ (本专栏后续主要使用)

商业发行版：Cloudera、Hortonworks

Hadoop集群整体概述

Hadoop集群包括两个集群：HDFS集群、YARN集群，两个集群逻辑上分离（两个集群互相没有依赖互不影响）、通常物理上在一起（某些角色进程往往部署在同一台物理服务器上），这两个都是标准的主从架构集群。

HDFS架构
1)NameNode(nn):存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等;
2)DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验和；3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构

1)ResourceManager(RM):管理整个集群资源(内存CPU等)；
2)NodeManager(NM):管理单个节点服务器资源；
3)ApplicationMaster(AM):管理单个任务运行，任务在container里面运营，允许多任务运行；
4)Container:容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等，每个NodeManager上可以有多个Container。

没有MapReduce集群这个说法嘛？

因为MapReduce是计算框架、代码层面的组件，没有集群一说。

相关阅读:
阿里架构师：让Spring不再复杂
聊聊分布式架构08——SpringBoot开启微服务时代
【788. 旋转数字】
Yew应用中如何获取＜textarea/＞的值？
Leetcode—189.轮转数组【中等】
STM32 Debug查看const变量在flash中存储地址
Debian12配置NTP时间同步
浙江某华智能停车综合管理系统未授权访问漏洞复现 CNVD-C-2023-517991
Java版企业电子招标采购系统源码—企业战略布局下的采购寻源
拥抱开源更省钱「GitHub 热点速览」

原文地址：https://blog.csdn.net/m0_62064241/article/details/126076397