• Hadoop3:HDFS、YARN、MapReduce三部分的架构概述及三者间关系(Hadoop入门必须记住的内容)


    一、HDFS架构概述

    Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
    在这里插入图片描述

    1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。理解为集群数据索引
    2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
    3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

    二、YARN架构概述

    Yet Another Resource Negotiator 简称YARN ,另一种资源协调者,是Hadoop的资源管理器
    在这里插入图片描述
    1)ResourceManager(RM):整个集群资源(内存、CPU等)的管理者,负责分配和回收集群资源
    3)ApplicationMaster(AM):单个任务运行的管理者
    2)NodeManager(NM):单个节点服务器资源的管理者
    4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等,可以类比理解成docker容器

    说明
    1:客户端可以有多个
    2:集群上可以运行多个ApplicationMaster
    3:每个NodeManager上可以有多个Container

    三、MapReduce架构概述

    MapReduce将计算过程分为两个阶段:Map 和 Reduce
    1)Map 阶段并行处理数据,分配任务
    2)Reduce 阶段对Map结果进行汇总
    在这里插入图片描述

    四、HDFS、YARN、MapReduce三者关系

    对下图工作过程进行简要说明:
    首先,集群的HDFS存储了海量数据,然后,客户端提交了一个查询任务,任务提交到RMRM找到一台有空闲资源的NM,然后,RM创建ContainerApp Mstr,然后,由App MstrRM申请资源,进入计算任务的Map阶段,接着创建了如图的102和103上的两个ContainerMapTask,最后,进入Reduce阶段,在104上创建Container和ReduceTask,汇总Map阶段的结果,并写入HDFS
    在这里插入图片描述

  • 相关阅读:
    【Java 进阶篇】插上翅膀:JQuery 插件机制详解
    CTFSHOW菜狗杯 web
    微信小程序 checkbox 实现双向绑定以及特殊交互处理
    软考软件设计师-计算机组成与体系结构(上
    当大语言模型遇到AI绘画-google gemma与stable diffusion webui融合方法-矿卡40hx的AI一体机
    广播状态实现注意事项
    Java多线程(5):CAS
    金蝶苍穹开发工程师初级学习第一节
    Android岗位面试精准拿offer,看字节大厂面试流程如何突破?
    1. 获取数据-requests.get()
  • 原文地址:https://blog.csdn.net/Brave_heart4pzj/article/details/138034637