• Apache Hadoop(一)


    • 概述

    Apache Hadoop是一套用于在由通用硬件构建的大型集群上运行应用程序的框架,狭义上是Hadoop指的是Apache软件基金会的一款开源软件(用java语言实现),允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
    Hadoop核心组件,Hadoop广义上指生态圈。
    Hadoop HDFS(分布式文件存储系统):解决海量数据存储;
    Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度,是Hadoop的资源管理器;
    Hadoop MapReduce(分布式计算框架):解决海量数据计算。(读取慢有弊端,导致企业一线不再直接使用MapReduce进行编程处理)。

    MapReduce将计算过程分为两个阶段:Map和Reduce

    1. Map阶段并行处理输入数据
    2. Reduce阶段对Map结果进行汇总

    • 优点:

    高可靠性:底层维护多个数据副本,所以即使Hadoop某个计算元素或储存出现故障,也不会导致数据丢失;

    效率高:并行工作,以加快任务处理速度;

    高扩展性:在集群将分配任务数据,可方便的扩展以千计节点;

    高容错性:能够自动将失败的任务重新分配。

    • 发行版本:

    开源社区版:官网https://hadoop.apache.org/  (本专栏后续主要使用)

     

    商业发行版:Cloudera、Hortonworks

    • Hadoop集群整体概述

    Hadoop集群包括两个集群:HDFS集群、YARN集群,两个集群逻辑上分离(两个集群互相没有依赖互不影响)、通常物理上在一起(某些角色进程往往部署在同一台物理服务器上),这两个都是标准的主从架构集群。

     

    1. HDFS架构
    2. 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等;
    3. 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和;3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

    YARN架构

    1)ResourceManager(RM):管理整个集群资源(内存CPU等);
    2)NodeManager(NM):管理单个节点服务器资源;
    3)ApplicationMaster(AM):管理单个任务运行,任务在container里面运营,允许多任务运行;
    4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等,每个NodeManager上可以有多个Container。

    没有MapReduce集群这个说法嘛?

    因为MapReduce是计算框架、代码层面的组件,没有集群一说。

  • 相关阅读:
    C# 委托详解
    【Swift 60秒】42 - Default parameters
    06 flink 的各个角色的交互
    【Unity】Unity 几何知识、弧度、三角函数、向量运算、点乘、叉乘
    对1月份进行技术性复盘
    Git报错:git@github.com: Permission denied (publickey)
    2023 极术通讯-安谋科技发布“山海”S20F安全解决方案,持续加码智能汽车“芯”赛道
    五、Spring Boot 整合持久层技术(5)
    模拟器安装magisk
    app发布动态解决图片适配问题(等比展示)
  • 原文地址:https://blog.csdn.net/m0_62064241/article/details/126076397