• hadoop四种集群模式


    1Single Node Cluster

    伪分布式模式(单机模式)。将hadoop安装在一台机器上,通过进程来模拟各主机节点的协作和运行,其可靠性、稳定性都是非常差的,并且具备糟糕的性能效率,一般只是用来开发调试。

    2Full Distributed Cluster

    完全分布式集群模式。将hadoop部署在至少两台机子上,数据块副本的数量通常也设置为2以上。

    2.1 特点

    • 该模式的集群,无论规模多大,只拥有1台Namenode节点,且也是唯一Active的工作节点。Namenode(简称NN)相当于hadoop文件系统的管家,对集群的所有文件访问和操作都经由NN统一协调管理。
    • 通常ResourceManager(RM)也仅部署1台,ResourceManager是yarn的管家,主要管理任务的执行,例如MapReduce任务。

    2.2 缺点

    • 当集群规模越来越庞大时,仅有一台NN,必定是不堪重负,那么它很容易就会挂掉,一旦挂掉,不仅集群立即瘫痪,还很容易造成数据丢失。
    • 与NN类似,当集群提交的作业过于繁重时,其同样面临超负载的问题。

    3HA Cluster

    高可用集群模式。一般来说,分为NN的高可用和RM的高可用。在完全分布式的基础上,增加备用NN和RM节点。

    3.1特点

    • NN高可用,也就是集群里面会部署两台NN(最多也只能两台),以形成主备NN节点,达到高可用的目的。
    • RM高可用与NN高可用类似,也是在集群里部署备用RM节点。
    • 依然只有一台NN/RM处于Active工作状态,另一台则处于Standby的等待状态。当Active的NN/RM出现问题无法工作时,Standby的那台则立即无缝切入,继续保障集群正常运转,解决了高可用问题。

    3.2 缺点

    • 虽然解决了高可用问题,但没有解决横向扩展问题,仅有一台Active的NN/RM,无法横向扩展,其很可能会超负载运行。

    4HA + Federation Cluster

    高可用联邦集群模式。高可用联邦模式将整个HA集群再划分为两个以上的集群,不同的集群之间通过Federation进行连接,不同集群间可以共享数据节点,也可以不共享,可以互相访问和操作数据,也可以不。Federation模式,相当于在多个集群之上又构建了一个集群层次,从数据访问的角度看,也可以简单的将其理解为一台路由器,而每一个HA集群则是单独的网络,不同网络间通过Federation路由器进行沟通。

    4.1 特点

    • 既支持了HA模式的高可用
    • 又解决了HA模式的横向扩展

    4.2 优点

    • HDFS集群高扩展性。每个NameNode分管一部分namespace,相当于namenode是一个分布式的。
    • 性能更高效。多个NameNode同时对外提供服务,提供更高的读写吞吐率。
    • 良好的隔离性。用户可根据需要将不同业务数据交由不同NameNode管理,这样不同业务之间影响很小。
    • 良好的兼容性。Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。

    参考

    hadoop 生态圈介绍 - 简书

  • 相关阅读:
    微信小程序之自定义导航toolbar添加home键
    如何优化Flask-Report报表的性能和加载速度
    springboot毕设项目成都市景区管理系统f1hy6(java+VUE+Mybatis+Maven+Mysql)
    力扣labuladong——一刷day41
    springBoot:redis使用
    Pytorch 从零实现 Transformer
    qtcreator-ros 安装记录
    IPV6 ND协议--源码解析【根源分析】
    字字珠玑!GitHub爆赞的网络协议手册,被华为大佬指定内部必学?
    ElasticSearch快速入门
  • 原文地址:https://blog.csdn.net/m0_67402588/article/details/126368402