1Single Node Cluster
伪分布式模式(单机模式)。将hadoop安装在一台机器上,通过进程来模拟各主机节点的协作和运行,其可靠性、稳定性都是非常差的,并且具备糟糕的性能效率,一般只是用来开发调试。
2Full Distributed Cluster
完全分布式集群模式。将hadoop部署在至少两台机子上,数据块副本的数量通常也设置为2以上。
2.1 特点
- 该模式的集群,无论规模多大,只拥有1台Namenode节点,且也是唯一Active的工作节点。Namenode(简称NN)相当于hadoop文件系统的管家,对集群的所有文件访问和操作都经由NN统一协调管理。
- 通常ResourceManager(RM)也仅部署1台,ResourceManager是yarn的管家,主要管理任务的执行,例如MapReduce任务。
2.2 缺点
- 当集群规模越来越庞大时,仅有一台NN,必定是不堪重负,那么它很容易就会挂掉,一旦挂掉,不仅集群立即瘫痪,还很容易造成数据丢失。
- 与NN类似,当集群提交的作业过于繁重时,其同样面临超负载的问题。
3HA Cluster
高可用集群模式。一般来说,分为NN的高可用和RM的高可用。在完全分布式的基础上,增加备用NN和RM节点。
3.1特点
- NN高可用,也就是集群里面会部署两台NN(最多也只能两台),以形成主备NN节点,达到高可用的目的。
- RM高可用与NN高可用类似,也是在集群里部署备用RM节点。
- 依然只有一台NN/RM处于Active工作状态,另一台则处于Standby的等待状态。当Active的NN/RM出现问题无法工作时,Standby的那台则立即无缝切入,继续保障集群正常运转,解决了高可用问题。
3.2 缺点
- 虽然解决了高可用问题,但没有解决横向扩展问题,仅有一台Active的NN/RM,无法横向扩展,其很可能会超负载运行。
4HA + Federation Cluster
高可用联邦集群模式。高可用联邦模式将整个HA集群再划分为两个以上的集群,不同的集群之间通过Federation进行连接,不同集群间可以共享数据节点,也可以不共享,可以互相访问和操作数据,也可以不。Federation模式,相当于在多个集群之上又构建了一个集群层次,从数据访问的角度看,也可以简单的将其理解为一台路由器,而每一个HA集群则是单独的网络,不同网络间通过Federation路由器进行沟通。
4.1 特点
- 既支持了HA模式的高可用
- 又解决了HA模式的横向扩展
4.2 优点
- HDFS集群高扩展性。每个NameNode分管一部分namespace,相当于namenode是一个分布式的。
- 性能更高效。多个NameNode同时对外提供服务,提供更高的读写吞吐率。
- 良好的隔离性。用户可根据需要将不同业务数据交由不同NameNode管理,这样不同业务之间影响很小。
- 良好的兼容性。Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。
参考
hadoop 生态圈介绍 - 简书