• Hadoop学习总结(搭建Hadoop集群(伪分布式模式))


          如果前面有搭建过Hadoop集群完全分布式模式,现在搭建Hadoop伪分布式模式可以选择直接克隆完全分布式模式中的主节点(hadoop001)。以下是在搭建过完全分布式模式下的Hadoop集群的情况进行

          伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。

    一、克隆主节点为hadoop0

          对完全分布式模式下的Hadoop集群主节点(hadoop001)进行克隆

    点击完成后等待克隆

           克隆完毕

    二、修改主机名和hosts、宿主电脑的hosts

          IP不用修改,还是使用hadoop001的IP,所以可以使用远程连接工具(Xshell或者SecurityCRT)进行修改

    1、修改主机名为hadoop0

    vi /etc/hostname

    2、修改主机hosts

    vi /etc/hosts

          修改完成后进行重启,可以看到主机名为hadoop0

    3、修改宿主机的hosts

    通过win+R进入命令提示符页面,然后ping通虚拟机

    三、重做免密登录

          使用远程连接工具(Xshell或者SecurityCRT)

          因为是通过对完全分布式模式下的Hadoop集群主节点(hadoop001)克隆的hadoop0,原来已经进行过免密登录了,可以删除原来生成的密钥重新生成新密钥再进行发密钥

    以下删除原来生成的密钥重新生成新密钥再进行发密钥

    删除原来的密钥

    rm -rf .ssh

    重新生成密钥

    ssh-keygen -t rsa

    一直回车

    查看

    进入 .ssh

    cd .ssh

    发密钥:ssh-copy-id hadoop0

    ssh-copy-id hadoop0

    进行查看是否生成

    cat authorized_keys

    四、修改Hadoop集群节点

    进入Hadoop里

    cd $HADOOP_HOME/etc/hadoop

    1、修改 core-site.xml 文件

     vi core-site.xml

          该文件是Hadoop的核心配置文件,其目的是配置 HDFS 地址、端口号,以及临时文件目录。配置文件中配置了 HDFS 的主进程NameNode运行主机(也就是此次Hadoop集群的主节点位置)同时配置了Hadoop运行时生成数据的临时文件。

    1. 添加以下内容
    2. <property>
    3. <!--用于设置Hadoop的文件系统,由URL指定-->
    4. <name>fs.defaultFS</name>
    5. <!--用于指定namenode地址在hadoop0机器上-->
    6. <value>hdfs://hadoop0:9000</value>
    7. </property>
    8. <!--配置Hadoop的临时目录,默认/tmp/hadoop-${user.name}-->
    9. <property>
    10. <name>hadoop.tmp.dir</name>
    11. <!--Hadoop安装路径-->
    12. <value>/opt/module/hadoop-2.7.4/data</value>
    13. </property>

    2、修改 hdfs-site.xml 文件

    vi hdfs-site.xml 

              该文件作用于设置 HDFS 的NameNode 和 DataNode 两大进程。

    1. 添加以下内容
    2. <property>
    3. <!--指定 HDFS 副本的数量-->
    4. <name>dfs.replication</name>
    5. <value>3</value>
    6. </property>
    7. <!--secondary namenode 所在主机的IP和端口-->
    8. <property>
    9. <name>dfs.namenode.secondary.http-address</name>
    10. <value>hadoop0:50090</value>
    11. </property>

    3、修改 yarn-site.xml 文件

    vi yarn-site.xml

          本文件是 YARN 框架的核心配置文件,需要指定 YARN 集群的管理者。 在配置文件中配置 YARN 的主进程 ResourceManager 运行主机为hadoop0,同时配置了 NodeManager 运行时的附属服务,需要配置为 mapreduce_shuffle 才能正常运行 MapReduce 默认程序。

    1. 添加以下内容
    2. <property>
    3. <!--指定 YARN集群的管理者(ResourceManager)的地址-->
    4. <name>yarn.resourcemanager.hostname</name>
    5. <!-- 主机名-->
    6. <value>hadoop0</value>
    7. </property>
    8. <property>
    9. <name>yarn.nodemanager.aux-services</name>
    10. <value>mapreduce_shuffle</value>
    11. </property>

    4、修改 slaves 文件

    vi slaves

          该文件用于记录 Hadoop 集群所有从节点(HDFS 的 DataNode 和 YARN 的 NodeManager 所在主机)的主机名,用来配合一键启动集群从节点(并且还需要验证关联节点配置了 SSH 免密登录)。打开该配置,先文件删除里面的内容,然后修改为 hadoop0

    5、 mapred-site.xml 文件

          该文件不需要修改,因为是通过对完全分布式模式下的Hadoop集群主节点(hadoop001)克隆的hadoop0,在搭建hadoop001集群配置文件已经修改过了

    五、格式化文件系统

          通过 Hadoop 集群的安装和配置。此时还不能直接启动集群,因为在初次启动 HDFS 集群时,必须对主节点进行格式化处理

    hdfs namenode -format

    或者

    hadoop namenode -format

           执行上述任意一条都可以对 Hadoop 集群进行格式化。执行命令后,必须出现有 successfully formatted 信息才表示格式化成功

      如果没有出现请检查一下Hadoop 安装和配置文件是否正确 ,如果都正确,则需要删除所有主机的 /hadoop-2.7.4 目录下的 tmp文件夹,重新执行格式化命令,对 Hadoop 集群进行格式化。

    注意:格式化只能进行一次,如果多此进行可能会导致服务器运行的java进程不完全


    六、启动集群服务

    start-all.sh

    jps 进行查看

    访问HDFS集群状态 http://hadoop0:50070/(集群服务IP + 端口号) 

    访问YARN集群状态 http://hadoop0:8088/(集群服务IP + 端口号) 

          如果集群启动不成功可以去看完全分布式模式的搭建文章,里面有解决办法

  • 相关阅读:
    前端面试题:
    提升Java性能的优化细节
    MyLife - Docker安装Redis
    自动化测试真的有被需要吗?
    分库分表之ShardingSphere
    Spring之IoC
    SpringBoot开发之Spring基础
    大数据随记 —— Spark Core 与 RDD 简介
    从一个demo说elf文件
    百度智能云发布国内首个AI原生应用商店,构建全链路大模型生态体系
  • 原文地址:https://blog.csdn.net/2202_75688394/article/details/133945865