• 大数据技术之Hadoop:Yarn集群部署(七)


    目录

    一、部署说明

    二、集群规划

    三、开始配置

    3.1 MapReduce配置文件

    3.2 YARN配置文件

    3.3 分发配置文件

    四、集群启停

    4.1 命令介绍 

    4.2 演示

    4.3 查看YARN的WEB UI页面


    一、部署说明

    Hadoop HDFS分布式文件系统,我们会启动:

    • NameNode进程作为管理节点
    • DataNode进程作为工作节点
    • SecondaryNamenode作为辅助

    同理,Hadoop YARN分布式资源调度,会启动:

    • ResourceManager进程作为管理节点
    • NodeManager进程作为工作节点
    • ProxyServer、JobHistoryServer这两个辅助节点

    那么,MapReduce呢?

    MapReduce运行在YARN容器内,无需启动独立进程

    所以关于MapReduceYARN的部署,其实就是2件事情:

    关于MapReduce 修改相关配置文件,但是没有进程可以启动

    关于YARN 修改相关配置文件, 启动ResourceManagerNodeManager进程以及辅助进程(代理服务器、历史服务器)

    总结

    组件

    配置文件

    启动进程

    备注

    Hadoop HDFS

    需修改

    需启动

    NameNode 作为主节点
    DataNode 作为从节点
    SecondaryNameNode 主节点辅助

    分布式文件系统

    Hadoop YARN

    需修改

    需启动

    ResourceManager 作为集群资源管理者
    NodeManager 作为单机资源管理者
    ProxyServer 代理服务器提供安全性
    JobHistoryServer 记录历史信息和日志

    分布式资源调度

    Hadoop MapReduce

    需修改

    无需启动任何进程

    MapReduce程序运行在YARN容器内

    分布式数据计算

    二、集群规划

    3台服务器,其中node1配置较高

    集群规划如下:

    主机

    角色

    centos100

    ResourceManager

    NodeManager

    ProxyServer

    JobHistoryServer

    centos101

    NodeManager

    centos102

    NodeManager

    三、开始配置

    3.1 MapReduce配置文件

    $HADOOP_HOME/etc/hadoop 文件夹内,修改:

    mapred-env.sh文件,添加如下环境变量

    1. # 设置JDK路径
    2. export JAVA_HOME=/opt/software/jdk/jdk1.8.0_202
    3. # 设置JobHistoryServer进程内存为1G
    4. export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
    5. # 设置日志级别为INFO
    6. export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

    mapred-site.xml文件,添加如下配置信息 

    1. <configuration>
    2. <property>
    3. <name>mapreduce.framework.namename>
    4. <value>yarnvalue>
    5. <description>MapReduce的运行框架设置为YARNdescription>
    6. property>
    7. <property>
    8. <name>mapreduce.jobhistory.addressname>
    9. <value>centos100:10020value>
    10. <description>历史服务器通讯端口为centos100:10020description>
    11. property>
    12. <property>
    13. <name>mapreduce.jobhistory.webapp.addressname>
    14. <value>centos100:19888value>
    15. <description>历史服务器web端口为centos100的19888description>
    16. property>
    17. <property>
    18. <name>mapreduce.jobhistory.intermediate-done-dirname>
    19. <value>/data/mr-history/tmpvalue>
    20. <description>历史信息在HDFS的记录临时路径description>
    21. property>
    22. <property>
    23. <name>mapreduce.jobhistory.done-dirname>
    24. <value>/data/mr-history/donevalue>
    25. <description>历史信息在HDFS的记录路径description>
    26. property>
    27. <property>
    28. <name>yarn.app.mapreduce.am.envname>
    29. <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    30. <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
    31. property>
    32. <property>
    33. <name>mapreduce.map.envname>
    34. <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    35. <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
    36. property>
    37. <property>
    38. <name>mapreduce.reduce.envname>
    39. <value>HADOOP_MAPRED_HOME=%HADOOP_HOMEvalue>
    40. <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
    41. property>
    42. configuration>

    3.2 YARN配置文件

    $HADOOP_HOME/etc/hadoop 文件夹内,修改:

    yarn-env.sh文件,添加如下4行环境变量内容:

    1. # 设置JDK路径的环境变量
    2. export JAVA_HOME=/opt/software/jdk/jdk1.8.0_202
    3. # 设置HADOOP_HOME的环境变量
    4. export HADOOP_HOME=/opt/software/hadoop/hadoop-3.3.4
    5. # 设置配置文件路径的环境变量
    6. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    7. # 设置日志文件路径的环境变量
    8. export HADOOP_LOG_DIR=$HADOOP_HOME/logs

    yarn-site.xml文件,配置如下

    1. <property>
    2. <name>yarn.resourcemanager.hostnamename>
    3. <value>centos100value>
    4. <description>ResourceMangager设置在centos100节点description>
    5. property>
    6. <property>
    7. <name>yarn.nodemanager.local-dirsname>
    8. <value>/data/nm-localvalue>
    9. <description>NodeManager中间数据本地存储路径description>
    10. property>
    11. <property>
    12. <name>yarn.nodemanager.log-dirsname>
    13. <value>/data/nm-logvalue>
    14. <description>NodeManager数据日志本地存储路径description>
    15. property>
    16. <property>
    17. <name>yarn.nodemanager.aux-servicesname>
    18. <value>mapreduce_shufflevalue>
    19. <description>为MapReduce程序开启Shuffle服务description>
    20. property>
    21. <property>
    22. <name>yarn.log.server.urlname>
    23. <value>http://centos100:19888/jobhistory/logsvalue>
    24. <description>历史服务器URLdescription>
    25. property>
    26. <property>
    27. <name>yarn.web-proxy.addressname>
    28. <value>centos100:8089value>
    29. <description>代理服务器主机和端口description>
    30. property>
    31. <property>
    32. <name>yarn.log-aggregation-enablename>
    33. <value>truevalue>
    34. <description>开启日志聚合description>
    35. property>
    36. <property>
    37. <name>yarn.nodemanager.remote-app-log-dirname>
    38. <value>/tmp/logsvalue>
    39. <description>程序日志HDFS的存储路径description>
    40. property>
    41. <property>
    42. <name>yarn.resoucemanager.scheduler.classname>
    43. <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
    44. <description>选择公平调度器description>
    45. property>

    3.3 分发配置文件

    MapReduceYARN的配置文件修改好后,需要分发到其它的服务器节点中。

    1. scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml centos101:`pwd`/
    2. scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml centos102:`pwd`/

    分发完成配置文件,就可以启动YARN的相关进程啦。

    (ps:分发完成也可以去其他服务器检查一下是否成功!)

    四、集群启停

    4.1 命令介绍

    常用的进程启动命令如下:

    一键启动YARN集群: $HADOOP_HOME/sbin/start-yarn.sh

    • 会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager
    • 会基于workers文件配置的主机启动NodeManager

    一键停止YARN集群: $HADOOP_HOME/sbin/stop-yarn.sh

    在当前机器,单独启动或停止进程

    $HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

    • start和stop决定启动和停止
    • 可控制resourcemanager、nodemanager、proxyserver三种进程

    历史服务器启动和停止

    $HADOOP_HOME/bin/mapred --daemon start|stop historyserver

     

    4.2 演示

    下面开始演示:

    centos100服务器,以hadoop用户执行

    首先执行:$HADOOP_HOME/sbin/start-yarn.sh,一键启动所需的:

    • ResourceManager
    • NodeManager
    • ProxyServer(代理服务器)

    其次执行:$HADOOP_HOME/bin/mapred --daemon start historyserver 启动: 

    HistoryServer(历史服务器)

    4.3 查看YARNWEB UI页面

    打开 http://centos100:8088 即可看到YARN集群的监控页面(ResourceManagerWEB UI

    最后别忘记了给虚拟机打上快照哦!

  • 相关阅读:
    Cesium初学者:如何在本地查看示例、文档
    2020中青杯A题集成电路通道布线数学建模全过程论文及程序
    Java.lang.Character类中isLowerCase()方法具有什么功能呢?
    glb数据介绍
    Spring Cloud OpenFeign - - - > 超时时间配置
    mysql日志管理 、备份与恢复
    双十一蓝牙耳机推荐哪款?发烧友推荐目前最值得入手的蓝牙耳机
    Kafka设计原理
    BUUCTF 刮开有奖 1
    synchronized 关键字和 volatile 关键字有什么区别?
  • 原文地址:https://blog.csdn.net/YuanFudao/article/details/132758449