大数据技术之Hadoop：Yarn集群部署（七）

组件	配置文件	启动进程	备注
Hadoop HDFS	需修改	需启动 NameNode 作为主节点 DataNode 作为从节点 SecondaryNameNode 主节点辅助	分布式文件系统
Hadoop YARN	需修改	需启动 ResourceManager 作为集群资源管理者 NodeManager 作为单机资源管理者 ProxyServer 代理服务器提供安全性 JobHistoryServer 记录历史信息和日志	分布式资源调度
Hadoop MapReduce	需修改	无需启动任何进程 MapReduce程序运行在YARN容器内	分布式数据计算

二、集群规划

有3台服务器，其中node1配置较高

集群规划如下：

主机	角色
centos100	ResourceManager NodeManager ProxyServer JobHistoryServer
centos101	NodeManager
centos102	NodeManager

三、开始配置

3.1 MapReduce配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

mapred-env.sh文件，添加如下环境变量


# 设置JDK路径
export JAVA_HOME=/opt/software/jdk/jdk1.8.0_202
# 设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
# 设置日志级别为INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

mapred-site.xml文件，添加如下配置信息


<configuration>
  <property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
    <description>MapReduce的运行框架设置为YARNdescription>
  property>
 
  <property>
    <name>mapreduce.jobhistory.addressname>
    <value>centos100:10020value>
    <description>历史服务器通讯端口为centos100:10020description>
  property>
 
  <property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>centos100:19888value>
    <description>历史服务器web端口为centos100的19888description>
  property>
 
  
  <property>
    <name>mapreduce.jobhistory.intermediate-done-dirname>
    <value>/data/mr-history/tmpvalue>
    <description>历史信息在HDFS的记录临时路径description>
  property>
 
 
  <property>
    <name>mapreduce.jobhistory.done-dirname>
    <value>/data/mr-history/donevalue>
    <description>历史信息在HDFS的记录路径description>
  property>
 
  <property>
    <name>yarn.app.mapreduce.am.envname>
    <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
  property>
 
  <property>
    <name>mapreduce.map.envname>
    <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
  property>
 
  <property>
    <name>mapreduce.reduce.envname>
    <value>HADOOP_MAPRED_HOME=%HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
  property>
 
configuration>

3.2 YARN配置文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：

yarn-env.sh文件，添加如下4行环境变量内容：


# 设置JDK路径的环境变量
export JAVA_HOME=/opt/software/jdk/jdk1.8.0_202
# 设置HADOOP_HOME的环境变量
export HADOOP_HOME=/opt/software/hadoop/hadoop-3.3.4
# 设置配置文件路径的环境变量
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# 设置日志文件路径的环境变量
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

yarn-site.xml文件，配置如下


<property>
    <name>yarn.resourcemanager.hostnamename>
    <value>centos100value>
    <description>ResourceMangager设置在centos100节点description>
property>
 
<property>
    <name>yarn.nodemanager.local-dirsname>
    <value>/data/nm-localvalue>
    <description>NodeManager中间数据本地存储路径description>
property>
 
<property>
    <name>yarn.nodemanager.log-dirsname>
    <value>/data/nm-logvalue>
    <description>NodeManager数据日志本地存储路径description>
property>
 
<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
    <description>为MapReduce程序开启Shuffle服务description>
property>
 
<property>
    <name>yarn.log.server.urlname>
    <value>http://centos100:19888/jobhistory/logsvalue>
    <description>历史服务器URLdescription>
property>
 
<property>
    <name>yarn.web-proxy.addressname>
    <value>centos100:8089value>
    <description>代理服务器主机和端口description>
property>
 
<property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
    <description>开启日志聚合description>
property>
 
<property>
    <name>yarn.nodemanager.remote-app-log-dirname>
    <value>/tmp/logsvalue>
    <description>程序日志HDFS的存储路径description>
property>
 
<property>
    <name>yarn.resoucemanager.scheduler.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
    <description>选择公平调度器description>
property>

3.3 分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。


scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml centos101:`pwd`/
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml centos102:`pwd`/