1.4 Apache Hadoop完全分布式集群搭建-hadoop-最全最完整的保姆级的java大数据学习资料

1.4 Apache Hadoop完全分布式集群搭建-hadoop-最全最完整的保姆级的java大数据学习资料
目录
- 1.4 Apache Hadoop 完全分布式集群搭建
  1.4.1 虚拟机环境准备
  1.4.2 集群规划
  1.4.3 安装Hadoop
  1.4.3.1 集群配置
  1.4.3.1.1 HDFS集群配置
  1.4.3.1.2 MapReduce集群配置
  1.4.3.1.3 Yarn集群配置
  1.4.3.2 分发配置
  1.4.4 启动集群
  1.4.4.1 单节点启动
  1.4.4.2 集群群起
  1.4.4.3 Hadoop集群启动停止命令汇总
  1.4.5 集群测试
  1.4.6 配置历史服务器
  1.4.6.1 配置日志的聚集
1.4 Apache Hadoop 完全分布式集群搭建
- 软件和操作系统版本
  Hadoop框架是采用Java语言编写，需要java环境（jvm）
  JDK版本：JDK8版本
  集群：
  知识点学习：统一使用vmware虚拟机虚拟三台linux节点，linux操作系统：Centos7
  生产阶段：建议最少5台服务器节点
- Hadoop搭建方式
  单机模式：单节点模式，非集群，生产不会使用这种方式
  单机伪分布式模式：单节点，多线程模拟集群的效果，生产不会使用这种方式
  完全分布式模式：多台节点，真正的分布式Hadoop集群的搭建（生产环境建议使用这种方式）
1.4.1 虚拟机环境准备
1. 三台虚拟机（静态IP，关闭防火墙，修改主机名，配置免密登录，集群时间同步）
2. 在/opt目录下创建文件夹
```
#软件安装包存放目录
mkdir -p /opt/lagou/software
#软件安装目录
mkdir -p /opt/lagou/servers
```
1. Hadoop下载地址：
https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/

Hadoop官网地址：

http://hadoop.apache.org/
1. 上传hadoop安装文件到/opt/lagou/software
1.4.2 集群规划

框架 linux121 linux122 linux123

HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode

YARN NodeManager NodeManager NodeManager、ResourceManager

1.4.3 安装Hadoop
- 登录linux121节点；进入/opt/lagou/software,解压安装文件到/opt/lagou/servers
```
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/lagou/servers
```
- 查看是否解压成功
```
ll /opt/lagou/servers/hadoop-2.9.2
```
- 添加Hadoop到环境变量 vim /etc/profile
```
#HADOOP_HOME 
export HADOOP_HOME=/opt/lagou/servers/hadoop-2.9.2 export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin
```
- 使环境变量生效
```
source /etc/profile
```
- 验证hadoop
```
hadoop version
```
校验结果：
- hadoop目录
1. bin目录：对Hadoop进行操作的相关命令，如hadoop,hdfs等
2. etc目录：Hadoop的配置文件目录，如hdfs-site.xml,core-site.xml等
3. lib目录：Hadoop本地库（解压缩的依赖）
4. sbin目录：存放的是Hadoop集群启动停止相关脚本，命令
5. share目录：Hadoop的一些jar,官方案例jar，文档等
1.4.3.1 集群配置

Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置
- HDFS集群配置
  1. 将JDK路径明确配置给HDFS（修改hadoop-env.sh）
  2. 指定NameNode节点以及数据存储目录（修改core-site.xml）
  3. 指定SecondaryNameNode节点（修改hdfs-site.xml）
  4. 指定DataNode从节点（修改etc/hadoop/slaves文件，每个节点配置信息占一行）
- MapReduce集群配置
  1. 将JDK路径明确配置给MapReduce（修改mapred-env.sh）
  2. 指定MapReduce计算框架运行Yarn资源调度框架（修改mapred-site.xml）
- Yarn集群配置
  1. 将JDK路径明确配置给Yarn（修改yarn-env.sh）
  2. 指定ResourceManager老大节点所在计算机节点（修改yarn-site.xml）
  3. 指定NodeManager节点（会通过slaves文件内容确定）
集群配置具体步骤：

1.4.3.1.1 HDFS集群配置
```
cd /opt/lagou/servers/hadoop-2.9.2/etc/hadoop
```
- 配置：hadoop-env.sh
  
  将JDK路径明确配置给HDFS
  
  vim hadoop-env.sh
```
export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231
```
- 指定NameNode节点以及数据存储目录（修改core-site.xml）
  
  vim core-site.xml
```
<property> 
	<name>fs.defaultFSname> 
	<value>hdfs://linux121:9000value> 
property> 
 
<property> 
	<name>hadoop.tmp.dirname> 
	<value>/opt/lagou/servers/hadoop-2.9.2/data/tmpvalue>
property>
```
core-site.xml的默认配置：

https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml
- 指定secondarynamenode节点(修改hdfs-site.xml)
  
  vim hdfs-site.xml
```
 
<property> 
	<name>dfs.namenode.secondary.http-addressname> 
    <value>linux123:50090value> 
property> 

 
<property> 
	<name>dfs.replicationname> 
	<value>3value> 
property>
```
官方默认配置
https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
- 指定datanode从节点(修改slaves文件，每个节点配置信息占一行)
vim slaves
```
linux121
linux122
linux123
```
注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

1.4.3.1.2 MapReduce集群配置
- 指定MapReduce使用的jdk路径（修改mapred-env.sh）
  
  vim mapred-env.sh
```
export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231
```
- 指定MapReduce计算框架运行Yarn资源调度框架(修改mapred-site.xml)
```
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
```
```
 
<property> 
	<name>mapreduce.framework.namename> 
	<value>yarnvalue> 
property>
```
mapred-site.xml默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

1.4.3.1.3 Yarn集群配置
- 指定JDK路径
vim yarn-env.sh
```
export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231
```
- 指定ResourceManager的master节点信息(修改yarn-site.xml)
vim yarn-site.xml
```
 
<property>
	<name>yarn.resourcemanager.hostnamename>
	<value>linux123value>
property>

 
<property>
	<name>yarn.nodemanager.aux-servicesname>
	<value>mapreduce_shufflevalue>
property>
```
yarn-site.xml的默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
- 指定NodeManager节点（slaves文件已修改）
注意：
Hadoop安装目录所属用户和所属用户组信息，默认是501 dialout，而我们操作Hadoop集群的用户使用的是虚拟机的root用户，所以为了避免出现信息混乱，修改Hadoop安装目录所属用户和用户组！！!
```
chown -R root:root /opt/lagou/servers/hadoop-2.9.2
```
1.4.3.2 分发配置

编写集群分发脚本rsync-script
- rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
1. 基本语法
```
rsync   -rvl 		$pdir/$fname 	 $user@$host:$pdir/$fname
```
命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称
1. 选项参数说明
表2-2

选项功能

-r 递归

-v 显示复制过程

-l 拷贝符号连接
- rsync案例
  1. 三台虚拟机安装rsync (执行安装需要保证机器联网)
```
[root@linux121 ~]# yum install -y rsync
```
  1. 把linux121机器上的/opt/lagou/software目录同步到linux122服务器的root用户下的/opt/目录
```
[root@linux121 opt]$ rsync -rvl /opt/lagou/software/ root@linux122:/opt/lagou/software
```
- 集群分发脚本编写
  1. 需求：循环复制文件到集群所有节点的相同目录下
    
    rsync命令原始拷贝：
    
    rsync -rvl /opt/module root@linux123:/opt/
  2. 期望脚本
    脚本+要同步的文件名称
  3. 说明：在/usr/local/bin这个目录下存放的脚本，root用户可以在系统任何地方直接执行。
  4. 脚本实现
    （1）在/usr/local/bin目录下创建文件rsync-script，文件内容如下：
    
    [root@linux121 bin]$ touch rsync-script [root@linux121 bin]$ vim rsync-script
    
    在文件中编写shell代码
    
    #!/bin/bash #1 获取命令输入参数的个数，如果个数为0，直接退出命令 paramnum=$# if((paramnum==0)); then echo no params; exit; fi #2 根据传入参数获取文件名称 p1=$1 file_name=`basename $p1` echo fname=$file_name #3 获取输入参数的绝对路径 pdir=`cd -P $(dirname $p1); pwd` echo pdir=$pdir #4 获取用户名称 user=`whoami` #5 循环执行rsync for((host=121; host<124; host++)); do echo ------------------- linux$host -------------- rsync -rvl $pdir/$file_name $user@linux$host:$pdir done
    
    （2）修改脚本 rsync-script 具有执行权限
    
    [root@linux121 bin]$ chmod 777 rsync-script
    
    （3）调用脚本形式：rsync-script 文件名称
    
    [root@linux121 bin]$ rsync-script /home/root/bin
    
    （4）调用脚本分发Hadoop安装目录到其它节点
    
    [root@linux121 bin]$ rsync-script /opt/lagou/servers/hadoop-2.9.2
1.4.4 启动集群

注意：如果集群是第一次启动，需要在Namenode所在节点格式化NameNode，非第一次不用执行格式化Namenode操作！！!

1.4.4.1 单节点启动
```
[root@linux121 hadoop-2.9.2]$ hadoop namenode -format
```
格式化命令执行效果：

格式化后创建的文件：/opt/lagou/servers/hadoop-2.9.2/data/tmp/dfs/name/current
1. 在linux121上启动NameNode
```
[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start namenode
[root@linux121 hadoop-2.9.2]$ jps
```
2. 在linux121、linux122以及linux123上分别启动DataNode
```
[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux121 hadoop-2.9.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode

[root@linux122 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux122 hadoop-2.9.2]$ jps
3190 DataNode
3279 Jps

[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux123 hadoop-2.9.2]$ jps
3237 Jps
3163 DataNode
```
3. web端查看hdfs界面
  
  http://linux121:50070/dfshealth.html#tab-overview
查看HDFS集群正常节点：
1. Yarn集群单节点启动
```
[root@linux123 servers]# yarn-daemon.sh start resourcemanager
[root@linux123 servers]# jps
7881 ResourceManager 
8094 Jps

[root@linux122 servers]# yarn-daemon.sh start nodemanager
[root@linux122 servers]# jps
8166 NodeManager
8223 Jps

[root@linux121 servers]# yarn-daemon.sh start nodemanager
[root@linux121 servers]# jps
8166 NodeManager
8223 Jps
```
2. 思考：Hadoop集群每次需要一个一个节点的启动，如果节点数增加到成千上万个怎么办？
1.4.4.2 集群群起
1. 如果已经单节点方式启动了Hadoop,可以先停止之前的启动的Namenode与Datanode进程,如果之前Namenode没有执行格式化，这里需要执行格式化!!!!
```
hadoop namenode -format
```
2. 启动HDFS
```
[root@linux121 hadoop-2.9.2]$ sbin/start-dfs.sh
[root@linux121 hadoop-2.9.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode

[root@linux122 hadoop-2.9.2]$ jps
3218 DataNode
3288 Jps

[root@linux123 hadoop-2.9.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps
```
3. 启动YARN
```
[root@linux123 hadoop-2.9.2]$ sbin/start-yarn.sh
```
注意：NameNode和ResourceManger不是在同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。

1.4.4.3 Hadoop集群启动停止命令汇总
1. 各个服务组件逐一启动/停止
  1. 分别启动/停止HDFS组件
    
    hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
  2. 启动/停止YARN
    
    yarn-daemon.sh start / stop resourcemanager / nodemanager
2. 各个模块分开启动/停止（配置ssh是前提）常用
  1. 整体启动/停止HDFS
    
    start-dfs.sh / stop-dfs.sh
  2. 整体启动/停止YARN
    
    start-yarn.sh / stop-yarn.sh
1.4.5 集群测试
1. HDFS 分布式存储初体验
  
  从linux本地文件系统上传下载文件验证HDFS集群工作正常
```
hdfs dfs -mkdir -p /test/input
#本地hoome目录创建一个文件
cd /root

vim test.txt

hello hdfs

#上传linxu文件到Hdfs
hdfs dfs -put /root/test.txt  /test/input

#从Hdfs下载文件到linux本地
hdfs dfs -get /test/input/test.txt
```
2. MapReduce 分布式计算初体验
  - 在HDFS文件系统根目录下面创建一个wcinput文件夹
    
    [root@linux121 hadoop-2.9.2]$ hdfs dfs -mkdir /wcinput
  - 在/root/目录下创建一个wc.txt文件(本地文件系统)
    
    [root@linux121 hadoop-2.9.2]$ cd /root/ [root@linux121 wcinput]$ touch wc.txt
  - 编辑wc.txt文件
    
    [root@linux121 wcinput]$ vi wc.txt
  - 在文件中输入如下内容
    
    hadoop mapreduce yarn hdfs hadoop mapreduce mapreduce yarn lagou lagou lagou
  - 保存退出
    
    : wq!
  - 上传wc.txt到Hdfs目录/wcinput下
    
    hdfs dfs -put wc.txt /wcinput
  - 回到Hadoop目录/opt/lagou/servers/hadoop-2.9.2
  - 执行程序
    
    [root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wcinput /wcoutput
  - 查看结果
    
    [root@linux121 hadoop-2.9.2]$ hdfs dfs -cat /wcoutput/part-r-00000 hadoop 2 hdfs 1 lagou 3 mapreduce 3 yarn 2
1.4.6 配置历史服务器

在Yarn中运行的任务产生的日志数据不能查看，为了查看程序的历史运行情况，需要配置一下历史日志服务器。具体配置步骤如下：
1. 配置mapred-site.xml
```
[root@linux121 hadoop]$ vi mapred-site.xml
```
  在该文件里面增加如下配置。
```
<property>
	<name>mapreduce.jobhistory.addressname>
	<value>linux121:10020value>
property>

<property>
	<name>mapreduce.jobhistory.webapp.addressname>
    <value>linux121:19888value>
property>
```
2. 分发mapred-site.xml到其它节点
```
rsync-script mapred-site.xml
```
3. 启动历史服务器
```
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver
```
4. 查看历史服务器是否启动
```
[root@linux121 hadoop-2.9.2]$ jps
```
5. 查看JobHistory
  http://linux121:19888/jobhistory
1.4.6.1 配置日志的聚集

日志聚集：应用(Job)运行完成以后，将应用运行日志信息从各个task汇总上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和 HistoryManager。

开启日志聚集功能具体步骤如下：
1. 配置yarn-site.xml
```
[root@linux121 hadoop]$ vi yarn-site.xml
```
  在该文件里面增加如下配置。
```
<property>
	<name>yarn.log-aggregation-enablename>
	<value>truevalue>
property>

<property>
	<name>yarn.log-aggregation.retain-secondsname>
    <value>604800value>
property>
<property>
    <name>yarn.log.server.urlname>
    <value>http://linux121:19888/jobhistory/logsvalue>
property>
```
2. 分发yarn-site.xml到集群其它节点
```
rsync-script yarn-site.xml
```
3. 关闭NodeManager 、ResourceManager和HistoryManager
```
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop resourcemanager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop nodemanager

[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver
```
4. 启动NodeManager 、ResourceManager和HistoryManager
```
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start resourcemanager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start nodemanager

[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver
```
5. 删除HDFS上已经存在的输出文件
```
[root@linux121 hadoop-2.9.2]$ bin/hdfs dfs -rm -R /wcoutput
```
6. 执行WordCount程序
```
[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop- mapreduce-examples-2.9.2.jar wordcount /wcinput /wcoutput
```
7. 查看日志，如图所示
  
  http://linux121:19888/jobhistory
相关阅读:
盲盒小程序开发：创新科技与消费者心理的完美结合
 专业知识单选题练习系列（二）
Canvas 指纹追踪技术
 深入理解Nginx日志级别
 聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起
 旋转衬垫控制器 ( Rotation Shim Controller ) 是什么
 路由知识
 2022-09-17青少年软件编程（C语言）等级考试试卷（五级）解析
 技术管理进阶——什么Leader值得追随？
基于深度学习的人脸识别闸机开发（基于飞桨PaddlePaddle）
原文地址：https://www.cnblogs.com/gitBook/p/16951456.html

框架	linux121	linux122	linux123
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	NodeManager	NodeManager、ResourceManager

选项	功能
-r	递归
-v	显示复制过程
-l	拷贝符号连接

1.4 Apache Hadoop 完全分布式集群搭建

1.4.1 虚拟机环境准备

1.4.2 集群规划

1.4.3 安装Hadoop

1.4.3.1 集群配置

1.4.3.1.1 HDFS集群配置

1.4.3.1.2 MapReduce集群配置

1.4.3.1.3 Yarn集群配置

1.4.3.2 分发配置

1.4.4 启动集群

1.4.4.1 单节点启动

1.4.4.2 集群群起

1.4.4.3 Hadoop集群启动停止命令汇总

1.4.5 集群测试

1.4.6 配置历史服务器

1.4.6.1 配置日志的聚集