hadoop单机版安装

文章目录

说明
分享
环境
步骤
总结

说明

单机版是hadoop的基础安装方式，在三种安装方式：单机、伪分布式、集群中，常作为MapReduce功能的测试环境，没必要开启hdfs和yarn。
本文介绍hadoop单机版MapReduce测试环境安装方式。

环境

系统 centos 7.9 2009
hadoop 3.3.4 下载地址
- 需要软件ssh和pdsh，ssh系统自带，pdsh未用过。
jdk java 8.201

步骤

安装目录：/opt/module，操作用户可以是root或其他。

安装jdk

解压jdk：tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/module/
centos7 配置环境变量，创建自己环境变量文件：vi /etc/profile.d/my_env.sh

#JAVA_HOME export是全局变量
export JAVA_HOME=/opt/module/jdk1.8.0_201
export PATH=$PATH:$JAVA_HOME/bin
1
2
3

如果为centos6 编辑文件：vi /etc/profile，内容如上，需重新加载环境文件：source /etc/profile
验证jdk，查看版本：java -version

安装hadoop

官网下载hadoop 地址
- wget下载：wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
- curl下载：curl https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -o hadoop-3.3.4.tar.gz
解压到指定目录：tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/，单机版安装就添加到系统环境变量。

目录说明

目录名	说明
bin	存放hadoop相关服务（hdfs、yarn、mapred）进行操作脚本
etc	存放hadoop配置文件
lib	存放hadoop本地库
sbin	启动或停止hadoop各服务脚本
share	存放hadoop依赖jar、文档、官方实例。

MapReduce测试

数据准备

创建数据目录：mkdir /opt/data /opt/data/input
创建数据文件：vi /opt/data/input/data.txt，内容如下：

hello world
hello year
work and happy
1
2
3

执行MapReduce

执行MapReduce任务进行文本单词统计：/opt/module/hadoop-3.3.4/bin/hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /opt/data/input/ /opt/data/output，为方便理解此处使用物理路径。
- 参数说明：
  - jar：标识执行jar，后面跟jar包路径
  - wordcount：为参数，表示执行单词统计
  - /opt/data/input：为数据源目录
  - /opt/data/output：结果输出目录，不要创建，输出目录必须不存在，否则会报错。
出现如图 success 表示执行成功：

结果验证

程序自动创建输出目录：/opt/data/output，查看结果目录：ll /opt/data/output/，查看文件内容：cat /opt/data/output/part-r-00000

hdfs服务

添加hadoop环境变量

修改环境变量，添加hadoop环境变量，编辑文件：vi /etc/profile.d/my_env.sh ，增加如下内容：

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
1
2
3
4
5

查看hadoop版本，控制台执行刷新配置打印hadoop版本：source /etc/profile && hadoop version

创建数据目录

控制台执行命令创建目录：mkdir -p /opt/data/hadoop/name /opt/data/hadoop/data

修改hadoop配置文件

修改文件：vi /opt/module/hadoop-3.3.4/etc/hadoop/core-site.xml，修改为如下内容

<configuration>
        
        <property>
                <name>fs.defaultFSname>
                <value>hdfs://localhost:9000value>
        property>
        
        <property>
                <name>hadoop.tmp.dirname>
                <value>file:/opt/module/hadoop-3.3.4/datavalue>
                <description>Abasefor other temporary directories.description>
        property>
          
        <property>
          <name>hadoop.http.staticuser.username>
          <value>rootvalue>
        property>
configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

修改文件：vi /opt/module/hadoop-3.3.4/etc/hadoop/hdfs-site.xml，修改为如下内容

<configuration>
        
        <property>
          <name>dfs.namenode.http-addressname>
          <value>localhost:9870value>
        property>
        
        <property>
                <name>dfs.namenode.name.dirname>
                <value>file:/opt/data/hadoop/namevalue>
        property>
        
        <property>
                <name>dfs.datanode.data.dirname>
                <value>file:/opt/data/hadoop/datavalue>
        property>
        
        <property>
                <name>dfs.replicationname>
                <value>1value>
        property>
configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

编辑文件：vi /opt/module/hadoop-3.3.4/sbin/start-dfs.sh 和 vi /opt/module/hadoop-3.3.4/sbin/stop-dfs.sh ，增加如下内容配置用户启动信息

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
1
2
3
4

启动hdfs并验证

首次格式化hdfs：hdfs namenode -format
启动hdfs：start-dfs.sh
查看服务进程：jps
访问web页面：http://ip:9870/
上传文件：hadoop fs -put 本地文件 /
查看文件：hadoop fs -ls /

总结

单机版只能辅助理解hadoop，正式上线小集群使用伪分布式，正常集群使用集群安装，绝大多数大数据公司，使用第三方集群安装管理工具CDH或HDP（现停止更新，合并为一家公司CDP，开始收费），个别公司自己开发hadoop安装工具，正式平台组件很多如hbase、hive、kafka、spark、flink等，根据业务需要组装，将会非常复杂，这里不做说明。

相关阅读:
金仓数据库 KingbaseES 插件参考手册(17. dbms_metadata)
Linux 磁盘管理+实例
高斯原型网络原论文高质量翻译
【QT+CUDA】QT中使用cuda，QT+VS+cuda下载安装配置
Python中Lambda用法
【linux】重定向+缓冲区
RNA脂质体纳米颗粒|雷公藤内酯醇脂质体纳米颗粒负载RNA核糖核酸|规格信息
安科瑞为工业能效提升行动计划提供EMS解决方案-安科瑞黄安南
史上最全前端八股文来了
这是你没见过的MindSpore 2.0.0 for Windows GPU版

原文地址：https://blog.csdn.net/qq_22973811/article/details/127750133

hadoop单机版安装

文章目录

说明

分享

环境

步骤

安装jdk

安装hadoop

目录说明

MapReduce测试

数据准备

执行MapReduce

结果验证

hdfs服务

添加hadoop环境变量

创建数据目录

修改hadoop配置文件

启动hdfs并验证

总结