• hadoop单机版安装


    说明

    单机版是hadoop的基础安装方式,在三种安装方式:单机、伪分布式、集群中,常作为MapReduce功能的测试环境,没必要开启hdfs和yarn。
    本文介绍hadoop单机版MapReduce测试环境安装方式。

    分享

    环境

    • 系统 centos 7.9 2009
    • hadoop 3.3.4 下载地址
      • 需要软件ssh和pdsh,ssh系统自带,pdsh未用过。
    • jdk java 8.201

    步骤

    • 安装目录:/opt/module,操作用户可以是root或其他。

    安装jdk

    • 解压jdk:tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/module/
    • centos7 配置环境变量,创建自己环境变量文件:vi /etc/profile.d/my_env.sh
    #JAVA_HOME export是全局变量
    export JAVA_HOME=/opt/module/jdk1.8.0_201
    export PATH=$PATH:$JAVA_HOME/bin
    
    • 1
    • 2
    • 3
    • 如果为centos6 编辑文件:vi /etc/profile,内容如上,需重新加载环境文件:source /etc/profile

    • 验证jdk,查看版本:java -version
      在这里插入图片描述

    安装hadoop

    • 官网下载hadoop 地址
      • wget下载:wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
      • curl下载:curl https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -o hadoop-3.3.4.tar.gz
    • 解压到指定目录:tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/,单机版安装就添加到系统环境变量。
      在这里插入图片描述

    目录说明

    • hadoop各目录说明
    目录名说明
    bin存放hadoop相关服务(hdfs、yarn、mapred)进行操作脚本
    etc存放hadoop配置文件
    lib存放hadoop本地库
    sbin启动或停止hadoop各服务脚本
    share存放hadoop依赖jar、文档、官方实例。

    MapReduce测试

    数据准备

    • 创建数据目录:mkdir /opt/data /opt/data/input
    • 创建数据文件:vi /opt/data/input/data.txt,内容如下:
    hello world
    hello year
    work and happy
    
    • 1
    • 2
    • 3

    执行MapReduce

    • 执行MapReduce任务进行文本单词统计:/opt/module/hadoop-3.3.4/bin/hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /opt/data/input/ /opt/data/output,为方便理解此处使用物理路径。

      • 参数说明:
        • jar:标识执行jar,后面跟jar包路径
        • wordcount:为参数,表示执行单词统计
        • /opt/data/input:为数据源目录
        • /opt/data/output:结果输出目录,不要创建,输出目录必须不存在,否则会报错。
          在这里插入图片描述
    • 出现如图 success 表示执行成功:
      在这里插入图片描述

    结果验证

    • 程序自动创建输出目录:/opt/data/output,查看结果目录:ll /opt/data/output/,查看文件内容:cat /opt/data/output/part-r-00000
      在这里插入图片描述

    hdfs服务

    添加hadoop环境变量

    • 修改环境变量,添加hadoop环境变量,编辑文件:vi /etc/profile.d/my_env.sh ,增加如下内容:
    #HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-3.3.4
    
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 查看hadoop版本,控制台执行刷新配置打印hadoop版本:source /etc/profile && hadoop version

    创建数据目录

    • 控制台执行命令创建目录:mkdir -p /opt/data/hadoop/name /opt/data/hadoop/data

    修改hadoop配置文件

    • 修改文件:vi /opt/module/hadoop-3.3.4/etc/hadoop/core-site.xml,修改为如下内容
    <configuration>
            
            <property>
                    <name>fs.defaultFSname>
                    <value>hdfs://localhost:9000value>
            property>
            
            <property>
                    <name>hadoop.tmp.dirname>
                    <value>file:/opt/module/hadoop-3.3.4/datavalue>
                    <description>Abasefor other temporary directories.description>
            property>
              
            <property>
              <name>hadoop.http.staticuser.username>
              <value>rootvalue>
            property>
    configuration>
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 修改文件:vi /opt/module/hadoop-3.3.4/etc/hadoop/hdfs-site.xml,修改为如下内容
    <configuration>
            
            <property>
              <name>dfs.namenode.http-addressname>
              <value>localhost:9870value>
            property>
            
            <property>
                    <name>dfs.namenode.name.dirname>
                    <value>file:/opt/data/hadoop/namevalue>
            property>
            
            <property>
                    <name>dfs.datanode.data.dirname>
                    <value>file:/opt/data/hadoop/datavalue>
            property>
            
            <property>
                    <name>dfs.replicationname>
                    <value>1value>
            property>
    configuration>
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 编辑文件:vi /opt/module/hadoop-3.3.4/sbin/start-dfs.sh vi /opt/module/hadoop-3.3.4/sbin/stop-dfs.sh ,增加如下内容配置用户启动信息
    HDFS_DATANODE_USER=root
    HADOOP_SECURE_DN_USER=hdfs
    HDFS_NAMENODE_USER=root
    HDFS_SECONDARYNAMENODE_USER=root
    
    • 1
    • 2
    • 3
    • 4

    启动hdfs并验证

    • 首次 格式化hdfs:hdfs namenode -format

    • 启动hdfs:start-dfs.sh

    • 查看服务进程:jps

    • 访问web页面:http://ip:9870/

    • 上传文件:hadoop fs -put 本地文件 /

    • 查看文件:hadoop fs -ls /

    总结

    • 单机版只能辅助理解hadoop,正式上线小集群使用伪分布式,正常集群使用集群安装,绝大多数大数据公司,使用第三方集群安装管理工具CDH或HDP(现停止更新,合并为一家公司CDP,开始收费),个别公司自己开发hadoop安装工具,正式平台组件很多如hbase、hive、kafka、spark、flink等,根据业务需要组装,将会非常复杂,这里不做说明。
  • 相关阅读:
    金仓数据库 KingbaseES 插件参考手册(17. dbms_metadata)
    Linux 磁盘管理+实例
    高斯原型网络原论文高质量翻译
    【QT+CUDA】QT中使用cuda,QT+VS+cuda下载安装配置
    Python中Lambda用法
    【linux】重定向+缓冲区
    RNA脂质体纳米颗粒|雷公藤内酯醇脂质体纳米颗粒负载RNA核糖核酸|规格信息
    安科瑞为工业能效提升行动计划提供EMS解决方案-安科瑞黄安南
    史上最全前端八股文来了
    这是你没见过的MindSpore 2.0.0 for Windows GPU版
  • 原文地址:https://blog.csdn.net/qq_22973811/article/details/127750133