• hive入门到魔改-阶段一(hive概念&安装&初步使用)


    Hive简介

    官网:

    Apache Hive

    Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。

    特点

    1. 简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析;
    2. 灵活性高,可以自定义用户函数 (UDF) 和存储格式;
    3. 为超大的数据集设计的计算和存储能力,集群扩展容易;
    4. 统一的元数据管理,可与 presto/impala/sparksql 等共享数据;
    5. 执行延迟高,不适合做数据的实时处理,但适合做海量数据的离线处理。

    Hive的体系架构

    command-line shell & thrift/jdbc

    可以用 command-line shell 和 thrift/jdbc 两种方式来操作数据:

    • command-line shell:通过 hive 命令行的的方式来操作数据;
    • thrift/jdbc:通过 thrift 协议按照标准的 JDBC 的方式操作数据。

    Metastore

    在 Hive 中,表名、表结构、字段名、字段类型、表的分隔符等统一被称为元数据。所有的元数据默认存储在 Hive 内置的 derby 数据库中,但由于 derby 只能有一个实例,也就是说不能有多个命令行客户端同时访问,所以在实际生产环境中,通常使用 MySQL 代替 derby。

    Hive 进行的是统一的元数据管理,就是说你在 Hive 上创建了一张表,然后在 presto/impala/sparksql 中都是可以直接使用的,它们会从 Metastore 中获取统一的元数据信息,同样的你在 presto/impala/sparksql 中创建一张表,在 Hive 中也可以直接使用。

    HQL的执行流程

    Hive 在执行一条 HQL 的时候,会经过以下步骤:

    1. 语法解析:Antlr 定义 SQL 的语法规则,完成 SQL 词法,语法解析,将 SQL 转化为抽象 语法树 AST Tree;
    2. 语义解析:遍历 AST Tree,抽象出查询的基本组成单元 QueryBlock;
    3. 生成逻辑执行计划:遍历 QueryBlock,翻译为执行操作树 OperatorTree;
    4. 优化逻辑执行计划:逻辑层优化器进行 OperatorTree 变换,合并不必要的 ReduceSinkOperator,减少 shuffle 数据量;
    5. 生成物理执行计划:遍历 OperatorTree,翻译为 MapReduce 任务;
    6. 优化物理执行计划:物理层优化器进行 MapReduce 任务的变换,生成最终的执行计划。

    安装

    下载:

    Index of /hive

    网盘下载:

    链接:https://pan.baidu.com/s/1Bq09-QgxWubrH9DzfftaAA 
    提取码:yyds 
     

     tar -zxvf apache-hive-3.1.2-bin.tar.gz
    • 配置环境变量
    sudo vi /etc/profile.d/my_env.sh
    1. export HIVE_HOME=/home/bigdata/module/hive-3.1.2
    2. export PATH=$PATH:$HIVE_HOME/bin
    source /etc/profile.d/my_env.sh
    • 解决依赖问题 

    删除log4j冲突问题,因为hadoop已经有这个依赖了所以删除hive的依赖

    1. cd lib
    2. mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.jar.bak

    由于 derby 只能有一个实例,也就是说不能有多个命令行客户端同时访问,所以在实际生产环境中,通常使用 MySQL 代替 derby。

    • 把mysql连接驱动添加到lib中(更具自己的mysql的版本进行添加对应的驱动依赖)

    ll | grep mysql-connector-java-5.1.49.jar

    如果没有安装mysql,想快一点安装的话可以使用docker

    1. sudo yum install docker
    2. sudo systemctl start docker
    3. sudo systemctl enable docker

    注意: 要保证时间和客户端的同步不然又证书问题,如果客户端的时间和mysql的时间不对会报错

    1. sudo yum install -y ntpdate
    2. sudo ntpdate 120.24.81.91

    冲突时使用这个
    sudo sudo systemctl stop ntp 

    镜像加速

    1. sudo mkdir -p /etc/docker
    2. sudo tee /etc/docker/daemon.json <<-'EOF'
    3. {
    4. "registry-mirrors": ["https://obnqc505.mirror.aliyuncs.com"]
    5. }
    6. EOF
    1. sudo systemctl daemon-reload
    2. sudo systemctl restart docker

     

     启动一个mysql容器并且开机自启

    sudo docker run -itd --name hive-mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD=root --restart=always  mysql:5.7

     

    • conf中创建一个hive-site.xml的配置文件
    vi hive-site.xml

    下面的配置文件更具自己的环境进行修改 下面的hivemetastore数据库最好提前创建,hadoop102改成自己hive安装的主机地址

    1. <?xml version="1.0"?>
    2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    3. <configuration>
    4. <property>
    5. <name>javax.jdo.option.ConnectionURL</name>
    6. <value>jdbc:mysql://hadoop102:3306/hivemetastore?useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
    7. </property>
    8. <property>
    9. <name>javax.jdo.option.ConnectionDriverName</name>
    10. <value>com.mysql.jdbc.Driver</value>
    11. </property>
    12. <property>
    13. <name>javax.jdo.option.ConnectionUserName</name>
    14. <value>root</value>
    15. </property>
    16. <property>
    17. <name>javax.jdo.option.ConnectionPassword</name>
    18. <value>root</value>
    19. </property>
    20. <property>
    21. <name>hive.metastore.warehouse.dir</name>
    22. <value>/user/hive/warehouse</value>
    23. </property>
    24. <property>
    25. <name>hive.metastore.schema.verification</name>
    26. <value>false</value>
    27. </property>
    28. <property>
    29. <name>hive.server2.thrift.port</name>
    30. <value>10000</value>
    31. </property>
    32. <property>
    33. <name>hive.server2.thrift.bind.host</name>
    34. <value>hadoop102</value>
    35. </property>
    36. <property>
    37. <name>hive.metastore.event.db.notification.api.auth</name>
    38. <value>false</value>
    39. </property>
    40. </configuration>
    • 环境都准备好以后开始使用
    • 先启动hadoop集群
    • 初始化元数据表
    schematool -initSchema -dbType mysql -verbose

    然后执行hive命令

    hive

    测试

    1. show databases;
    2. create table test(id int,name string);

     

    如果测试上面的没有问题,那么说明安装成功 

    由于hive本身不能够提供jdbc的连接,所以我们要启动hiveserver2,但是启动hiveserver2的前提是要启动metastore,因为hiveserver2连接metastore,jdbc连接hiveserver2

    启动元数据服务   metastore   hive操作元数据的服务

    hive --service metastore

    启动hiveserver2   我们使用的可以通过jdbc的方式连接hiveserver2

    hive --service hiveserver2

    访问hive

    -n指定操作的用户

    beeline -u jdbc:hive2://hadoop102:10000 -n bigdata

    如果出现权限问题就是没有配置代理用户的原因

    Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: bigdata is not allowed to impersonate bigdata

    只要在hadoop的core-site.xml添加配置

    1. <!-- 配置该bigdata(superUser)允许通过代理访问的主机节点 -->
    2. <property>
    3. <name>hadoop.proxyuser.bigdata.hosts</name>
    4. <value>*</value>
    5. </property>
    6. <!-- 配置该bigdata(superUser)允许通过代理用户所属组 -->
    7. <property>
    8. <name>hadoop.proxyuser.bigdata.groups</name>
    9. <value>*</value>
    10. </property>
    11. <!-- 配置该bigdata(superUser)允许通过代理的用户-->
    12. <property>
    13. <name>hadoop.proxyuser.bigdata.users</name>
    14. <value>*</value>
    15. </property>

    管理hive客户端的脚本
     

    1. #!/bin/bash
    2. HIVE_LOG_DIR=$HIVE_HOME/logs
    3. mkdir -p $HIVE_LOG_DIR
    4. #检查进程是否运行正常,参数1为进程名,参数2为进程端口
    5. function check_process()
    6. {
    7. pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')
    8. ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)
    9. echo $pid
    10. [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
    11. }
    12. function hive_start()
    13. {
    14. metapid=$(check_process HiveMetastore 9083)
    15. cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
    16. cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"
    17. [ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动"
    18. server2pid=$(check_process HiveServer2 10000)
    19. nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &
    20. echo "HiveServer2服务已启动"
    21. }
    22. function hive_stop()
    23. {
    24. metapid=$(check_process HiveMetastore 9083)
    25. [ "$metapid" ] && kill $metapid || echo "Metastore服务未启动"
    26. server2pid=$(check_process HiveServer2 10000)
    27. [ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动"
    28. }
    29. case $1 in
    30. "start")
    31. hive_start
    32. ;;
    33. "stop")
    34. hive_stop
    35. ;;
    36. "restart")
    37. hive_stop
    38. sleep 2
    39. hive_start
    40. ;;
    41. "status")
    42. check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常"
    43. check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常"
    44. ;;
    45. *)
    46. echo Invalid Args!
    47. echo 'Usage: '$(basename $0)' start|stop|restart|status'
    48. ;;
    49. esac
    ./hiveserver2.sh start

    hiveserver2 启动有点慢一般要等几分钟,多运行几次./hiveserver2.sh status就会出现正常了

     使用客户端工具连接

     第一阶段结束了好好休息下,希望能完成下面的所有阶段一定会有提升

  • 相关阅读:
    apache是什么
    官媒代运营:如何将内容营销做到深入人心
    ExtJS类成员-判断浏览器版本和操作系统类型功能
    【Hack The Box】linux练习-- Bashed(未完)
    微信小程序云开发-云函数发起https请求简易封装函数
    自动控制原理4.4---系统性能分析
    数据存储——存储视频
    Ubuntu(WSL) 安装最新版本的 GCC
    网站收录量与索引量有什么区别?
    [Unity]GPU Instancing 无效的原因
  • 原文地址:https://blog.csdn.net/S1124654/article/details/125564652