• Hive学习笔记(1)


     

    目录

    一、Hive基本概念

    1、什么Hive

    2、Hive优缺点

    2.1 优点

    2.2 缺点

    3、Hive架构原理

    4、Hive和数据库比较

    4.1 查询语言

    4.2 数据更新

    4.3 执行延迟

    4.4 数据规模

    二、Hive安装

    1、 卸载自带的mysql

    2、MySQL安装

    3、Hive安装

    3.1 安装Hive

    3.2 启动并使用Hive

    4、Hive元数据配置到MySQL

    5、再次启动Hive

    6、使用元数据服务的方式访问Hive

    7、使用JDBC方式访问Hive

    8、交互命令

    9、Hive其他命令操作

    10、Hive常见属性配置

    10.1 Hive运行日志信息配置​编辑

    10.2 打印当前库和表头

    10.3 参数配置方式


    一、Hive基本概念

    1、什么Hive

     通过写sql的方式去对数据的分析处理,就不需要用MR了(太很麻烦),但是底层实现还是使用MR,只不过我们不用自己写

    2、Hive优缺点

    2.1 优点

    (1)操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。

    (2)避免了去写 MapReduce,减少开发人员的学习成本。

    (3)Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求不高的场合。

    (4)Hive 优势在于处理大数据,对于处理小数据没有优势,因为 Hive 的执行延迟比较 高。

    (5)Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

    2.2 缺点

            1)Hive 的 HQL 表达能力有限

            (1)迭代式算法无法表达

            (2)数据挖掘方面不擅长,由于 MapReduce 数据处理流程的限制,效率更高的算法却 无法实现。

            2)Hive 的效率比较低

            (1)Hive 自动生成的 MapReduce 作业,通常情况下不够智能化

            (2)Hive 调优比较困难,粒度较粗

    3、Hive架构原理

    架构图:

     Hive的元数据是存在第三方derby数据库中,我们要换成mysql(可以多个窗口进行分析处理)。要分析的数据再HDFS中

    1)用户接口:Client

    CLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问hive)

    2)元数据:Metastore

    元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、 表的类型(是否是外部表)、表的数据所在目录等;

    默认存储在自带的 derby 数据库中,推荐使用 MySQL 存储 Metastore

    3)Hadoop

    使用 HDFS 进行存储,使用 MapReduce 进行计算。

    4)驱动器:Driver

    (1)解析器(SQL Parser):将 SQL 字符串转换成抽象语法树 AST,这一步一般都用第 三方工具库完成,比如 antlr;对 AST 进行语法分析,比如表是否存在、字段是否存在、SQL 语义是否有误。

    (2)编译器(Physical Plan):将 AST 编译生成逻辑执行计划。

    (3)优化器(Query Optimizer):对逻辑执行计划进行优化。

    (4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来 说,就是 MR/Spark。

    4、Hive和数据库比较

    4.1 查询语言

    4.2 数据更新

    4.3 执行延迟

    4.4 数据规模

    二、Hive安装

    1、 卸载自带的mysql

    2、MySQL安装

    2、第11条如果不执行会导致只能localhost进行连接mysql,无法其他ip(及远程连接)进行连接

    1、对用户表的更改都需要flush刷新。

    3、Hive安装

    3.1 安装Hive

     由于整套逻辑是使用的hadoop,因此该日志jar包要进行改名或者删除,然后去使用的hadoop的日志文件即可解决jar包冲突

    3.2 启动并使用Hive

    4、Hive元数据配置到MySQL

    1. <configuration>
    2. <property>
    3. <name>javax.jdo.option.ConnectionURLname>
    4. <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=falsevalue>
    5. property>
    6. <property>
    7. <name>javax.jdo.option.ConnectionDriverNamename>
    8. <value>com.mysql.jdbc.Drivervalue>
    9. property>
    10. <property>
    11. <name>javax.jdo.option.ConnectionUserNamename>
    12. <value>rootvalue>
    13. property>
    14. <property>
    15. <name>javax.jdo.option.ConnectionPasswordname>
    16. <value>000000value>
    17. property>
    18. <property>
    19. <name>hive.metastore.schema.verificationname>
    20. <value>falsevalue>
    21. property>
    22. <property>
    23. <name>hive.metastore.event.db.notification.api.authname>
    24. <value>falsevalue>
    25. property>
    26. <property>
    27. <name>hive.metastore.warehouse.dirname>
    28. <value>/user/hive/warehousevalue>
    29. property>
    30. configuration>

    5、再次启动Hive

    6、使用元数据服务的方式访问Hive

    1、元数据服务可有可无

    2、只要配置了元数据服务,就必须要启动元数据服务

    7、使用JDBC方式访问Hive

    1. #!/bin/bash HIVE_LOG_DIR=$HIVE_HOME/logs if [ ! -d $HIVE_LOG_DIR ] then
    2. mkdir -p $HIVE_LOG_DIR
    3. fi
    4. #检查进程是否运行正常,参数 1 为进程名,参数 2 为进程端口
    5. function check_process()
    6. pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print
    7. $2}')
    8. ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut - d '/' -f 1)
    9. echo $pid
    10. [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
    11. }
    12. function hive_start()
    13. {
    14. metapid=$(check_process HiveMetastore 9083)
    15. cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1
    16. &"
    17. [ -z "$metapid" ] && eval $cmd || echo "Metastroe 服务已启动" server2pid=$(check_process HiveServer2 10000)
    18. cmd="nohup hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
    19. [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2 服务已启动"
    20. }
    21. function hive_stop()
    22. {
    23. metapid=$(check_process HiveMetastore 9083)
    24. [ "$metapid" ] && kill $metapid || echo "Metastore 服务未启动" server2pid=$(check_process HiveServer2 10000)
    25. [ "$server2pid" ] && kill $server2pid || echo "HiveServer2 服务未启动"
    26. }
    27. case $1 in "start")
    28. hive_start
    29. ;;
    30. "stop")
    31. hive_stop
    32. ;;
    33. "restart")
    34. hive_stop sleep 2 hive_start
    35. ;;
    36. "status")
    37. check_process HiveMetastore 9083 >/dev/null && echo "Metastore 服务运行 正常" || echo "Metastore 服务运行异常"
    38. check_process HiveServer2 10000 >/dev/null && echo "HiveServer2 服务运 行正常" || echo "HiveServer2 服务运行异常"
    39. ;;
    40. *)
    41. echo Invalid Args!
    42. echo 'Usage: '$(basename $0)' start|stop|restart|status'
    43. ;;
    44. esac

    杀死全部的RunJar:

    总结:hive是直连的,beeline是通过HS2再连接到hive的。而hive又通过metastore服务连接到mysql(不开启该服务就是直连)

     

    8、交互命令

     

    9、Hive其他命令操作

     在beeline中使用!quit退出

     

    10、Hive常见属性配置

    10.1 Hive运行日志信息配置

     

    10.2 打印当前库和表头

    10.3 参数配置方式

     因为在配置文件里已经进行过修改配置,因此会永久生效;而该方法可以暂时更改配置信息,且只针对当前客户端有效,不会影响当前客户端

  • 相关阅读:
    ECS 四 Sync Point、Write Group、Version Number
    SpringBean的生命周期
    C++对象模型学习笔记
    Apache SeaTunnel MongoDB CDC 使用指南
    vue3 点击后弹窗
    【Element UI】解决 el-button 禁用状态下,el-tooltip 提示不生效问题
    SSM之spring注解式缓存redis
    主从复制是怎么实现的?
    蜂窝移动终端的Cat指的是什么?
    CSS 中的 HSL 和 HSLA 与 RGB 和 RGBA
  • 原文地址:https://blog.csdn.net/qq_64557330/article/details/126093356