Hive的介绍及部署搭建

Hive的介绍及部署搭建
文章目录
- Hive的介绍
  Hive与Hadoop之间的关系
  Hive功能实现图
  Hive架构图
  Hive组件
  Hive中的元数据
  
  Hive的安装部署
  安装部署的前提
  Mysql的安装
  Hive安装
  启动Hive
  
  客户端连接Hive
  Hive自带客户端
  HiveServer2服务
  客户端连接
Hive的介绍
- Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。
- Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。
Hive与Hadoop之间的关系
- Hive利用HDFS存储数据，利用MapReduce查询分析数据。
- Hive专注于编写HQL，Hive转换成MapReduce程序完成对数据的分析。
Hive功能实现图

 Hive架构图

 Hive组件
- 用户接口：CLI JDBC/ODBC、WebGUI。CLI为shell命令行；Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议；WebGUI是通过浏览器访问Hive。
- 元数据存储：存储在关系数据库mysql或者derby（自带）中。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
- Driver驱动有语法解析器、计划编译器、优化器、执行器：完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有执行引擎调用执行。
- 执行引擎：Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。
Hive中的元数据
- Hive MetaData是Hive中的元数据，包含用Hive创建的database、table、表的位置、类型、属性，字段顺序类型等元信息。元数据存储在关系数据库中，Hive自带的是derby，我们也可以使用第三方的Mysql。
- MetaStore是元数据服务，作用是管理metadata，对外暴露服务地址，让各种客户端通
  过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。
- metastore的配置方式：内嵌模式、本地模式、远程模式。企业推荐的远程模式，在生产环境中，建议用远程模式来配置Hive Metastore。在这种情况下，其他依赖hive的软件都可以通过Metastore访问hive。由于还可以完全屏蔽数据库层，因此这也带来了更好的可管理性/安全性。
Hive的安装部署

 安装部署的前提
- 服务器基础环境配置：集群时间同步、防火墙关闭、主机Host映射、免密登录、JDK安装
- Hadoop群集健康可用：启动Hive之前必须先启动Hadoop集群。特别要注意，需等待HDFS安全模式关闭之后再启动运行Hive。
- 整合Hadoop与Hive：Hive需要把数据存储在HDFS上，并且通过MapReduce作为执行引擎处理数据；因此需要在Hadoop中添加相关配置属性，以满足Hive在Hadoop上运行。修改Hadoop中core-site.xml，并且Hadoop集群同步配置文件，重启生效。
```
<property>
<name>hadoop.proxyuser.root.hostsname>
<value>*value>
property>
<property>
<name>hadoop.proxyuser.root.groupsname>
<value>*value>
property>
1
2
3
4
5
6
7
8
```
Mysql的安装
- 卸载CentOS7自带mariaDB
```
rpm -qa|grep mariadb
rpm -e mariadb-libs-5.5.64-1.el7.x86_64 --nodeps
#如果没有显示即卸载成功
rpm -qa|grep mariadb
1
2
3
4
```
- 安装MySQL
```
#解压
tar xvf mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar
#安装libaio
yum -y install libaio
#rpm安装MySQL
rpm -ivh mysql-community-common-5.7.29-1.el7.x86_64.rpm mysql-community-libs-5.7.29-1.el7.x86_64.rpm mysql-community-client-5.7.29-1.el7.x86_64.rpm mysql-community-server-5.7.29-1.el7.x86_64.rpm 
1
2
3
4
5
6
```
- 初始化MySQL
```
#初始化
mysqld --initialize
#更改所属组
chown mysql:mysql /var/lib/mysql -R
#启动mysql
systemctl start mysqld.service
#查看生成的临时root密码
cat  /var/log/mysqld.log
1
2
3
4
5
6
7
8
```
- 登录MySQL修改权限
```
 mysql -u root -p
# Enter password:     #这里输入在日志中生成的临时密码
1
2
```
```
#更新root密码  设置为hadoop
ALTER user user() IDENTIFIED BY "123456";
#授权
USE mysql；
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
FLUSH PRIVILEGES;
1
2
3
4
5
6
```
- 设置mysqld服务自启动
```
systemctl enable  mysqld
#检查是否自启动
systemctl list-unit-files | grep mysqld
1
2
3
```
Hive安装
- 解压安装包
```
tar -zxvf apache-hive-3.1.2-bin.tar.gz
mv apache-hive-3.1.2-bin hive-3.1.2
1
2
```
- 解决Hive与Hadoop之间guava版本差异
```
cd /export/server/hive-3.1.2/lib
rm -rf guava-19.0.jar
cp -p /export/server/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar .
1
2
3
```
- 修改hive配置文件
```
cd /export/server/hive-3.1.2/conf
mv hive-env.sh.template hive-env.sh
#末尾添加
vim hive-env.sh
export HADOOP_HOME=/export/server/hadoop-3.3.0
export HIVE_CONF_DIR=/export/server/hive-3.1.2/conf
export HIVE_AUX_JARS_PATH=/export/server/hive-3.1.2/lib
1
2
3
4
5
6
7
```
```
# 新增的
vim hive-site.xml
1
2
```
```
<configuration>

<property>
	<name>javax.jdo.option.ConnectionURLname>
	<value>jdbc:mysql://node1:3306/hive3?createDatabaseIfNotExist=true&useSSL=false&useUnicode=true&characterEncoding=UTF-8value>
property>

<property>
	<name>javax.jdo.option.ConnectionDriverNamename>
	<value>com.mysql.jdbc.Drivervalue>
property>

<property>
	<name>javax.jdo.option.ConnectionUserNamename>
	<value>rootvalue>
property>

<property>
	<name>javax.jdo.option.ConnectionPasswordname>
	<value>hadoopvalue>
property>


<property>
    <name>hive.server2.thrift.bind.hostname>
    <value>node1value>
property>


<property>
    <name>hive.metastore.urisname>
    <value>thrift://node1:9083value>
property>

 
<property>
    <name>hive.metastore.event.db.notification.api.authname>
    <value>falsevalue>
property>
configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
```
- 上传mysql jdbc驱动到hive安装包lib下
  mysql-connector-java-5.1.32.jar
- 初始化元数据
```
cd /export/server/hive-3.1.2/bin/
./schematool -initSchema -dbType mysql -verbos
#初始化成功会在mysql中创建74张表
1
2
3
```
- 在hdfs创建hive存储目录
```
hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse
1
2
3
4
```
启动Hive
- 前台启动：进程会一直占据终端，ctrl + c结束进程，服务关闭。可以根据需求添加参数开启debug日志，获取详细日志信息，便于排错。
```
#前台启动
/export/server/hive-3.1.2/bin/hive --service metastore
#前台启动开启debug日志
/export/server/hive-3.1.2/bin/hive --service metastore --hiveconf 
hive.root.logger=DEBUG,console 
#前台启动关闭方式 ctrl+c结束进程
1
2
3
4
5
6
```
- 后台启动
```
nohup /export/server/hive-3.1.2/bin/hive --service metastore &
#后台挂起启动 结束进程使用jps查看进程 使用kill -9 杀死进程
#nohup 命令，在默认情况下（非重定向时），会输出一个名叫 nohup.out 的文件到当前目录下
1
2
3
```
客户端连接Hive

Hive自带客户端
- 第一代客户端(不推荐使用)：$HIVE_HOME/bin/hive是一个 shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。
- 第二代客户端（推荐使用）：$HIVE_HOME/bin/beeline，是一个JDBC客户端，是官方强烈推荐使用的Hive命令行工具，和第一代客户端相比，性能加强安全性提高。
HiveServer2服务
- 远程模式下beeline通过 Thrift 连接到单独的HiveServer2服务上，这也是官方推荐在生产环境中使用的模式。
- HiveServer2支持多客户端的并发和身份认证，旨在为开放API客户端如JDBC、ODBC提供更好的支持。
- HiveServer2通过Metastore服务读写元数据。所以在远程模式下，启动HiveServer2之前必须先首先启动metastore服务。
- 特别注意：远程模式下，Beeline客户端只能通过HiveServer2服务访问Hive。而bin/hive是通过Metastore服务访问的。具体关系如下：
- 启动hiveserver2服务
```
nohup /export/server/hive-3.1.2/bin/hive --service hiveserver2 &
1
```
客户端连接
- node3节点上连接hive
```
/export/server/hive-3.1.2/bin/beeline
#连接
! connect jdbc:hive2://node1:10000
1
2
3
```
相关阅读:
Unity实现经验光照模型
 任意文件下载漏洞（CVE-2021-44983）
vite + react + typescript + uni-app + node 开发一个生态系统
 运输层（计算机网络谢希仁第八版）——学习笔记五
 PasteSpider的集群组件PasteCluster(让你的项目快速支持集群模式)的思路及实现(含源码)
Spring相关源码解读
 一种基于USB总线技术的数据采集系统接口FPGA实现
 antv系列图引擎X6、G6比对选择，并实现vue实例ER图
 SpringBoot自动配置入门
 前端项目导入vue和element
原文地址：https://blog.csdn.net/sinat_31854967/article/details/126051523

文章目录

Hive的介绍

Hive与Hadoop之间的关系

Hive功能实现图

Hive架构图

Hive组件

Hive中的元数据

Hive的安装部署

安装部署的前提

Mysql的安装

Hive安装

启动Hive

客户端连接Hive

Hive自带客户端

HiveServer2服务

客户端连接