大数据技术基础实验十一：Hive实验——Hive分区

大数据技术基础实验十一：Hive实验——Hive分区
大数据技术基础实验十一：Hive实验——Hive分区
文章目录
- 大数据技术基础实验十一：Hive实验——Hive分区
- 一、前言
  二、实验目的
  三、实验要求
  四、实验原理
  五、实验步骤
  1、启动Hadoop集群
  2、用命令进入Hive客户端
  3、通过HQL语句进行实验
  
  六、最后我想说
一、前言

在前面一期Hive实验中我们学习了有关Hive创建表查看表以及删除表的基本操作，本期博客我们将来学习有关创建Hive分区表并将本地文件导入到我们划分好的分区内进行操作。

二、实验目的

掌握Hive分区的用法，加深对Hive分区概念的理解，了解Hive表在HDFS的存储目录结构。

三、实验要求

创建一个Hive分区表；根据数据年份创建year=2014和year=2015两个分区；将2015年的数据导入到year=2015的分区；在Hive界面用条件year=2015查询2015年的数据。

四、实验原理

分区(Partition) 对应于数据库中的分区(Partition) 列的密集索引，但是 Hive 中分区(Partition) 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个分区(Partition) 对应于表下的一个目录，所有的分区(Partition) 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 ctry 两个分区(Partition)，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA。

外部表(External Table) 指向已经在 HDFS 中存在的数据，可以创建分区(Partition)。它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据的访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

五、实验步骤

 1、启动Hadoop集群

因为Hive依赖于MapReduce，所以本实验之前先要启动Hadoop集群，我们在master虚拟机上进入Hadoop安装目录下的sbin文件内启动Hadoop集群：
```
cd /usr/cstor/hadoop/sbin
./start-all.sh
1
2
```
在实验启动时Hadoop集群已经启动了，所以不用自己去启动。

2、用命令进入Hive客户端

进入Hive安装目录，用命令进入Hive客户端：
```
cd /usr/cstor/hive/bin/
hive
1
2
```
3、通过HQL语句进行实验

进入客户端后，查看Hive数据库，并选择default数据库：
```
show databases;
use default;
1
2
```
在命令端创建Hive分区表：
```
create table parthive (createdate string, value string) partitioned by (year string) row format delimited fields terminated by '\t';
1
```
查看新建的表：
```
show tables;
1
```
给parthive表创建两个分区：
```
alter table parthive add partition(year='2014');
alter table parthive add partition(year='2015');
1
2
```
查看parthive的表结构：
```
describe parthive;
1
```
向year=2015分区导入本地数据：
```
load data local inpath '/root/data/12/parthive.txt' into table parthive partition(year='2015');
1
```
根据条件查询year=2015的数据：
```
select * from parthive t where t.year='2015';
1
```
根据条件统计year=2015的数据：
```
select count(*) from parthive where year='2015';
1
```
六、最后我想说

本期实验就到这里结束了，Hive实验也结束了，学校大数据平台上面基本都是基础知识，后面我会继续更新有关大数据组件的实验，然后再更新大数据综合实验的博客。
相关阅读:
蓝桥杯算法记录
 java基础10题
 JAVA计算机毕业设计房产客户信息管理系统Mybatis+源码+数据库+lw文档+系统+调试部署
 计算摄影——自动构图
 贝茄莱（B&R）实时以太网通讯测试
 Typora 基本使用操作
 Redis数据结构(一)-Redis的数据存储及String类型的实现
 如何使用 PostgreSQL 进行数据迁移和整合？
YOLOV7 教程之将 YOLOV7 转换为 TensorFlow Lite 以进行移动部署
 qt+ffmpeg视频播放器实现音视频倍速功能
原文地址：https://blog.csdn.net/qq_52417436/article/details/127715713

大数据技术基础实验十一：Hive实验——Hive分区

文章目录

一、前言

二、实验目的

三、实验要求

四、实验原理

五、实验步骤

1、启动Hadoop集群

2、用命令进入Hive客户端

3、通过HQL语句进行实验

六、最后我想说