Hive跨集群数据迁移过程 - 码农知识堂 - 文章详情页

Hive跨集群数据迁移过程
文章目录
环境
- Hive集群A
- Hive集群B
- 跳转机一台
数据迁移需求

本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。

迁移过程记录

- 当前操作在集群A
1. 通过执行desc formatted，查看并记录数据库的：①存储位置，②文件存储压缩格式，③表字段；
2. 对迁移的数据库执行count(*)操作，记录数据量，整体把握，最后做校验；
- 当前操作在跳转机
1. 获取1.②位置之后，通过hdfs hds -du -h命令检查原始表数据在HDFS中的存储大小，确认是否能拉取到跳转机；
2. 执行df -h检查跳转机可用存储空间，执行hdfs dfs -get命令，将存储的数据库源文件从集群A的HDFS拉取到跳转机本地；
3. 执行ls | wc -l命令，检查拉取的数据库源文件数量，此步骤操作是为了校验文件数量；
4. 如果不是压缩存储的文件，比如CSV,请执行head命令，查看源文件首行是否包含表字段，如果包含表字段，需要在建表时添加TBLPROPERTIES ('skip.header.line.count'='1');
5. 执行hdfs dfs -put命令，将数据库源文件上传至集群B的HDFS，并执行hdfs hds -du -h检查存储大小是否一致，请提前mkdir准备好存储目录；
- 当前操作在集群B
1. 根据1.③编辑建表语句并执行，根据压缩存储格式的不同，MapReduce在执行时的输入输出结果也不同；
不指定格式
InputFormat org.apache.hadoop.hive.ql.io.RCFileInputFormat
OutputFormat org.apache.hadoop.hive.ql.io.RCFileOutputFormat

指定TEXTFILE格式
InputFormat org.apache.hadoop.mapred.TextInputFormat
OutputFormat org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

本次迁移方案数据源文件为.snappy.parquet压缩存储格式，新建的表为TEXTFILE格式，指定了分隔符为,;
1. 通过beeline执行LOAD DATA INPATH 'hdfs location' into table table_name命令，将HDFS中的数据源文件导入Hive表，至此完成迁移；
2. 若对存储格式在后续有新的需求，可以在完成导入后，通过创建新的附带存储格式的表，再执行insert overwrite table table_name_new select * from table_name_old;命令，完成Hive存储格式的转换；
3. 对于数据完整性、一致性的考虑：可以在完成后再次执行count（*），校验数据量，此方法是为了避免出现因格式不同，忽略CSV首行字段问题，或者建表语句错误，剔除了有效数据导致数据缺失的危险行为。
相关阅读:
新IDE出现，程序员迎来危机？
Hadoop系列——Hadoop简介day1-2
Stream流
 Linux 文件和目录列表（ls 命令）
优化算法 -AdGrad算法
 四、JAVA语言基础
 形态学图像处理
 计算机基础 - 二进制
 【C++】泛型编程 ① ( 函数模板 | 函数模板概念 | 函数模板意义 | 函数模板定义语法 | 函数模板调用语法 | 显式类型调用 | 自动类型推导 )
InnoDB数据页结构（4）之页目录
原文地址：https://blog.csdn.net/qq_31412425/article/details/133915900