• 5 步教你将 MRS 数据导入 DWS


    5 步教你将 MRS 数据导入 DWS

    MapReduce 服务(MapReduce Service,简称 MRS)是一个基于开源 Hadoop 生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。用户可以将海量业务数据,存储在 MRS 的分析集群,即使用 Hive/Spark 组件保存。Hive/Spark 的数据文件则保存在 HDFS 中。GaussDB (DWS) 支持在相同网络中,配置一个 GaussDB (DWS) 集群连接到一个 MRS 集群,然后将数据从 HDFS 中的文件读取到 GaussDB (DWS)。从 MRS 导入数据到集群的流程,大致可以分为 5 个步骤:

    • 第一步: MRS 集群上的数据准备
    • 第二步:手动创建外部服务器
    • 第三步:创建外表
    • 第四步:执行数据导入
    • 第五步:清除资源

    1 MRS 集群上的数据准备

    从 MRS 导入数据到 GaussDB (DWS) 集群之前,假设您已经完成了以下准备工作:

    (1)已创建 MRS 集群。

    (2)在 MRS 集群上创建了 Hive/Spark ORC 表,且表数据已经存储到该表对应的 HDFS 路径上。

    如果您已经完成上述准备,则可以跳过本章节。

    为方便起见,我们将以在 MRS 集群上创建 Hive ORC 表作为示例,完成上述准备工作。在 MRS 集群上创建 Spark ORC 表的大致流程和 SQL 语法,同 Hive 类似,在本文中不再展开描述。

    1.1 数据文件

    假设有数据文件 product_info.txt,示例数据如下所示:

    100,XHDK-A-1293-#fJ3,2017-09-01,A,2017 Autumn New Shirt Women,red,M,328,2017-09-04,715,good
    205,KDKE-B-9947-#kL5,2017-09-01,A,2017 Autumn New Knitwear Women,pink,L,584,2017-09-05,406,very good!
    300,JODL-X-1937-#pV7,2017-09-01,A,2017 autumn new T-shirt men,red,XL,1245,2017-09-03,502,Bad.
    310,QQPX-R-3956-#aD8,2017-09-02,B,2017 autumn new jacket women,red,L,411,2017-09-05,436,It's really super nice
    150,ABEF-C-1820-#mC6,2017-09-03,B,2017 Autumn New Jeans Women,blue,M,1223,2017-09-06,1200,The seller's packaging is exquisite
    200,BCQP-E-2365-#qE4,2017-09-04,B,2017 autumn new casual pants men,black,L,997,2017-09-10,301,The clothes are of good quality.
    250,EABE-D-1476-#oB1,2017-09-10,A,2017 autumn new dress women,black,S,841,2017-09-15,299,Follow the store for a long time.
    108,CDXK-F-1527-#pL2,2017-09-11,A,2017 autumn new dress women,red,M,85,2017-09-14,22,It's really amazing to buy
    450,MMCE-H-4728-#nP9,2017-09-11,A,2017 autumn new jacket women,white,M,114,2017-09-14,22,Open the package and the clothes have no odor
    260,OCDA-G-2817-#bD3,2017-09-12,B,2017 autumn new woolen coat women,red,L,2004,2017-09-15,826,Very favorite clothes
    980,ZKDS-J-5490-#cW4,2017-09-13,B,2017 Autumn New Women's Cotton Clothing,red,M,112,2017-09-16,219,The clothes are small
    98,FKQB-I-2564-#dA5,2017-09-15,B,2017 autumn new shoes men,green,M,4345,2017-09-18,5473,The clothes are thick and it's better this winter.
    150,DMQY-K-6579-#eS6,2017-09-21,A,2017 autumn new underwear men,yellow,37,2840,2017-09-25,5831,This price is very cost effective
    200,GKLW-l-2897-#wQ7,2017-09-22,A,2017 Autumn New Jeans Men,blue,39,5879,2017-09-25,7200,The clothes are very comfortable to wear
    300,HWEC-L-2531-#xP8,2017-09-23,A,2017 autumn new shoes women,brown,M,403,2017-09-26,607,good
    100,IQPD-M-3214-#yQ1,2017-09-24,B,2017 Autumn New Wide Leg Pants Women,black,M,3045,2017-09-27,5021,very good.
    350,LPEC-N-4572-#zX2,2017-09-25,B,2017 Autumn New Underwear Women,red,M,239,2017-09-28,407,The seller's service is very good
    110,NQAB-O-3768-#sM3,2017-09-26,B,2017 autumn new underwear women,red,S,6089,2017-09-29,7021,The color is very good 
    210,HWNB-P-7879-#tN4,2017-09-27,B,2017 autumn new underwear women,red,L,3201,2017-09-30,4059,I like it very much and the quality is good.
    230,JKHU-Q-8865-#uO5,2017-09-29,C,2017 Autumn New Clothes with Chiffon Shirt,black,M,2056,2017-10-02,3842,very good
    

    1.2 在 MRS 集群上创建 Hive ORC 表

    (1)创建了 MRS 集群。

    (2)登录 MRS 集群的 Hive 客户端。

    • (a)登录 Master 节点
    • (b)执行以下命令切换用户
    sudo su - omm
    
    • (c)执行以下命令切换到客户端目录
    cd /opt/client
    
    • (d)执行以下命令配置环境变量
    source bigdata_env
    
    • (e)如果当前集群已启用 Kerberos 认证,执行以下命令认证当前用户,当前用户需要具有创建 Hive 表的权限。配置拥有对应权限的角色。为用户绑定对应角色。如果当前集群未启用 Kerberos 认证,则无需执行此命令
  • 相关阅读:
    堡垒之夜诉苹果案后,应用程序开发商正开发新软件规避“苹果税”
    四十九、openlayers官网示例Immediate Rendering (Geographic)——在地图上绘制星空动画效果
    那些年遇到过的问题与解决方案
    ML |机器学习模型如何检测和预防过拟合?
    JVM——虚拟机类加载机制
    C语言条件运算符——三元表达式例题(素材来自C技能树)
    P1387 最大正方形-前缀和
    【面试题 01.08. 零矩阵】
    .Net分布式事务及落地解决方案
    dhtmlx-gantt甘特图数据展示
  • 原文地址:https://blog.csdn.net/weixin_43770745/article/details/126954996