经过6个月的奋斗,项目的离线数仓部分终于可以上线了,因此整理一下离线数仓的整个流程,既是大家提供一个案例经验,也是对自己近半年的工作进行一个总结。
--如果不存在则创建hurys_dc_basic数据库
create database if not exists hurys_dc_basic;
--使用hurys_dc_basic数据库
use hurys_dc_basic;
--第1张表 群组-系统关联表 tb_device_team
create external table if not exists tb_device_team(
id string ,
device_no string comment '设备编号',
team_id string comment '分组编号'
)
comment '群组-系统关联表'
row format delimited fields terminated by ','
stored as textfile location '/data/t_device_team'
tblproperties("skip.header.line.count"="1") ;
注意:由于维度表的数据量不大而且更新不频繁,所以建表语句直接加载文件夹中的数据
stored as textfile location '/data/t_device_team'

对于刚部署的服务器,由于Hive没有建库建表、而且手动建表效率低,因此通过海豚调度器直接执行建库建表的.sql文件






#! /bin/bash
source /etc/profile
hive -e "
set hive.vectorized.execution.enabled=false;
set hive.auto.convert.join=false;
set mapreduce.map.memory.mb=10150;
set mapreduce.map.java.opts=-Xmx6144m;
set mapreduce.reduce.memory.mb=10150;
set mapreduce.reduce.java.opts=-Xmx8120m;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.dynamic.partition=true;
set hive.exec.parallel=true;
set hive.support.concurrency=false;
set mapreduce.map.memory.mb=4128;
set hive.vectorized.execution.enabled=false;
use hurys_dc_basic
"

剩余数仓部分,待续!