1 原始数据实时ETL任务分析结果落地
1 Json解析hdfs数据映射hive表(建议)
l 用StreamingFileSink方法将正确数据和错误数据写入到对应的HDFS目录中后,需要创建对应的hive表,并关联hdfs数据到hive表中,以实现原始数据实时ETL结果数据落地Hive需求。
l 实现步骤:
n hive脚本:分别创建外部分区表:正常数据分区表和错误数据分区表。
外部表:删除表时,不会删除表对应的原始数据
分区表: 便于后期使用分区进行数据查询;便于hdfs分目录存放数据与hive分区数据对应,便于数据存放管理
<