• # DWD层及DIM层构建## ,220801 ,


    orc节省90%空间,,

    自己写代码,不要复用代码,ods一套dwd一套,,

    简历只描述ods层(orc格式)自动化建表,,,

    dwd一般需要数据清洗,,

    avro数据类型只要string,bigint,没有注释,,

     

     

    如果一个项目主题特别多,将主题进行分类

    将不同主题划分到不同的主题域

    ods_usr_visit_1d

    表名:分层_主题域_业务名称_时间粒度

    简历写一两个主题,,非常熟悉,,

    需求决定

    减少join?

     

     rank过滤减少数据量,,,

    两种性能一样,,

    PPD:谓词下推(hive,SparkSQL支持)

    思想:将过滤条件提前

     

     

     过滤提前,,

    sparkSQL从下往上看,stage,hive反着看,,

    Hive/Spark:谓词下推  SQL层面优化,

    先把不需要数据提前过滤掉,再做Join、分组聚合

    尽量手动谓词下推,,容易摸鱼,,

    为啥spark看不到库名呀 忘记了 记得提过  兼容性问题,,

    后面没有过滤条件,,,

     规范:尽量避免同层调用

    笛卡尔积

    1-显示申明:cross join

    2-开启参数:其他join的时候不给关联条件

    cross join ==后两表先join,,

    SQL只能repartition,,

    实际操作,先抽取好表字段,再建表,,,

     

     floor

    连上3天 , 2天面试加强,

    review,,

    • 今年会把下一年的每一天对应的时间维度的信息放入对应的年分区中(需要文件时,找老师要)

      报错明天问老师??

    查询没有问题,插入数据表就报这个错误,,

     查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,

     

    --派工单状态名称
    select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_WORKORDER_STATUS';
    

    --来电类型名称
    select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_CALL_TYPE';
    

     

       报错明天问老师??

      查询没有问题,插入数据表就报这个错误,,

      查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,

     

  • 相关阅读:
    bootstrap学习(四)
    PyCharm克隆github上开源的项目
    C++ STL 之顺序存储结构 vector,list,deque异同
    前端Vue仿企查查 天眼查知识产权标准信息列表组件
    Node.js操作MySQL8.0数据库无法连接
    单目标应用:白鲸优化算法(Beluga whale optimization,BWO)优化双向长短时记忆BiLSTM的权值和阈值(提供MATLAB代码)
    Linux命令(93)之head
    物联网时代的等保测评:保障万物互联的安全
    使用onnxruntime-gpu 模型推理
    数据仓库高级面试题
  • 原文地址:https://blog.csdn.net/m0_48941160/article/details/126094196