• # DWD层及DIM层构建## ,220801 ,


    orc节省90%空间,,

    自己写代码,不要复用代码,ods一套dwd一套,,

    简历只描述ods层(orc格式)自动化建表,,,

    dwd一般需要数据清洗,,

    avro数据类型只要string,bigint,没有注释,,

     

     

    如果一个项目主题特别多,将主题进行分类

    将不同主题划分到不同的主题域

    ods_usr_visit_1d

    表名:分层_主题域_业务名称_时间粒度

    简历写一两个主题,,非常熟悉,,

    需求决定

    减少join?

     

     rank过滤减少数据量,,,

    两种性能一样,,

    PPD:谓词下推(hive,SparkSQL支持)

    思想:将过滤条件提前

     

     

     过滤提前,,

    sparkSQL从下往上看,stage,hive反着看,,

    Hive/Spark:谓词下推  SQL层面优化,

    先把不需要数据提前过滤掉,再做Join、分组聚合

    尽量手动谓词下推,,容易摸鱼,,

    为啥spark看不到库名呀 忘记了 记得提过  兼容性问题,,

    后面没有过滤条件,,,

     规范:尽量避免同层调用

    笛卡尔积

    1-显示申明:cross join

    2-开启参数:其他join的时候不给关联条件

    cross join ==后两表先join,,

    SQL只能repartition,,

    实际操作,先抽取好表字段,再建表,,,

     

     floor

    连上3天 , 2天面试加强,

    review,,

    • 今年会把下一年的每一天对应的时间维度的信息放入对应的年分区中(需要文件时,找老师要)

      报错明天问老师??

    查询没有问题,插入数据表就报这个错误,,

     查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,

     

    --派工单状态名称
    select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_WORKORDER_STATUS';
    

    --来电类型名称
    select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_CALL_TYPE';
    

     

       报错明天问老师??

      查询没有问题,插入数据表就报这个错误,,

      查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,

     

  • 相关阅读:
    Jar包反编译,修改代码后,重新打jar包
    【vue】如何打开别人编译后的vue项目
    【计算机网络(二)】DNS协议
    C#打包表情图片至Dll文件中供winform中调用
    RK3588S上从训练Minist到部署Minist仓库介绍
    【数据结构】二叉树的基本概念
    【科研新手指南3】chatgpt辅助论文优化表达
    DSPE-PEG-GE11,磷脂-聚乙二醇-肿瘤细胞表皮生长因子肽GE11
    发版检查list
    A-B 数对
  • 原文地址:https://blog.csdn.net/m0_48941160/article/details/126094196