• 2023大数据挑战赛全国六强团队获奖经验+ppt分享(四)


    c262baabbf532aa8e46b76dadcd6b225.png

    团队名称

    陛下请移步至地下室

    团队成员

    张晓立(华东师范大学)

    团队名次

    全国第三名

    赛题描述说明介绍

    2023大数据挑战赛赛题说明+决赛评分标准回顾

    参赛分享与收获

    大赛提供了非常丰富有趣的数据,能把数据分析明白就能获得高分。首先分析metric数据中的故障特点,可以发现每一个tags都能组成一个长度为21的时间序列,因此metric中的故障主要表现为时间序列的异常。接下来分析trace的故障特点,从字段说明中可以知道status_code不等于200就代表故障。另外,span_time=end_time-start_time,即调用时长,调用时长过长或者过短都可能代表故障。timestamp的差分代表了前后两次调用结束时间的间隔,过长或过短都可能表示故障。特征工程的思路主要就是根据故障特点来进行特征构造。由于全是手工特征,很可能受到缺失值和分布偏移的问题导致线上线下的差距过大,所以缺失值过滤和训练集和测试集的同分布检验非常有必要,这个操作使得ab榜切换时没有shake太多分。

    模型方面选择了4种模型,xgboost和lightgbm负责获得稳定高分,随机森林和极端随机树负责碰运气shake出更高的分数。集成方面选择了标准的stacking集成方法,为了增加不同模型预测结果的差异,还针对不同的模型使用了不同数量的特征。

    所有模型的训练都采用了5折交叉验证,并且坚持trust your local cv的原则,没有过度拟合a榜。

    由于时间关系很遗憾没有对数据进行更深入的挖掘,使用的模型也偏保守。从前排队伍的分享来看,对数据的挖掘还是比较重要的,有一些业务背景知识处理起数据会事半功倍。

    最后感谢清华大学的邀请,让我有机会去北京参观,食宿方面准备得非常周到,必须点赞。

    决赛答辩ppt分享

    b972cf381026e4373c3ecab367172b1c.png

    c924b437bd6f0ee0fabeeded7240e3ce.png

    0fa4d9f24375d24677f78dc4016044ef.png

    e75a638442c4ecd62f332ba06580f748.png

    8052b01279b8ff5b29fcd2f64d7d4209.png

    ec58502b27e7bff721862096c7010f76.png

    0199a1bbbc31b9b68cf3648339213099.png

    67a3c4728502e20f76924f8cd478a50a.png

    b26604da80328c6d4c2cbdc19311fd5e.png

    2ecda8cf25bc62570b8e330a33f9cab8.png

    240989d5bb6b5ff188b6c7d407db25d3.png

    ee45d0476837e0c733c9a5a253b192b9.png

    893b3765bf583e3763f5bfc0744e94da.png

    6d369c8c8404086099c85f1569fb825e.png

    724bca5692bf0f8887fe19ec66f0460e.png

    3b4419aea62464eefd8a23c0ce57f357.png

    c3f3aaae33e8b80c5f2932c04a2f5cea.png

    0ef51115b5272493662db5034246cf51.png

    d2f47bfb122036bfab0968350b9933a0.png

    ad5e97843ff58bfaa0e61efd1bc4e1ab.png

    4dd48e42b8f896094ce65681200a1bac.png

    b63e87aad95b7cc275dfaf8c09a7b8f6.png

    3e23e25cbef3748bd2b770e17224d9eb.png

    fbd88adf4f2a348e44f40fd9daf0a0e4.png

    aaaf5c05ea2f654d2f116378e3cab269.png

    编辑:文婧

    校对:林亦霖

    6320add1281f0dc896ddd75dad7fc716.png

  • 相关阅读:
    优维产品最佳实践第14期:让重要告警能有序跟进,最终根治
    MTK平台双击Power打开Camera的简单流程
    Nacos心跳机制
    lv6 嵌入式开发-Flappy bird项目(功能实现)
    E. Wish I Knew How to Sort codeforces1754E
    淘宝 NPM 镜像站切换新域名啦
    兆易创新GD32 (二)官方工程 Template 和 创建工程
    复杂的C++继承
    C++的类和对象(一)
    用企业微信如何做私域运营?
  • 原文地址:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132769454