• 220913_100620-华为全球校园AI算法赛事(推荐方向):广告-信息流跨域CTR预估


    华为全球校园AI算法赛事(推荐方向):广告-信息流跨域CTR预估

    1. 赛题任务

    赛题简介

    广告推荐主要基于用户对广告的历史曝光、点击等行为进行建模,如果只是使用广告域数据,用户行为数据稀疏,行为类型相对单一。而引入同一媒体的跨域数据,可以获得同一广告用户在其他域的行为数据,深度挖掘用户兴趣,丰富用户行为特征。引入其他媒体的广告用户行为数据,也能丰富用户和广告特征。

    本赛题希望选手基于广告日志数据,用户基本信息和跨域数据优化广告ctr预估准确率。目标域为广告域,源域为信息流推荐域,通过获取用户在信息流域中曝光、点击信息流等行为数据,进行用户兴趣建模,帮助广告域ctr的精准预估。

    评价指标:GAUC和AUC的加权求和

    赛题说明

    本赛题提供7天数据用于训练,1天数据用于测试,数据包括目标域(广告域)用户行为日志,用户基本信息,广告素材信息,源域(信息流域)用户行为数据,源域(信息流域)物品基本信息等。

    希望选手基于给出的数据,识别并生成源域能反映用户兴趣,并能应用于目标域的用户行为特征表示,基于用户行为序列信息,进行源域和目标域的联合建模,预测用户在广告域的点击率。所提供的数据经过脱敏处理,保证数据安全。

    数据说明

    提供的数据包括目标域用户行为数据,源域用户行为数据,以下按照这2个维度分别说明。

    目标域用户行为数据
    字段名称字段含义是否可为空字段类型取值样例
    label是否点击,0:否,1:是int0,1
    user_id用户idString1,2…
    age年龄String1,2,3…
    gender性别String1,2…
    residence常住地-省份String1,2…
    city常住地-市-编号String1,2…
    city_rank常住地-市-等级String1,2…
    源域用户行为数据
    字段名称字段含义是否可为空字段类型取值样例
    u_userId用户标识String0001
    u_phonePrice用户手机价格String13
    u_browserLifeCycle浏览器用户活跃度String10
    u_browserMode浏览器业务类型String11
    u_feedLifeCycle信息流用户活跃度String12
    u_refreshTimes信息流日均有效刷新次数String16
    u_newsCatInterests信息流图文 点击 分类偏好[String,][1^2…]
    上传文件

    选拔赛今日(00:00:00 UTC ~ 23:59:59 UTC)已提交0次,最多提交4次

    1. 至少要提交一次 [DIGIX Implementation Instruction ](https://digix-algo-challenge.obs.cn-east-2.myhuaweicloud.com/2020/DIGIX Implementation Instruction - [Team].docx)和 Source Code

    2. 首次上传需同时上传3个文件,文件格式如下:submission.csv,DIGIX Implementation Instruction.docx,Source Code.zip。(DIGIX Implementation Instruction.docx文件大小不超过1M,Source Code.zip压缩文件大小不超过5M,submission.csv不超过100M。)

    评估方式

    评估方式:统计广告域的样本ctr预估值,计算GAUC和AUC

    评测指标:本次比赛使用GAUC和AUC的加权求和作为评估指标,具体公式如下:

    xAUC = α*GAUC + β*AUC

    xAUC越高,代表结果越优,排名越靠前。

    其中,AUC为全体样本的AUC统计,GAUC为分组AUC的加权求和,以用户为维度分组,分组权值为分组内曝光量/总曝光)

    img

    初赛:α为0.7,β为0.3

    本赛题来自实际的工业场景,因此测试集不可使用穿越信息。比如,在构造特征时,要求T时刻样本使用T时刻之前的信息,以确保方案的实际应用价值。如果违规使用T时刻未来的信息,成绩在初赛结束复验时会被判定为无效。

    提交方式

    选手提交结果为一个submission.csv 文件, 编码采用无BOM 的UTF-8,格式如下:log_id,pctr。其中log_id为对应测试样本中的log_id,pctr对应测试样本经由模型计算出的预估ctr值,pctr保留6位小数。

    提交文件参考如下示例:

    log_id,pctr

    1, 0.002345

    2, 0.010456

    . . .

  • 相关阅读:
    CHAT 的知识库都有什么?
    泛微E9,独立选择框对应数据库表查询
    从0搭建vue3组件库: 如何完整搭建一个前端脚手架?
    虹科活动 | 探索全新AR应用时代,虹科AR VIP研讨会广州场回顾!
    Vue中如何扩展⼀个组件
    ESP8266-Station模式连接服务器
    1.数据存储的探究
    Python编程基础:实验5——函数定义与调用
    Java版分布式微服务云开发架构 Spring Cloud+Spring Boot+Mybatis 电子招标采购系统功能清单
    java中重载与重写
  • 原文地址:https://blog.csdn.net/liluo_2951121599/article/details/126827892