广告推荐主要基于用户对广告的历史曝光、点击等行为进行建模,如果只是使用广告域数据,用户行为数据稀疏,行为类型相对单一。而引入同一媒体的跨域数据,可以获得同一广告用户在其他域的行为数据,深度挖掘用户兴趣,丰富用户行为特征。引入其他媒体的广告用户行为数据,也能丰富用户和广告特征。
本赛题希望选手基于广告日志数据,用户基本信息和跨域数据优化广告ctr预估准确率。目标域为广告域,源域为信息流推荐域,通过获取用户在信息流域中曝光、点击信息流等行为数据,进行用户兴趣建模,帮助广告域ctr的精准预估。
评价指标:GAUC和AUC的加权求和
本赛题提供7天数据用于训练,1天数据用于测试,数据包括目标域(广告域)用户行为日志,用户基本信息,广告素材信息,源域(信息流域)用户行为数据,源域(信息流域)物品基本信息等。
希望选手基于给出的数据,识别并生成源域能反映用户兴趣,并能应用于目标域的用户行为特征表示,基于用户行为序列信息,进行源域和目标域的联合建模,预测用户在广告域的点击率。所提供的数据经过脱敏处理,保证数据安全。
提供的数据包括目标域用户行为数据,源域用户行为数据,以下按照这2个维度分别说明。
字段名称 | 字段含义 | 是否可为空 | 字段类型 | 取值样例 |
---|---|---|---|---|
label | 是否点击,0:否,1:是 | 否 | int | 0,1 |
user_id | 用户id | 否 | String | 1,2… |
age | 年龄 | 是 | String | 1,2,3… |
gender | 性别 | 是 | String | 1,2… |
residence | 常住地-省份 | 是 | String | 1,2… |
city | 常住地-市-编号 | 是 | String | 1,2… |
city_rank | 常住地-市-等级 | 是 | String | 1,2… |
字段名称 | 字段含义 | 是否可为空 | 字段类型 | 取值样例 |
---|---|---|---|---|
u_userId | 用户标识 | 否 | String | 0001 |
u_phonePrice | 用户手机价格 | 是 | String | 13 |
u_browserLifeCycle | 浏览器用户活跃度 | 是 | String | 10 |
u_browserMode | 浏览器业务类型 | 是 | String | 11 |
u_feedLifeCycle | 信息流用户活跃度 | 是 | String | 12 |
u_refreshTimes | 信息流日均有效刷新次数 | 是 | String | 16 |
u_newsCatInterests | 信息流图文 点击 分类偏好 | 是 | [String,] | [1^2…] |
… | … | … | … | … |
选拔赛今日(00:00:00 UTC ~ 23:59:59 UTC)已提交0次,最多提交4次
至少要提交一次 [DIGIX Implementation Instruction ](https://digix-algo-challenge.obs.cn-east-2.myhuaweicloud.com/2020/DIGIX Implementation Instruction - [Team].docx)和 Source Code
首次上传需同时上传3个文件,文件格式如下:submission.csv,DIGIX Implementation Instruction.docx,Source Code.zip。(DIGIX Implementation Instruction.docx文件大小不超过1M,Source Code.zip压缩文件大小不超过5M,submission.csv不超过100M。)
评估方式:统计广告域的样本ctr预估值,计算GAUC和AUC
评测指标:本次比赛使用GAUC和AUC的加权求和作为评估指标,具体公式如下:
xAUC = α*
GAUC + β*
AUC
xAUC越高,代表结果越优,排名越靠前。
其中,AUC为全体样本的AUC统计,GAUC为分组AUC的加权求和,以用户为维度分组,分组权值为分组内曝光量/总曝光)
初赛:α为0.7,β为0.3
本赛题来自实际的工业场景,因此测试集不可使用穿越信息。比如,在构造特征时,要求T时刻样本使用T时刻之前的信息,以确保方案的实际应用价值。如果违规使用T时刻未来的信息,成绩在初赛结束复验时会被判定为无效。
选手提交结果为一个submission.csv 文件, 编码采用无BOM 的UTF-8,格式如下:log_id,pctr。其中log_id为对应测试样本中的log_id,pctr对应测试样本经由模型计算出的预估ctr值,pctr保留6位小数。
提交文件参考如下示例:
log_id,pctr
1, 0.002345
2, 0.010456
. . .