论文原文:M. Ai et al., “LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm,” in Proceedings of the ACM Web Conference 2022, New York, NY, USA, 2022, pp. 2310–2319. doi: 10.1145/3485447.3512103.
Motivation
该工作以金币下发场景为背景,评估金币下发数量对用户观看时长的因果效应,并基于评估结果设计了个性化下发机制。
challenge :
contribution :
提出了LBCF方法解决了以上两个问题; 提出了新的模型效果评估指标; 在真实数据上进行了实验;
related work: 这一部分主要是围绕自己的challenge讲述了现有工作的不足,共分两类:
第一类:LBCF批评他们在进行决策时采用贪心策略,并且通过举例说明这类贪心策略无法达到treament effect的最优值【表1】 第二类:LBCF指出第二类虽然采用了优化算法来进行决策,但在面对大规模数据时性能表现不足,主要是:1. 他们只能做到cohort-level的优化,无法实现member-level的优化;2. 他们在解决multi-treatment时是构造了多棵causal forest,这样的话,不同forest所处的特征空间不同,那么评估出来的treatment effect也不可比。
Methodology
针对related work里的问题,LBCF提出了相应的解决方法,方法论主要分成两大部分:
第一部分是causal forest的构建,在这一部分的主要贡献就是提出了新的分裂标准,并将他们的森林起名为UDCF; 第二部分是优化问题的构造,在这一部分又提出了适用于大规模数据的优化算法,起名为DGB;
问题定义: 值得一提的是LBCF对multi-treatment下CATE的定义: 他们以Y(T=0)为基线,只考虑Y(T=j)到Y(T=0)的差值。
UDCF
作者针对multi-treatment问题,认为他们所构造的森林(即UDCF)需要满足如下两个要求:
Unified:是指,UDCF需要使得各个treatment的effect评估处于同一特征空间; Discriminative :是指,UDCF需要使得不同treatment对应的effect足够异质;
所以,UDCF的全称也就是Unified Discriminative Causal Forest。
为了满足上述两个要求,作者分别提出了两个新的分裂标准 :
inter split :该标准是将GRF用于CATE的分裂标准进行了一点改动,使得CF能应用于multi-treatment的情形,满足了Unified 特性,其形式化表达入如下: 不熟悉GRF的移步👉论文笔记:GRF 这个分裂标准延用了GRF的思想,是想要最大化子节点之间的异质性;Intra split :该标准是针对Discriminative 特性提出的【还附上了假设1】,其思想是最大化不同treatment之间的异质性,形式化表达如下: 基于以上两个分裂标准,作者提出了节点分裂的计算步骤:
首先根据inter split标准筛选出m个候选者; 再根据intra split标准筛选出最优分裂;
DGB
也是解决一个优化问题: 细节暂略