目录
在上一章中,我们简要介绍了机器学习模型。 ML 模型是用于我所说的预测的工具,或者更专业地说,是估计条件期望函数 E[Y|X]。换句话说,当您想从已知输入 X (如英语句子、本月销售、大脑扫描图像)映射到最初未知但定义明确的输出 Y(如日语句子、下个月的销售额或癌症诊断)。因此,如果 ML 处理预测或估计 E[Y|X],为了使其有用,您必须将您想用 ML 解决的任何问题框定为预测问题,即估计 E[Y|X] 是关键。我们在上一章中介绍了这样一个例子。在那里,我们必须根据客户的特定特征来预测客户的盈利能力:E[NetValue|Age,Income,Region]。这些信息非常有用,因为它使我们能够集中精力与盈利客户打交道,而不是与非盈利客户开展业务。在这里,很好地预测盈利能力是关键。
请注意,在您将自己从数据生成过程中移除的意义上,这是一种被动的估计方法。在我们的示例中,我们假设给出了客户盈利能力“净值”。我们所要做的就是估计它。换句话说,我们假设除了预测客户的盈利能力外,我们无能为力。我们不能增加它,也不能减少它。但这并不总是正确的。事实上,很多时候,公司都有可以用来提高客户盈利能力的杠杆。这些杠杆的范围可以从优质或更便宜的客户服务到折扣、价格或营销。在行业中,经常会出现我们被插入到数据生成过程中的情况。我们可以影响它。因此,作为在该行业工作的数据科学家,我们经常必须回答最佳行动方案或干预措施,以优化某些业务指标,通常是盈利能力或其他一些中间指标,如转换、成本或销售额。
在这个我们不是被动观察的世界中,估计 E[Y|X]并不是全部。这是我们进入因果推理的地方。我们需要在条件期望函数中添加另一部分,也就是对我们参与数据生成过程进行建模的部分,即干预本身:E[Y|X,T]
我们现在必须区分上下文或外生特征X和处理T。两者都会影响结果 Y,但是虽然我们无法控制 X,但我们可以决定 T 将取什么值,或者至少对其进行干预。举个具体的例子,Y 可能是一天的销售额,X 可能是您无法控制的上下文特征,但它会为您提供有关销售的信息,例如前几天,T 是您可以干预以增加销售额的处理变量,例如价格、商品库存水平或营销。因果推理是在上下文 X 下估计 T 和 Y 之间因果关系的过程。一旦我们这样做了,优化 Y 只是以最佳方式设置处理 T 的问题
从这个意义上说,除了因果推理的积极方面,我们还有一个规范的动机。
在第一部分,我们试图回答诸如学校教育的价值是什么?法律变化可以降低吸烟水平吗?我们可以通过积极的心态来提高学业成绩吗?酒精对死亡率的影响是什么?从理解世界如何运作的纯科学观点来看,所有这些问题都很有趣。但它们背后也有实际的动机。如果我们知道学校教育对收入的影响,我们就可以理解为此付出的合理价格。用数学术语来说,我们所做的是估计学校教育的因果推理并对其进行优化:
第一部分的重点是回答干预总体上是积极的、强的还是零。例如,我们想知道一般而言,投资于教育是否是一个好主意。同样在第一部分中,X 的作用是双重的。首先,X 可能包含混杂因素,在这种情况下,因果效应只有在我们考虑或调整 X 时才能识别。或者,X 可以减少因果估计的方差。如果 X 是 Y的良好预测器,我们可以用它来解释 Y 的方差,从而使因果效应更加明显。
现在,事情将变得不那么黑白分明了。我们想要的不仅仅是平均干预效果。我们将允许干预对某些人产生积极影响,但对其他人则不然。上下文特征 X 将在定义不同的单位配置文件中发挥作用,每个配置文件可能对处理的反应不同。我们现在想要
到目前为止,我们每次估计干预的因果影响时,都是平均干预效果(或者有时是局部平均干预效果):E[Y1−Y0]或等效的连续干预E[y′(t)]
其中 y′(t)是响应函数或结果的处理导数。我们已经学会了揭示干预的一般有效性的技术。 ATE 估计是因果推理的基础。对于我们称为程序评估的决策问题,它是一个超级有用的工具。我们想知道我们是否应该向整个人群推出一种干预方法。不要被公共政策条款所迷惑。评估国家教育或健康计划有效性的相同技术也可用于了解推出新产品对公司底线的影响。这里要注意的关键是我们想要告知的决定是我们是否应该干预。
现在,我们将尝试告知另一种类型的决定:我们干预谁?现在,我们允许决定从一个单元更改为另一个单元。干预一个单位而不是另一个单位可能是有益的。我们希望个性化干预。用更专业的术语来说,我们想要估计条件平均干预效果 (CATE)
或
对 X 的条件化意味着我们现在允许处理效果根据每个单元的特性而有所不同。同样,在这里,我们认为并非所有实体对干预的反应都一样好。我们希望利用这种异质性。我们只想处理正确的单位(在二元情况下)或弄清楚每个单位的最佳干预程度是多少(在连续情况下)。
例如,如果您是一家必须决定每个客户有资格获得贷款的银行,那么您可以确定向所有人提供大量资金并不是一个好主意——尽管这对某些人来说可能是合理的。您必须明智地对待您的干预手段(贷款金额)。也许,根据客户的信用评分 (X),您可以找出合适的贷款剂量。当然,您无需成为大型机构即可利用个性化。不乏适用的例子。您应该在一年中的哪几天进行销售?你应该为任何产品收取多少费用?对每个人来说,多少运动量才算过量运动量?
这样想吧。您有一群客户和一种待遇(价格、折扣、贷款……)。您想要个性化的待遇,例如,给不同的客户不同的折扣。

为此,您必须对客户进行细分。您创建了对您的干预有不同反应的小组。例如,您希望找到对折扣反应良好的客户和对折扣反应不佳的客户。好吧,客户对处理的反应由条件处理效果 给出。因此,我们可以以某种方式估计,对于每个客户,我们可以将那些对干预反应很好(高干预效果)和那些对干预反应不佳的人分组在一起。如果我们这样做,我们会像下图那样拆分客户空间。

这将是美妙的,因为现在我们将能够估计每个分区上的不同处理效果或弹性。请注意,弹性只是从 T 到 Y 的直线或函数的斜率。因此,如果我们可以生成斜率或弹性不同的分区,这意味着这些分区上的实体对处理具有不同的响应性。

换句话说,您想要摆脱以原始形式预测 Y 并开始预测 Y 在 T上的导数,为每个单位。例如,假设 Y 是冰淇淋销量,T 是冰淇淋价格,每个单位 i是一天。让我们把道德问题放在一边,为了争论,假装你每天都能改变冰淇淋的价格。如果您能以某种方式找到
低的日子,那么您可以提高价格 而不会在那些日子损失太多销售额。也许你已经这样做了,比如说,当你在假期增加它们时。关键是,根据价格弹性来区分日期是很有用的,因为它为您提供了如何以最佳方式设定价格的基础。
好吧,你可能会说,但这有点棘手。如果我看不到弹性,如何预测它?这是一个很好的观点。弹性在单位级别上基本上是不可观察的。不仅如此,这是一个奇怪的概念。我们更习惯于从原始数量的角度来思考,而不是根据这些相同数量的变化率来思考。因此,为了更好地概念化弹性,这里有一个小技巧。您可以将每个实体视为具有 Yi值,在我们的示例中为销售额,但也具有个体弹性
。弹性是 Y 随 T 变化的程度,因此您可以考虑每个实体也具有与其相关联的斜率系数
。在我们的示例中,我们会说每一天的销售价格都有一个斜率系数。

当然,我们看不到那些单独的斜率系数。为了让我们看到各个斜率,我们必须每天在两个不同的价格下观察,并计算每个价格的销售额如何变化。
近似
这又是因果推理的根本问题。我们永远无法在不同的处理条件下看到相同的单元。所以,我们能做些什么?