导读:像人一样,算法容易受到偏见的影响,这些偏见会使他们的决策“不公平”。在决策过程中,公平是指根据个人或群体的固有或后天特性,对个人或群体不存在任何偏见或偏爱。随着偏见在现实世界中愈加凸显,机器学习中的公平问题近年来成为研究热点。
在北京智源大会特邀报告环节,美国国家科学院和工程院双院院士、哥德尔奖获得者、Differential Privacy发明者Cynthia Dwork详细介绍了实现算法公平的路径和挑战。

Cynthia Dwork,美国国家科学院和工程院双院院士、哥德尔奖获得者、Differential Privacy(差分隐私)发明者。
整理:牛梦琳
校对:熊宇轩

公平算法一览
1. 公平算法的理论基础
1979年,B.D.Underwood 在《Law and the Crystal Ball:Predicting Behavior with Statistical Inference and Individualized Judgment》一文中,首次用临床决策(clinical decision)代替了统计推断方法,她认为这是两种不同的论证事实的方法。这篇文章涉及的问题在今天仍备受关注,包括决策预测(decision to predict)。同时,她也提出了一个问题,如果要使用统计方法,应当如何选择作为决策基础的属性和特征。这个问题,一直伴随我们至今。

2021年夏天,微软硅谷研究室开启了这个对领域的探索。首先确定的是算法公平的定义,研究人员同时定义了两种主要的公平性保证(fairness guarantee):个体公平性保证和群体性公平保证,恰好与 30 年前 Underwood 的说法相呼应。
群体公平要求不同独立群体之间的决策统计存在某种关系。例如:(1),统计学平等(statistical parity):假设被录取的大学生群体在统计学上与总人口平等,那也就意味着,如果总人口中的 48.7% 是女性,则学生中也有 48.7% 是女性;(2),积极个体的分类平衡(balance of positive class),当给群体中分配到的积极个体评分时,对于两个不同的群体 A 和 B,A 群体中积极个体的平均分数应当与 B 群体中积极个体的平均分数相同。
实际上,理想的群体公平很难实现。举个例子,某家牛排店要给两个群体 A 和 B 做广告,