论文链接https://arxiv.org/abs/2109.03150v1
越来越多的推荐系统开始将推荐建模为一个马尔可夫决策过程,并使用强化学习来解决这个问题。从而推荐系统场景下的公平性研究便面临着一个从静态评价与一次性干预static evaluation and one-shot intervention到动态监控与不间断控制dynamic monitoring and non-stop control的转变。
在本文中,我们首先介绍了推荐系统的最新发展,然后讨论了如何将公平性融入到推荐的强化学习技术中。此外,我们认为,为了在推荐公平性方面取得进一步的进展,我们可以在随机博弈stochastic games的一般框架下考虑多智能体(博弈论)优化multi-agent (game-theoretic) optimization、多目标(帕累托)优化multi-objective (Pareto) optimization和基于仿真的优化simulation-based optimization。
1. 矩阵补全问题&矩阵分解算法
在推荐系统中,我们经常会拿到一种数据是user—item的表格,然后对应的是每位user对每个item的评分,如下图:
userID | item1 | item2 | item3 | item4 | ... | ... | item10 |
user1 | 5 | 5 | ? | 1 | ... | ... | 1 |
user2 | 5 | ? | 4 | 1 | ... | ... | 1 |
user3 | 1 | ? | 1 | 5 | ... | ... | 5 |
user4 | 1 | 1 | ? | 4 | ... | ... | ? |
矩阵补全问题顾名思义,即根据现有的单元格值来预测缺失的单元格值。
这种矩阵补全问题通常用矩阵分解算法来解决。由于并没有接触过推荐系统相关的项目,小禾对此也不是很了解,感兴趣的可以参考其他博主博客了解一下这类算法。也许这篇会有帮助(但小禾也没来得及拜读,最近还是专注于公平性研究来读论文中的重点)。
2. 基于强化学习的推荐系统
Reinforcement learning (RL) — an area of machine learning which is concerned with optimal decision making over time in a dy namic environment — offers a promising approach to tackling the problems of personalization and interactivity by capturing users’ evolving interests and optimizing their long-term experiences.Markov decision processA hot research topic is to develop offline reinforcement learning meth ods for interactive recommendation which can make effec tive use of previously collected user-item interaction data without expensive online data collection.
① 由于推荐系统是multi-stakeholder platforms,至少涉及item的消费者(客户)以及item的生产者(供应商)② MARL问题③ 纳什均衡 相关均衡correlated equilibrium,可通过这篇知乎简单了解④ 行为博弈论behavior game theory
现在也可能是时候将 约束优化方法转向 推荐公平性,并寻求包括效用和公平性在内的多个目标的 帕累托优化了。即使公平是我们关注的唯一目标,研究人员也严格证明了一些常见的公平指标之间存在固有的冲突,而且往往不可能同时优化它们。
为了充分理解和解决推荐中动态公平性的复杂性,为这种多智能体多目标推荐系统开发一个仿真环境是非常需要的。虽然谷歌已经发布了 fairness-gym 来模拟简单的动态公平性任务(贷款申请、大学录取和注意力分配),但目前还没有一个专门用于推荐中的动态公平性的模拟器。
推荐系统的公平性研究领域的最新发展显示出一种明显的动态公平观趋势。因此,公平推荐的基本数学框架可能会从矩阵补全转移到马尔可夫决策过程,然后再转移到随机博弈。