#Paper Reading# Pre-trained Language Model based Ranking in Baidu Search - 码农知识堂

#Paper Reading# Pre-trained Language Model based Ranking in Baidu Search

论文题目: Pre-trained Language Model based Ranking in Baidu Search
论文地址: https://dl.acm.org/doi/abs/10.1145/3447548.3467147
论文发表于: KDD 2021
论文所属单位: Baidu

论文大体内容：
本文主要提出了一个Pre-trained的模型，通过引入类似BERT的预训练模型到百度搜索引擎的Ranking模块，来提升Ranking的效果。

Motivation
应用预训练语言模型在搜索当中，面临着三个方面的挑战[1]：
①long document modeling（长文本建模）
②expensive computation（昂贵的计算）
③rank-agnostic pre-training（预训练模型与搜索排序无关）

Contribution
①提出了金字塔结构的ERNIE，能高效且有效的提升搜索中的ranking效果；
②相关的pre-training，引入用户点击数据反馈；
③线上系统里使用人工标记数据进行fine-tuning；
④在offline和online上都取得收益；

1. 搜索引擎发展历程：
①关键词匹配（显式匹配）
-倒排索引
②语义匹配（隐式匹配）
-LDA
-DSSM（基于深度网络的语义模型），第一次将NN用于解决语义匹配的问题

2. 本文想研究2个问题：
①是否BERT也可以来帮助解决信息检索中的语义相关性问题？
②在工业搜索引擎这种超大规模的系统里，如何将BERT等预训练语言模型应用，提升搜索质量？

3. 搜索领域，与推荐类似，也分为检索（触发/召回）和排序阶段，而检索阶段应用BERT也是很自然的事情（query-document embedding进行ANN，相比倒排索引就是语义的检索）。

4. 应用预训练语言模型在搜索当中，面临着三个方面的挑战[1]：（Motivation）
①long document modeling（长文本建模）
②expensive computation（昂贵的计算）
③rank-agnostic pre-training（预训练模型与搜索排序无关）

5. 挑战1：长文本建模
本文提出QUery-WeIghted Summary ExTraction (QUIET)算法，使用原理有点类似MMR的方式，可以快速高效的从document里提取出3-5句sentence组成的摘要

6. 挑战2：昂贵的计算
本文提出了Pyramid-ERNIE结构，按复杂度进行计算，相比直接Transformer(E(q,t,s))可以节约30%的计算复杂度开销。
金字塔ERNIE包括3部分
①E(q, t) = Transformer(query-title)
②E(s) = Transformer(summary)
③Transformer(E(q,t), E(s))

7. 挑战3：预训练模型与搜索排序无关
本文使用用户的行为日志，预训练出一个tree-based结构的多分类模型，然后使用triplet-loss套入Pyramid-ERNIE中，提升了下游排序任务的效果。

8. 在搜索领域，用户的行为日志，有几个问题：
①false-positive样本：噪音信号/虚假点击，可以通过类似视频推荐的长播放来解决；
②曝光偏差：使用click-skip ratio来解决；
③relevance：使用人工标注数据来解决；

9. 搜索有效的feature
①用户停留时间；
②用户滚动速度；
③query rewriting；
④long-click的数量；

10. 同时使用pairwise loss和pointwise loss来提升模型效果

实验
11. 本文使用提出的Pyramid-ERNIE进行了离线和在线实验来验证其有效性。

12. Dataset
①百度内部人工标注的相关性测试集；

13. Metric
搜索常用metric
①DCG/NDCG
②PNR，Positive Negative Rate = 正序对数 / 逆序对数
③ACC
④Interleaving观察线上效果[2]

14. 实验结果
①离线实验：验证PNR的提升；
②在线实验：通过AB实验验证，DCG、interleaving，GSB上的提升。

15. 下一步[1]
①基于预训练语言模型的方法一方面能有效解决语义的模糊匹配问题，但是另一方面却引入了一些丢失核心词的问题，例如基于预训练语言模型的方法会给“小熊猫” 和 “熊猫”判定为非常匹配，但是实际上“小熊猫” 和 “熊猫”完全不同。如何提升基于预训练语言模型的方法在精确匹配上的效果，是一个值得深入研究的问题。一种潜在的方法可以是对抗学习，主动学习的方法，比如收集类似的样本来解决。
②如何有效的选取的核心摘要的问题也是一个值得进一步探索的问题，本文的摘要选取策略是启发式的方法，后续可以采用更加合理设计进一步提升性能。
③模型小型化的技术，比如蒸馏，压缩等等也是很重的方向。超大模型在各NLP问题显示了的潜力，主要应用瓶颈依然是成本，后续模型小型化技术可以使得这种超大模型部署成为可能。

参考资料
[1] 沈向洋对话殷大伟：预训练语言模型如何提升搜索效果 https://mp.weixin.qq.com/s/it38yJoq0Mbu0wCYbpVDNQ
[2] 新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving https://blog.csdn.net/John159151/article/details/103759833

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！
相关阅读:
聊聊我的试用期总结（不知名公司算法工程师
 Flink的异步算子的原理及使用
 力扣（LeetCode）176. 第二高的薪水（2022.06.25）
2.在码云上创建仓库，拉取到本地IDEA，修改项目并提交到仓库
 QT+OSG/osgEarth编译之二十六：FontConfig+Qt编译（一套代码、一套框架，跨平台编译，版本：FontConfig-5.1.0）
一个手机ip从这个城市去到另一个城市多久会变
 Springboot和vue实现文件导入
 FigDraw 13. SCI 文章绘图之桑葚图及文章复现（Sankey）
Learning Git Branch 题解（基础、高级、Git远程仓库）
eunomia-bpf: 让 eBPF 程序的开发和部署尽可能简单
原文地址：https://blog.csdn.net/John159151/article/details/126367258