码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 搜索引擎中的相关性模型


    一、什么是相关性模型?

    相关性模型主要关注的是query和doc的相关性。例如给定query,和1000个doc,找到哪个doc是好query最相关的。

    二、为什么需要相关性模型?

    熟悉es的应该都熟悉BM25相关性算法。它是一个很简单的相关性算法。我们实际使用中,经常会遇到一个问题就是如何。搜的内容和我给定的query不相关。换句话说,返回的结果不包含先要的结果。

    相关性是一个复杂的问题。不是简单的Bm25算法。我们需要相关性模型来更好的做这件事。

    三、相关性模型

    交叉BERT模型,准确性好,推理代价大,更适合用在粗排或者精排阶段。

    双塔BERT模型,不够准确,但是推理代价小。适合用来召回阶段。

    3.1 交叉BERT模型

     

    分词:字粒度与词粒度

     

    如何减低交叉BERT模型的推理成本

     

    3.2 双塔BERT模型

    四、训练相关性模型

     

    4.1 微调

     

    回归任务

    排序任务

     

    4.2 后预训练 

    从事发后,从以发生的事中,去再提升当前的能力。通过用户的点击行为来有优化模型。

    4.2.1 数据筛选

     

    4.2.2 后训练,构造训练数据

    挑选用户的点击数据。得到query,topk的doc,以及用户的点击行为x。然后抽样几万条数据,去人工标注,标注得到相关性y,然后用这几万条数据去训练一个小模型来计算点击行为x和相关性y的关系。然后再用这个小模型去预测10亿条数据的相关性分数。

     

     

    4.3 蒸馏

    蒸馏是把一个大模型变成一个小模型。为什么要蒸馏,模型越大,推理成本越大,时间成本也越大,当然也越准确。

    4.3.1 为什么要蒸馏?

    用大模型,蒸馏得到小模型,最终的效果比直接训练一个小模型得到的效果更好。

    4.3.2 如何做蒸馏

    蒸馏的技巧

     

     

     

  • 相关阅读:
    ibert测试 - UltraScale+
    目标检测——day45 基于水平边界框上滑动顶点的多朝向目标检测
    外贸人如何向国外客户展现我们的合作诚意
    如何将vue项目打包在服务器上使用nginx运行,并使用反向代理解决跨域问题
    Spring @Scheduled学习
    C++类模板实战之手写精简版vector容器,详解版
    win10电脑插入耳机,右边耳机声音比左边小很多
    Beautiful Soup属性和方法及文档
    【LeetCode题目详解】银联-02. 优惠活动系统(c++和python3)
    机器学习简介
  • 原文地址:https://blog.csdn.net/star1210644725/article/details/140397762
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号