码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 自然语言处理3——句子相似度


    句子相似度指的是两个句子之间相似的程度。

    句子相似度的计算方法主要分为基于统计的方法和基于深度学习的方法。

    ① 欧式距离:多维空间两个点的绝对距离。 d=|s_1-s_2|

    ② 余弦相似度:用两个向量的夹角的余弦值来衡量相似度,首先对句子做embedding(词嵌入),在计算两个句子或本文的相似度。 d = \frac{s_1 \cdot s_2}{|s_1|*|s_2|}

    ③ TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率):从词频率的角度出发计算一个词在一个文档和所有文档的频率。

    TF是词频(Term Frequency):表示词条(关键字)在文本中出现的频率,即某一类中词条w的出现的次数 / 该类中所有的词条数目。公式为:

    tf_{ij}=\frac{n_{i,j}}{\sum_{k}n_{k,j}}

    其中,n_{ij}是该词在文件d_j中出现的次数。

    IDF(逆向文件频率):考虑单词的重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到。公式为:

    idf_i = log\frac{|D|}{|{j:t_i \in d_j}|}

    其中,|D|是语料库中的文件总数,|{j:t_i \in d_j}|表示包含词语ti的文件数目。如果该醋鱼不在语料库中,就会导致分母为零,因此,一般情况下使用1+|{j:t_i \in d_j}|

    TF_IDF实际上就是TF*IDF,即tfidf(w)=td(d,w)*idf(w),通过这个公式的计算,可以得到句子的TF_IDF向量。

    ④ doc2vec,word2vec:用来创建词向量的模型,可以计算单个词到句子到文章的相似度。

  • 相关阅读:
    Android截屏分享之View生成图片进行保存分享、全屏,半屏、指定VIew、弹窗.......
    c++视觉处理----绘制直方图,H—S直方图,二维H—S直方图,RGB三色直方图
    【洛谷 P3853】[TJOI2007] 路标设置 题解(二分答案+递归)
    「随笔」前端面试 | 2022年前端面试基础必备
    我的创作纪念日的温柔与七夕的浪漫交织了在一起
    制作一个简单HTML个人网页网页(HTML+CSS)大话西游之大圣娶亲电影网页设计
    小程序 | 小程序中常用的事件 + 事件对象的属性列表 +小程序事件传参 + 小程序全局配置 + 小程序页面配置 + 小程序发起网络数据请求
    使用k8s helm离线部署spark-operator(私有仓库)
    没有设计经验的新手如何制作一本电子画册?
    Flink 侧输出流(SideOutput)
  • 原文地址:https://blog.csdn.net/Vicky_xiduoduo/article/details/127096760
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号