• 词之间的相关性--点互信息PMI算法


    1. PMI介绍

    点互信息算法是为了计算两个词语之间的相关性,公式如下:
    PMI ⁡ (  word  1 ,  word  2 ) = log ⁡ 2 [ p (  word  1  &   word  2 ) p (  word  1 ) p (  word  2 ) ] \operatorname{PMI}\left(\text { word }_{1}, \text { word }_{2}\right)=\log _{2}\left[\frac{\mathrm{p}\left(\text { word }_{1} \text { \& } \text { word }_{2}\right)}{\mathrm{p}\left(\text { word }_{1}\right) \mathrm{p}\left(\text { word }_{2}\right)}\right] PMI( word 1, word 2)=log2[p( word 1)p( word 2)p( word 1 &  word 2)]

    • p(word1 & word2)代表的是两个单词同时出现的概率(两个单词同时出现的次数/总词数的平方)
    • p(word1)是word1出现的概率(word1出现的次数/总词数)
    • p(word2)是word2出现的概率(word1出现的次数/总词数)

    结果:

    • PMI > 0;两个词语是相关的;值越大,相关性越强

    • PMI = 0;两个词语是统计独立的,不相关也不互斥

    • PMI < 0;两个词语是不相关的,互斥的

    2. PMI应用

    (1) 新词发现(判断一个词是否为词)
    参考 pmi新词发现

    (2)情感倾向点互信息算法(SO-PMI)
    选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向
    S O (  phrase  ) = P M I (  phrase, ‘excellent’)  − P M I (  phrase, ‘poor’) 

    SO( phrase )=PMI( phrase, ‘excellent’) PMI( phrase, ‘poor’) " role="presentation" style="position: relative;">SO( phrase )=PMI( phrase, ‘excellent’) PMI( phrase, ‘poor’) 
    SO( phrase )=PMI( phrase, ‘excellent’) PMI( phrase, ‘poor’) 

    • SO(phrase)>0 正面倾向,是褒义词

    • SO(phrase)=0 为中性词

    • SO(phrase)<0 为贬义词

    参考

    点互信息算法

  • 相关阅读:
    web前端、HTML
    分享一下在微信公众号上怎么实现预约功能
    【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十)
    Django 实现连续请求
    C/C++之链表的建立
    c++标准模板库:STL
    AI-Chat,一款集全网ai功能的应用(附下载链接)
    谷粒学院16万字笔记+1600张配图(十一)——课程管理
    第39讲:MySQL常规的索引分类
    HTML网页设计结课作业——11张精美网页 html+css+javascript+bootstarp
  • 原文地址:https://blog.csdn.net/orangerfun/article/details/126377107