• 向量空间模型


    文档建模:要使计算机能够高效地处理真实文本,就必须找到一种理想的形式化表达方法,这个过程就是文档建模

    向量空间模型:把文本内容的处理简化为向量空间中的向量运算,用向量空间上的相似度来表达语义的相似度

    非结构化(文本,图像,视频)→向量化

    词袋模型

    缺点:词袋模型假设各词的重要程度相同,导致文本的表示受到常用词的影响比较大,文本中词的频率服从长尾分布(齐普夫分布);忽略文档长度,同一个词在长文档中出现的频率比短文档的高

    ↓优化

    TF-IDF

    TF:词频

    IDF:逆文档频率

    基本思想:假设词的重要性,会随它在文档中出现的次数成正比,也会随着普遍性与文档长度成反比

    TF=Frequency i/文档中词频最高,固定在[0,1]

    IDF=㏒N/ni

    N:语料库中的所有的文档数

    ni:包含关键词ti的文档数

    取对数的作用:缩小IDF之间的绝对值范围,同时保持数值的作用;缩小生僻词对它的影响

    sim(d1,d2)=(1/(1+dis(d1,d2))

    sim(d1,d2)=d1T d2

    缺点:包含所有词的文档向量表达式通常会很长,并且稀疏

    改进:去停用词;词干还原;特征选择:选取n个具有代表性的关键词对文本进行表示,去掉文本噪声

     

  • 相关阅读:
    Linux之(13)shell(5)sed进阶
    C语言——通讯录管理系统
    数据库上机实验7 数据库设计
    TCP连接管理
    备忘录:关于C#生成商品条码
    【算法】直接插入排序解析
    COCO数据集(Common Objects in COntext)
    mysql回表查询和索引覆盖
    05_2D3D转换
    UE4 Niagara 关卡1.4官方案例解析
  • 原文地址:https://blog.csdn.net/m0_67995579/article/details/127790263