码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 使用子字(subword)构建单词向量的原因分析---学习笔记


    1. 传统空格分隔的tokenization技术:不利于模型学习词缀之间的关系。E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “smarter”, and “smartest”。
    2. OOV:out of vocabulary.
      1. Character embedding作为OOV的解决方法粒度太细
      2. 补充:Character embedding 字符嵌入
        1. 提出原因:
          1. 词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其是在形态丰富的语言中。
          2. 词表大小的问题:即使有丰富的数据可用,实际存储所有单词类型的向量也是不切实际的。
        2. 输入是一个单词,输出是该单词的词向量表示
        3. 字符嵌入模型先训练得到每个字符的字符向量,如果想要得到一个单词的词向量,需要将组成该单词的每一个字符的字符向量输入BiLSTM模型,最终得到该单词的词向量
        4. 优点:
          1. 能够解决OOV词问题;
          2. 可以捕获字符间的结构信息;
          3. 可以推理出相似结构的词表示    
        5. 缺点:
          1. 模型必须“从头开始”学习大量词汇(训练时还需要通过LSTM生成词表示,速度比词向量机制要慢)。
          2. 自然文本表现出数百或数千个时间步长的长距离依赖性。
          3. 字符序列比字序列长,因此需要更多的计算步骤。
          4. 测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词的词表示生成依旧速度慢;
    3.  Subword粒度在词与字符之间,能够较好的平衡OOV问题
  • 相关阅读:
    达梦8.0主备安装
    elementUI的table使用展开功能( type=“expand“ ),展开时合起上一次展开的内容,始终保持展开内容为一个,并且再次点击合起自身
    【ASE入门学习】ASE入门系列二十四——轴向溶解
    K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路
    Alibaba Code代码索引技术实践:为Code Review提供本地IDE的阅读体验
    DeFi 前景展望:概览主流 DeFi 协议 Q2 进展
    【实战案例】技术转项目经理容易踩的坑,我都踩了
    大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
    系统(层次)聚类
    java基于ssm校园车辆 校车管理系统
  • 原文地址:https://blog.csdn.net/weixin_45647721/article/details/126590528
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号