码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
使用子字(subword)构建单词向量的原因分析---学习笔记
传统空格分隔的tokenization技术:不利于模型学习词缀之间的关系。E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “smarter”, and “smartest”。
OOV:out of vocabulary.
Character embedding作为OOV的解决方法粒度太细
补充:Character embedding 字符嵌入
提出原因:
词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其是在形态丰富的语言中。
词表大小的问题:即使有丰富的数据可用,实际存储所有单词类型的向量也是不切实际的。
输入是一个单词,输出是该单词的词向量表示
字符嵌入模型
先训练得到每个字符的字符向量,如果想要得到一个单词的词向量,需要将组成该单词的每一个字符的字符向量输入BiLSTM模型,最终得到该单词的词向量
优点:
能够解决OOV词问题;
可以捕获字符间的结构信息;
可以推理出相似结构的词表示
缺点:
模型必须“从头开始”学习大量词汇(训练时还需要通过LSTM生成词表示,速度比词向量机制要慢)。
自然文本表现出数百或数千个时间步长的长距离依赖性。
字符序列比字序列长,因此需要更多的计算步骤。
测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词的词表示生成依旧速度慢;
Subword粒度在词与字符之间,能够较好的平衡OOV问题
相关阅读:
达梦8.0主备安装
elementUI的table使用展开功能( type=“expand“ ),展开时合起上一次展开的内容,始终保持展开内容为一个,并且再次点击合起自身
【ASE入门学习】ASE入门系列二十四——轴向溶解
K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路
Alibaba Code代码索引技术实践:为Code Review提供本地IDE的阅读体验
DeFi 前景展望:概览主流 DeFi 协议 Q2 进展
【实战案例】技术转项目经理容易踩的坑,我都踩了
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
系统(层次)聚类
java基于ssm校园车辆 校车管理系统
原文地址:https://blog.csdn.net/weixin_45647721/article/details/126590528
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号