码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
使用子字(subword)构建单词向量的原因分析---学习笔记
传统空格分隔的tokenization技术:不利于模型学习词缀之间的关系。E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “smarter”, and “smartest”。
OOV:out of vocabulary.
Character embedding作为OOV的解决方法粒度太细
补充:Character embedding 字符嵌入
提出原因:
词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其是在形态丰富的语言中。
词表大小的问题:即使有丰富的数据可用,实际存储所有单词类型的向量也是不切实际的。
输入是一个单词,输出是该单词的词向量表示
字符嵌入模型
先训练得到每个字符的字符向量,如果想要得到一个单词的词向量,需要将组成该单词的每一个字符的字符向量输入BiLSTM模型,最终得到该单词的词向量
优点:
能够解决OOV词问题;
可以捕获字符间的结构信息;
可以推理出相似结构的词表示
缺点:
模型必须“从头开始”学习大量词汇(训练时还需要通过LSTM生成词表示,速度比词向量机制要慢)。
自然文本表现出数百或数千个时间步长的长距离依赖性。
字符序列比字序列长,因此需要更多的计算步骤。
测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词的词表示生成依旧速度慢;
Subword粒度在词与字符之间,能够较好的平衡OOV问题
相关阅读:
Haddop集群的简单搭建
迅为RK3568开发板ubuntu图形界面开机免密自登录
友盟+|如何通过阿里云Flink+Paimon实现流式湖仓落地方案
HTTP入门
计算机里的公共汽车(总线)
32.1 Java进阶之注解概念,工作原理
Shiro框架详解
Python 单元测试设置
Spring Boot 3.0.0 发布第一个里程碑版本M1,你的 Java 升到17 了吗?
用移动ip的优势
原文地址:https://blog.csdn.net/weixin_45647721/article/details/126590528
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号