04-循环神经网络基础和自然语言处理介绍

目录

1.文本的tokenization

1.1 概念和工具的介绍

1.2 中英文分词的方法

2.N-garm表示方法

3.1 one-hot编码

3.2 word embedding

3.3 word embedding API

3.4 数据的形状变化

1.文本的tokenization

1.1 概念和工具的介绍

1.2 中英文分词的方法

2.N-garm表示方法


import jieba
text='受芯片供应不足影响，传闻南北大众汽车近期陷入停产。尽管大众汽车集团（中国）已公开解释，这只是短期的供给紧张，情况没有传闻中严重，已经与总部、相关供应商展开协调工作，但这并未完全打消公众的疑虑。'
cuted=jieba.lcut(text)#lcut是直接转换成列表
print([cuted[i:i+2] for i in range(len(cuted)-1)])#len(cuted)-1个特征  ==> N-garm中N为2

3.向量化

3.1 one-hot编码

3.2 word embedding

3.3 word embedding API

3.4 数据的形状变化

相关阅读:
制造业SRM管理系统供应商全方位闭环管理，实现采购寻源与流程高效协同
 代理模式以及静态代理、JDK代理、Cglib代理的实现
 信息资产和设备管理制度
 Vue3 从入门到放弃（第四篇.Props使用）
开源DB-GPT实现连接数据库详细步骤
 ffmpeg批量转换ape/wav为mp3 (linux, mac适用)
php：如何在curl方式下url请求域名使用指定ip地址来访问某个服务器
 C++中嵌入汇编语言的方法(这个方法被证明在64位电脑上使用visual studio没有用）
Docker容器网络安全性最佳实践：防止容器间攻击
 LeetCode 第6题：Z字形变换（Python3解法）
原文地址：https://blog.csdn.net/m0_58086930/article/details/127092051