目录
1.文本的tokenization
1.1 概念和工具的介绍
1.2 中英文分词的方法
2.N-garm表示方法
3.向量化
3.1 one-hot编码
3.2 word embedding
3.3 word embedding API
3.4 数据的形状变化
import jiebatext='受芯片供应不足影响,传闻南北大众汽车近期陷入停产。尽管大众汽车集团(中国)已公开解释,这只是短期的供给紧张,情况没有传闻中严重,已经与总部、相关供应商展开协调工作,但这并未完全打消公众的疑虑。'cuted=jieba.lcut(text)#lcut是直接转换成列表print([cuted[i:i+2] for i in range(len(cuted)-1)])#len(cuted)-1个特征 ==> N-garm中N为2
京公网安备 11010502049817号