• 代码解读-自然语言处理


    demo3文本转为向量

    代码

    from tensorflow.keras.preprocessing.text import Tokenizer  # 标记器(每一个词,以我们的数值做映射,)
    
    words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']  # 把这句话中每一个单词,映射成我们的数值
    tokenizer = Tokenizer(num_words=15)  # 上面三句话中,词的总数不超过 15 个(估算的值), num_words 设置单词的数量
    tokenizer.fit_on_texts(words)
    word_index = tokenizer.word_index
    print(word_index, len(word_index))
    # 把文本转化为序列编码
    sequences = tokenizer.texts_to_sequences(words)
    print(sequences)
    # 文本转化为矩阵
    one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')
    # 向量化是构建神经网络的第一步
    print(tokenizer.word_index.keys())
    print(one_hot_matrix, one_hot_matrix.shape)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    解读

    这段代码使用tensorflowkeras库中的Tokenizer类对文本数据进行预处理。让我们逐步解读这段代码:

    1. 导入必要的库
    from tensorflow.keras.preprocessing.text import Tokenizer
    
    • 1

    这行代码导入了Tokenizer类,这是一个用于文本标记化的工具,可以将每个词映射到一个数值。

    1. 定义文本数据
    words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']
    
    • 1

    这里定义了一个包含三个句子的列表。

    1. 初始化标记器
    tokenizer = Tokenizer(num_words=15)
    
    • 1

    这里创建了一个Tokenizer对象,设置了最大的单词数为15。这意味着它只会考虑频率最高的15个单词。

    1. 适应数据
    tokenizer.fit_on_texts(words)
    
    • 1

    这行代码会将定义的句子列表传给标记器,使其学习句子中的单词及其频率。

    1. 获取词到索引的映射
    word_index = tokenizer.word_index
    print(word_index, len(word_index))
    
    • 1
    • 2

    这里获取了每个词及其对应的索引,并打印它们。len(word_index)将显示总共有多少个唯一单词。

    1. 将文本转化为序列编码
    sequences = tokenizer.texts_to_sequences(words)
    print(sequences)
    
    • 1
    • 2

    此行代码将原始句子转化为整数序列,每个整数对应句子中的一个单词。例如,如果“LaoWang”对应的索引是1,则“LaoWang”在序列中将被替换为1。

    1. 文本转化为矩阵
    one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')
    
    • 1

    这行代码将句子转换为二进制矩阵。如果一个词在句子中,那么它的位置为1,否则为0。

    1. 显示单词和矩阵
    print(tokenizer.word_index.keys())
    print(one_hot_matrix, one_hot_matrix.shape)
    
    • 1
    • 2

    这两行代码首先打印出所有的单词,然后打印出转化后的二进制矩阵以及它的形状。

    综上所述,这段代码的主要目的是展示如何使用Tokenizer进行文本的预处理,从而为后续的神经网络模型做准备。

    给出每一步的输出

    在每行代码的末尾添加注释,以描述其执行后的结果。

    from tensorflow.keras.preprocessing.text import Tokenizer
    
    words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']  # words = ['LaoWang has a Wechat account.', 'He is not a nice person.', 'Be careful.']
    
    tokenizer = Tokenizer(num_words=15)  # 初始化了一个 Tokenizer 对象
    
    tokenizer.fit_on_texts(words)  # 这里没有直接的输出,它只是让 tokenizer 学习 words 的内容
    
    word_index = tokenizer.word_index  
    print(word_index, len(word_index))  # 输出 word_index 的内容和它的长度, 例如: {'laowang': 1, 'has': 2,...} 12
    
    sequences = tokenizer.texts_to_sequences(words)
    print(sequences)  # 输出 sequences, 例如: [[1, 2, 3, 4, 5], [6, 7, 8, 3, 9, 10], [11, 12]]
    
    one_hot_matrix = tokenizer.texts_to_matrix(words, mode='binary')
    # 没有直接的输出,但 one_hot_matrix 会变成一个二进制矩阵
    
    print(tokenizer.word_index.keys())  # 输出 word_index 的所有键,例如: dict_keys(['laowang', 'has',...])
    print(one_hot_matrix, one_hot_matrix.shape)  # 输出 one_hot_matrix 的内容和形状, 例如: [[0., 1., 1., ...], ...] (3, 15)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    注意:以上的输出值示例(例如:'laowang': 1, 'has': 2,...)是基于输入数据而给出的假设。实际的输出可能会根据具体的输入数据和Tokenizer的实现方式而有所不同。

  • 相关阅读:
    【PAT甲级 - C++题解】1049 Counting Ones
    ChatGPT专业术语及有效使用方法概述
    基于jeecgboot-vue3的Flowable流程-待办任务(二)
    flink-1.14.4启动报错setPreferCheckpointForRecovery(Z)v
    机器学习分类模型评价指标之混淆矩阵
    泰克示波器控制scpi,程序读取波形数据并显示
    探索Java世界中的七大排序算法(上)
    全部的正则匹配
    maven的pom.xml文件爆红,并且刷新maven无法下载依赖的解决方案
    【Java多线程】ThreadLocal内存泄露问题
  • 原文地址:https://blog.csdn.net/weixin_46713695/article/details/133997974