• 语音识别中输入输出的可能形式有哪些


    序,语音信号的前处理

    • 1,语音数据如何转化为features?

    拿到10ms的语音数据后,常会利用一定大小的window将语音数据 切分成 若干份(在语音识别中,由window生成的一份语音片段被称为frame),每份语音片段在 通过 特定的数据转换方式(如:MFCC) 转成 feature,最后 在所有这些转化后的features拼接起来 作为 最终输入model 的 input。
    需要注意的是,window在移动时,其移动步长常小于 length of window,因此,有window切分的语音片段,其信息大量冗余,这也在一定程度上 加快了数据的处理速度。

    • 2,语音数据的标注方法

    给定一个语音片段,直接将其内容转为文本信息,据此,获得一个 train sample。

    一,语音识别模型的 输入 类型

    1,直接将语音信号转为数值 作为 model 的 feature 输入模型
    2,在 deeplearning 流行以前,常将 MFCC 作为 model 的 feature 输入模型,其dimension为39
    3,deeplearning 得到极大发展以后,常将 filter bank output 作为 model 的 feature 输入模型,其dimension为80
    在这里插入图片描述

    由原始语音信号 到 filter bank 到 最复杂的feature MFCC 的转化 过程如下:
    在这里插入图片描述

    二,语音识别模型的输出 类型

    • 1,Phoneme:a unit of sound , 比 英文英标还要小的单位

    使用Phoneme作为output,需要额外建立一个 词典,将 word 和 phoneme 对应起来,从而能根据 输出的 Phonemes 得到 对应的 word。
    值得一提的是,phoneme 需要语言学的知识,phoneme词典 并没有统一的规定,因此,不同的学者 产生的 词典 不一,在使用过程中难以统一。

    • 2,Grapheme:smallest unit of a writing system

    以英文为例,其组成单元为:26个英文字母,空格,标点符号。以中文为例,其组成单元为 方块字。
    Grapheme存在的一个问题是:同音不同字,以英文为例,发音为/k/的字母 可能为 c 也可能 为 k,需要model 有很强的辨识能力才能准确辩时出来。
    其优点在于,grapheme无需创建词典,只需将output串起来 即可得到 词。

    • 3,word

    对于英文来讲,由于不同的词之间会以空格分开,因此,分词很easy,但是,在外文中,word是可以被创造的,这也意味着 vocabulary 可能需要无限延长。
    对于中文来讲,词之间没有明显的分割标志,outputs 还需 近一些 分词工具 才能得到 分词结果。

    • 4,Morpheme:the smallest meaningful unit,在英文里,grapheme < morpheme

    举例说明:
    unbreakable 可以由3个morpheme组成:un , break, able
    rekillable 可以由3个morpheme组成:re, kill, able
    Morpheme可以通过2种方式获得:
    1)由 语言学家 给出;
    2)通过 统计的方式,将那些高频出现的 pattern 作为 morpheme,但是,这种结果搜集的morpheme势必会含有一些噪音。

    • 5,Bytes:可以使用 bytes作为输出,最后将所有bytes串起来,对应到相应的vocabulary 去转为 word。

    由于在计算机中,无论是 中文,英文,还是其他外文,都对应着 一串 bytes sequence(utf8),采用这种形式训练模型,可以实现真正的 language independent!
    在这里插入图片描述


    在2019年时,上述output使用情况如下表所示:

    三,语音数据集

    在这里插入图片描述

  • 相关阅读:
    Pyecharts实现水球图的说明
    App备案-iOS云管理式证书 Distribution Managed 公钥及证书SHA-1指纹的获取方法
    前端经典面试题 | 性能优化之图片优化
    SpringBoot启动项目报错 Consider defining a bean of type ‘xxx‘ in your configuration
    聚观早报|蔚来汽车首颗自研芯片;中式汉堡正打破“麦门永存”
    R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化...
    maven的root问题
    B. Comparison String
    HSV空间改进的多尺度Retinex算法
    纯css实现奥运五环、3D平移、旋转、扭曲
  • 原文地址:https://blog.csdn.net/u014765410/article/details/126473278