• 语音和噪声相关数据集(持续更新)


    博客地址:https://www.cnblogs.com/LXP-Never/p/15474948.html(转载请注明出处)

    博客作者:凌逆战

    语音数据集

    TIMIT

    官方提供的下载地址:https://catalog.ldc.upenn.edu/LDC93S1

    免费下载地址:https://goo.gl/l0sPwz(420M)

      TIMIT 共包含 6300 个句子,10 个句子由来自美国 8 个主要方言区的 630 位说话人。

    Timit原始数据虽然是以wav结尾的但是格式却不是wav,而是sphere格式,用python中的sphfile库把他转换成wav:

    from sphfile import SPHFile
    import glob
    import os
     
    if __name__ == "__main__":
        path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV'
        sph_files = glob.glob(path)
        print(len(sph_files),"train utterences")
        for i in sph_files:
            sph = SPHFile(i)
            sph.write_wav(filename=i.replace(".WAV","_.wav"))
            os.remove(i)
        path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV'
        sph_files_test = glob.glob(path)
        print(len(sph_files_test),"test utterences")
        for i in sph_files_test:
            sph = SPHFile(i)
            sph.write_wav(filename=i.replace(".WAV","_.wav"))
            os.remove(i)
        print("Completed")
    View Code

    VCTK

    下载地址:传送门(10.94Gb)

      CSTR VCTK 语料库包括 110 位具有各种口音的英语使用者的语音数据。每个发言者读出大约 400 个句子,所有语音数据都是使用相同的录音设置录制的:全向麦克风 (DPA 4035)和一个小振膜电容麦克风,具有非常宽的带宽(Sennheiser MKH 800),96kHz 采样频率,24 位,在爱丁堡大学的半消声室中。所有录音都转换为 16 位,下采样到 48 kHz,并手动设置终点。

    AISHELL-ASR0009-OS1 开源中文语音数据库

    下载地址:传送门(14.51Gb)

      时长178小时,录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。

    AISHELL-2 中文语音数据库

      时长为1000小时,其中718小时来自AISHELL-ASR0009,282小时来自AISHELL-ASR0010。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。

    AISHELL-3 高保真中文语音数据库

      时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。

    AISHELL-WakeUp-1 中英文唤醒词语音数据库

    AISHELL-DMASH 中文普通话麦克风阵列家居场景语音数据库

    AISHELL-4 多通道中文会议语音数据库

    Mozilla Common Voice

    下载地址:https://commonvoice.mozilla.org/zh-CN

    时长:1965小时(目前为止)

    最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。

    Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

    不能保证每个语音都是在消声室内录制,所以语音可能包含噪声

    Tatoeba

    下载地址:传送门

      项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。

    日语数据集

    这个网站收集了很多和日语相关的数据集:语音资源联盟

    JSUT

    下载地址:传送门

    该语料库由日语文本和阅读语音组成。音频数据以48 kHz采样并记录在消声室中。录制了一位说日语的女性的声音。该语料库包含10 小时的语音,由以下数据组成。

    • basic5000 ... 涵盖所有常用汉字的读音和读音
    • utparaphrase512 ... 替换了句子的一部分
    • onomatopoe300 ... 日语拟声词
    • countersuffix26 ... 助数詞
    • loanword128 ... 衍生自外来词的动词和名词(例如,Google)
    • voiceactress100 ...配音演员统计语料库(专业女配音演员免费语料库)
    • travel1000 ... 旅游领域的短语
    • precedent130 ... 判例文
    • repeat500 ...重复演讲(100句* 5次)

    JVS (Japanese versatile speech) corpus

    下载地址:传送门

    该语料库由日语文本(成绩单)和多说话者语音数据组成。

    • 100位专业演讲者,每个演讲者都说:
    • "parallel100" ... 100 种在说话者中常见的阅读风格话语
    • "nonpara30" ... 30 种在说话者之间完全不同的阅读风格话语
    • "whisper10" ... 10 个耳语
    • "falsetto10" ... 10 次假声

    高质量(录音室录音)、高采样率(24 kHz)和大尺寸(30小时)的音频文件,包括有用的标签(例如,性别、F0 范围、说话者相似度、持续时间和音素对齐(自动生成))

    japanese scripted speech corpus - daily use sentence

    下载地址:传送门

    这个开源数据集包含 18 小时的转录日文脚本语音,专注于日常使用的句子,其中包含 37 位发言者贡献的 17,372 条话语。

    气导骨导数据集

    https://github.com/wangmou21/abcs

    https://github.com/elevoctech/ESMB-corpus

    噪声数据集

    noise-92

    下载地址:传送门(250M)

    音频参数:19980Hz;单通道,16位深

    以mat格式存储,可以通过下面的脚本转换到wav格式,所有噪声的持续时间为 235 秒,19.98 KHz 的采样率、具有 16 位的模数转换器 (A/D)、抗混叠滤波器和无预加重级获得。包含15种噪声类型:

    • White noise:白噪声
    • pink noise:粉红噪声
    • volvo:车内噪声
    • babble:餐厅内嘈杂噪声
    • Military vehicle noise:军用车辆噪音
    • Tank noise:坦克内部噪
    • HF channel noise:高频信道噪声
    • Machine gun noise:机枪噪声
    • Factory floor noise:工厂车间噪音
    • F-16 cockpit noise:F16座舱噪声
    • Destroyer engine room noise:驱逐舰机舱噪声
    • Buccaneer: 驾驶舱噪声1

     将mat格式的音频转成wav

    mat_file=dir('./*.mat');
    sr=19980;
    
    for n=1:length(mat_file)
        disp(mat_file(n).name);
        load(mat_file(n).name);
        name = eval(mat_file(n).name(1:end-4));
        % 为了避免写入被截断,需要归一化到(-1,1)
        % 方法1
    %     max_val = max(name);
    %     min_val = min(name);
    %     name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2;
        % 方法2
        name = rescale(name, -1, 1);
        
        audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr);
    end
    View Code

    NOIZEUS数据集

    下载地址NOIZEUS:用于评估语音增强算法的嘈杂语音语料库(噪声和纯净语音对)

    包含30个IEEE 句子(由三名男性和三名女性发言者产生),被不同 SNR 下的八种不同的真实世界噪声破坏。噪音包括郊区火车噪音、杂音、汽车、展览厅、餐厅、街道、机场和火车站噪音。

    DEMAND

    下载地址:传送门(7.4Gb)

    音频参数:48 kHz 和 16 kHz 采样率在一个目录中以 16 个单通道 WAV 文件的形式提供

    16 通道环境噪声记录数据库

      麦克风阵列是几个麦克风的(通常规则的)排列,允许使用许多有趣的信号处理技术。例如,来自彼此相距很近的麦克风的音频信号的相关性可以用于确定声源相对于阵列的空间位置,或基于声音到达阵列的方向隔离或增强信号。

      通常,考虑声学背景噪声的麦克风阵列实验使用受控环境或模拟环境。这种人工设置在噪声源方面通常是稀疏的。其他已经存在的真实世界噪声数据库(例如AURORA-2语料库CHiME背景噪声数据NOISEX-92数据库)往往只提供非常有限的环境多样性,最多只能提供2个通道。

      这里介绍的DEMAND(多元环境多通道声学噪声数据库)提供了一组录音,允许在各种设置下使用真实环境的噪声测试算法。这个版本提供了15个录音。所有录音都使用16通道阵列,麦克风之间的最小距离为5厘米,最大距离为21.8厘米

    PNL 100 Nonspeech Sounds

    下载地址:传送门(~10M)

    音频格式:20kHz采样率,单声道,16位深

    这些非语音、环境声音可以用作评估语音分离系统等的非语音噪声

    复制代码
    Crowd 人群噪音:N1-N17
    Machine 机器噪音:N18-N29
    Alarms 警报和警报器:N30-N43
    Traffic 交通和汽车噪音: N44-N46 
    Animal 动物声音:N47-N55
    water 水声:N56-N69
    Wind 风:N70-N78
    Bell 铃:N79-N82
    Cough 咳嗽:N83-N85
    clap hands 拍手:N86
    Snoring 打鼾:N87
    Click 点击:N88
    lol 笑:N88-N90
    Yawn 打哈欠:N91-N92
    cry 哭:N93
    Shower 淋浴:N94
    Brush your teeth 刷牙:N95
    Footsteps 脚步声:N96-N97
    Door Movement 门移动:N98
    Telephone dialing 电话拨号:N99-N100
    复制代码

    rnnoise_ontributions

    RNNoise提供的捐赠数据集,大部分是一些办公室噪声,下载地址:传送门(6.41G)。

    COUGHVID 众包数据集

    下载地址:传送门 | 主页

    音频格式:

    COUGHVID 用于研究大规模咳嗽分析算法的语料库,咳嗽音频信号分类已成功用于诊断各种呼吸系统疾病,并且人们对利用机器学习 (ML) 提供广泛的 COVID-19 筛查产生了浓厚的兴趣。COUGHVID 数据集提供了超过 30,000 个众包咳嗽记录,代表了广泛的受试者年龄、性别、地理位置和 COVID-19 状态。此外,经验丰富的肺科医生标记了 2,000 多条记录以诊断咳嗽中存在的医学异常,从而贡献了现有最大的专家标记咳嗽数据集之一,可用于大量咳嗽音频分类任务。因此,COUGHVID 数据集为训练 ML 模型以解决世界上最紧迫的健康危机提供了大量的咳嗽记录。

    ESC-50:环境声音分类数据集

    下载地址:https://github.com/karolpiczak/ESC-50(~600MB)

    国内镜像:https://www.heywhale.com/mw/dataset/5ea9337c366f4d002d731d83

    音频参数:44.1kHz;单通道,16位深

      ESC-50数据集是从Freesound.org中剪辑得到的2000份环境音频的标记集合,适用于环境声音分类。该数据集由5秒长的录音组成,组织成5大类,每个大类有10小类(每个小·类有40个示例),

    1. 动物:狗、公鸡、猪、奶牛、青蛙、猫、母鸡、昆虫(飞行)、羊、乌鸦
    2. 自然声音和水声:雨、海浪、噼啪作响的火、蟋蟀、鸟鸣、水滴、风、倒水、冲水马桶、雷雨
    3. 人类的非语音声音:婴儿啼哭、打喷嚏、鼓掌、呼吸、咳嗽、脚步声、笑、刷牙、打鼾、喝酒,啜饮
    4. 室内/家庭声音:敲门声、鼠标点击、键盘打字、门,木头吱吱作响、开罐头、洗衣机、吸尘器、时钟闹钟、时钟滴答声、玻璃破碎
    5. 外部/城市噪声:直升机、电锯、警笛、汽车喇叭、引擎、火车、教堂的钟声、飞机、烟花、手锯
    # -*- coding:utf-8 -*-
    # Author:凌逆战 | Never.Ling
    # Date: 2022/8/8
    """
    对ESC-50数据集,根据噪声类别分类
    """
    import os
    import librosa
    import pandas as pd
    import soundfile
    
    csv_path = "./esc50.csv"
    dataset_path = "G:/dataset/noise_dataset/ESC-50"
    class_basepath = "G:/dataset/noise_dataset/ESC-50/class"
    
    sr = 16000
    trainData = pd.read_csv(csv_path)
    
    for filename, category in zip(trainData["filename"], trainData["category"]):
        noise_path = os.path.join(dataset_path, "audio", filename)
        class_path = os.path.join(class_basepath, category)
        if not os.path.exists(class_path):
            os.makedirs(class_path)
    
        new_path = os.path.join(class_path, "ESC50_" + filename)
        print("new_path", new_path)
        y = librosa.load(noise_path, sr, mono=True)[0]
        soundfile.write(new_path, data=y, samplerate=sr)
    分类脚本

    ESC环境噪音分类数据集

    下载地址:传送门(26.8GB)

    音频参数:44.1kHz,单通道,5 秒长剪辑

    ESC 数据集是一组以统一格式提供的短期环境记录。所有剪辑都从通过项目项目获得的公共Freesound.org中提取

    数据集由三部分组成:

    • ESC-50:一组有 2000 个环境记录(50 个类,每类 40 个剪辑),
    • ESC-10:一组有 400 个环境记录(每类 10 个类,40 个剪辑)(这是 ESC-50 的子集 - 创建初始化,作为概念验证/简单录制的标准化选择),
    • ESC-US:一个未标记的数据集,包含 25 万个环境记录(5 秒长的剪辑),适合无监督的预培训。

    DESED dataset

    主页:Domestic Environment Sound Event Detection Dataset

    下载地址:DESED_syntheticDESED_public_eval

    音频参数:

    DESED 数据集是一个旨在识别家庭环境中的声音事件类别的数据集。 该数据集旨在用于声音事件检测(SED,识别具有时间边界的事件),但它也可用于音频标记(AT,指示音频文件中存在事件)。

    该数据集由 10 个事件类组成,可在 10 秒的音频文件中进行识别。

    闹钟/铃声/铃声,搅拌机,猫,狗,餐具,电动剃须刀/牙刷,油炸,自来水,演讲,吸尘器

    婴儿啼哭数据集

    https://github.com/giulbia/baby_cry_detection(310M)

    https://github.com/gveres/donateacry-corpus(48.2M)

    科大讯飞婴儿啼哭声识别挑战赛(810M)

    风噪数据集

    IKS 风噪数据集:人工产生气流的室内设置和具有真实风噪声的室外场景。

    Wind Noise Dataset:包括人工产生和手机记录的样本。

    YouTube--ASMR noise

    风机噪声合集 (同一wav数据相似度很高)

    割草机声音合集

    割草机噪声:soundjay

    吸尘器噪声合集

    飞机客舱白噪音喷气声音合集

    雨声:睡觉的雨声 - 夜间迷雾森林中的大暴雨和雷声

    酒吧babble:https://www.youtube.com/watch?v=ZSrVznkaMEM

    FSD50K

    下载地址:传送门

    音频格式:

      FSD50K 是一个人类标记声音事件的开放数据集,包含 51,197 个 Freesound 剪辑,总计 108.3 小时的多标签音频,这些剪辑不均等地分布在来自 AudioSet Ontology的 200 个类中。该数据集包含 200 个声音类(144 个叶节点和 56 个中间节点),由AudioSet Ontology的子集分层组织。音频内容主要由物理声源和产生机制产生的声音事件组成,包括人声、物声、动物声、自然声、乐器声等。可以在中检查词汇表 vocabulary.csv (请参阅下面的文件部分)。

    MS-SNSD

    下载地址:传送门

    音频格式:16kHz,单声道,16位深

    冷气机、机场公告、Babble、复印机、咀嚼、邻居、关门、打字、吸尘器

    QUT-NOISE

    下载地址:传送门(7.70Gb)

    音频格式:采样率48kHz;双声道;16位深

    噪声类型:街道、咖啡厅、汽车、家庭、混响、

    freesound-datasets

    下载地址:传送门

    STARSS22:Sony-TAu Realistic Spatial Soundscapes 2022

    下载地址:传送门

    VOICe Dataset

    下载地址:传送门(3.23GB)

    音频格式:44.1kHz;单声道;32位(浮点)位深

    用于开发和评估通用声音事件检测域适应方法的新数据集!

    婴儿哭声
    玻璃破碎
    枪声

    VOICe 由三种不同声音事件的 1449 种不同混合组成:

    • 1242 个混合了三种不同类别的声学场景(“车辆”、“户外”和“室内”)的背景噪声,在 2 个 SNR 值(-3,-9 dB)下混合,即 207 个混合 x 3 个声学场景 x 2 个信噪比 = 1242

    • 207 种没有任何背景噪音的混合物。

    In-Vehicle Noise Dataset

    下载地址:传送门(~2.47GB)

    音频参数:44.1 kHz,16 位,2通道

      这个开源数据集包含来自多个来源的 5.08 小时车内噪声,其中包含 7 条噪声。噪声源可能包括

    轮胎噪声
    发动机噪声
    收音机
    人声

    Vehicle Interior Sound Dataset

    下载地址:传送门VISC Dataset SON(1.2GB)

    音频参数:44.1kHz;双声道;16位深

      使用的数据集是从 YouTube 的不同车辆类型的驾驶视点 (PoV) 收集的。这些只是车内声音。没有司机,也没有人声。5980个声音被记录了8个类。这些车辆在露天的柏油路上行驶。我们不喜欢在雨天在未铺砌的道路上收集车内声音

    这些数据的文件格式是 wav。使用声音的长度在 3-5 秒的范围内,频率为 48 kHz。选择的车辆类型是公共汽车、小巴、皮卡、跑车、吉普车、卡车、跨界车和轿车(汽车)。收集的车辆内部声音 (VIS) 数据集的属性总结在表中。

    复制代码
    Bus(公交车):850个样本
    Minibus(面包车):850个样本
    Pickup(小卡车):850个样本
    Sports Car(跑车):850个样本
    Jeep(吉普车):850个样本
    Truck(卡车):850个样本
    Crossover(转线路):850个样本
    Car (C级 – 4K):850个样本
    total:5980
    复制代码

    MAVD交通数据集

    下载地址:传送门(~1.3G)

    音频参数:44.1kHz,单声道,32位浮点 

      MAVD:城市环境中声音事件检测的数据集,该版本主要关注马路边收集交通噪声,因此得名MAVD-traffic,除了音频记录,它还包括同步视频文件。声音事件注释遵循一个交通声音本体,该本体是一组两种分类的组合:车辆类型(如汽车、公共汽车)和车辆组件(如发动机、刹车),以及一组与之相关的动作(如空转、加速)。

    Dataset-AOB:城市声音事件分类

    下载地址:https://zenodo.org/record/4319802#.YY4s8PlBxjU(~2G)

    音频参数:采样率:22KHz - 44KHz,< 4 秒

    数据集 Dataset-AOB 是使用卷积神经网络为硕士论文收集和手动编辑的城市声音事件分类的音频数据集:

    复制代码
    警报器
    儿童玩耍
    狗吠
    引擎
    脚步声
    玻璃破碎
    枪声
    地铁列车
    下雨和尖叫声
    复制代码

    CHiME-Home

    任务描述:DCASE 2016 Domestic audio tagging

    下载地址:传送门(3.9GB)

    音频格式:音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。

      声学环境中的主要声源是两个成人和两个儿童、电视和电子产品、厨房用具、人类活动产生的脚步声和敲击声,以及来自屋外的声音[Christensen2010]。音频数据以两个采样率(48kHz 和 16kHz)的 4 秒块提供,其中 48kHz 数据为立体声,16kHz 数据为单声道。16kHz 录音是通过对 48kHz 录音的右手通道进行下采样获得的。每个音频文件对应一个块。

    所有可用的音频数据都可用于系统开发,但将使用以 16kHz 采样的单声道音频数据进行评估,目的是接近商用硬件的典型录音能力。

    UrbanSound

    下载地址:传送门(17.9 GB)

    音频格式:44.1kHz;双声道;16位深

    该数据集包含 1302 条带标签的录音。每个录音都标有 10 个类别的声音事件的开始和结束时间。每个录音可能包含多个声音事件,但对于每个文件,仅标记来自单个类的事件。这些类来自城市声音分类

    复制代码
    空调设备 air_conditioner
    汽车喇叭 car_horn
    小孩玩耍 children_playing
    狗吠 dog_bark
    钻孔 drilling
    发动机 enginge_idling
    枪射击 gun_shot
    手提 jackhammer
    汽笛,警报器 siren
    街头音乐 street_music
    复制代码

    UrbanSound8K

    下载地址:传送门(6.60GB)

    音频格式:44.1kHz;双声道;16位深

    该数据集包含来自 10 个类别的城市声音的 8732 个标记声音摘录 (<=4s)。这些类来自城市声音分类

    复制代码
    空调设备 air_conditioner
    汽车喇叭 car_horn
    小孩玩耍 children_playing
    狗吠 dog_bark
    钻孔 drilling
    发动机 enginge_idling
    枪射击 gun_shot
    手提 jackhammer
    汽笛,警报器 siren
    街头音乐 street_music
    复制代码

    SONYC Urban Sound Tagging

    下载地址:传送门 (13.3 GB)

    音频格式:

      SONYC Urban Sound Tagging (SONYC-UST) 是一个数据集,用于开发和评估用于现实城市噪声监测的机器监听系统。城市声音多标签数据集,标签分类如下:

    复制代码
    引擎
      1:小型引擎
      2:中型引擎
      3:大型引擎
      X:引擎大小不确定
    机械冲击
      1:凿岩机
      2:手提钻
      3:锄头
      4:打桩机
      X:其他未知冲击机械
    非机械影响
      1:非机械影响
    电动锯
      1:电锯
      2:中小型旋转锯
      3:大型旋转锯
      X:其他未知电动锯
    警报信号
      1:汽车喇叭
      2:汽车警报
      3:警报器
      4:反向蜂鸣器
      X:其他未知警报信号
    音乐
      1:固定音乐
      2:移动音乐
      3:冰淇淋车
      X:来自不确定来源的音乐
    人声
      1:人或小组谈话
      2:人或小组喊叫
      3:大人群
      4:放大语音
      X:其他未知人声
    狗
      1:狗吠叫
    复制代码

    Isolated urban sound database

    下载地址:传送门(2.3G)

    音频格式:44.1kHz;background: 双声道;event: 单声道;16位深

    数据集包含两个文件夹:

    • 事件:包括 231 个被视为突出的简短声音样本,持续时间为 1 到 20 秒,分为 21 个声音类别(铃声(bell)、鸟鸣(bird)、扫帚(broom)、汽车喇叭(carHorn)、过往汽车(cityCar、roadCar)、建筑工地(constructionSite)、咳嗽(coughing)、吠狗(dog)、警笛(siren)、脚步声(citystep, stepCity, stepPark)、停车发动机空挡噪声(stopCar)、金属噪音(doorbell)、飞机(plane)、关汽车的门(doorCar)、关家里的门(doorHouse)、暴风雨(storm)、街道噪声(streetNoise)、手提箱(suitcase)、火车(train)、电轨(tram)、卡车(truck)、人声(voice)……)
    • 背景:鸟鸣(bird)、建筑工地(construction Site)、人群噪音(crowd)、下雨(rain)、在公园、校园\里玩耍的孩子(park\schoolyard)、持续的交通噪音(traffic)、通风机(ventilation)、风吹树(wind_tree)

    Acoustic Event Dataset

    下载地址:传送门(1.2GB)

    复制代码
    acoustic guitar:原声吉他
    airplane:飞机
    applause:掌声
    bird:鸟
    car:车
    cat:猫
    child:小孩
    church bell:教堂钟声
    crowd:人群
    dog_barking:狗吠
    engine:发送机
    fireworks:烟火
    footstep:脚步
    glass_breaking:玻璃破碎
    hammer:敲击
    helicopter:直升机
    knock:敲,击;碰撞
    laughter:笑
    mouse click:鼠标点击
    ocean surf:海浪
    rustle:沙沙声
    scream:尖叫
    speech:演说,发言,谈话
    squeak:吱吱叫,嘎吱作响
    tone:声调,音调
    violin:小提琴
    water tap:水龙头
    whistle:口哨声
    复制代码

    BBC音效

    下载地址:https://sound-effects.bbcrewind.co.uk/

    可能需要爬虫才能把数据下载下来

    飞机、动物、掌声、气氛、钟声、鸟类、时钟、喜剧、人群、日常生活、破坏、电子产品、活动、火、脚步声、工业、机器、医疗、军事、自然、运动、玩具、交通、

    NAR 数据集

    下载地址:传送门(35MB)

    在 多个真实的家庭环境中录制

    厨房:吃东西、窒息、餐具、装满杯子、打开水龙头、打开/关闭抽屉、移动椅子、打开微波炉、关闭微波炉、微波炉、冰箱、烤面包机
    办公室:关门、开门、钥匙、敲门、撕纸、拉链、(另一个)拉链
    非语言:拍手、拍手、拍舌
    语音:1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What

    asr-noises

    下载地址:传送门(4.7GB)

    这个数据集下载不来了,不知道咋回事

    DCASE

    dataset、mobile dataset、openset 的区别:

    使用四个同时捕获音频的设备进行录音。

    主要录音设备包括Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的Zoom F8录音机。麦克风经过专门设计,看起来像耳机,戴在耳朵里。因此,录制的音频与到达佩戴设备的人的人类听觉系统的声音非常相似。该设备进一步称为设备 A。

    其他设备是常见的客户设备:设备 B 是三星 Galaxy S7,设备 C 是 iPhone SE,设备 D 是 GoPro Hero5 Session。所有同时录制的内容都是时间同步的。

    TAU Urban Acoustic Scenes 2019 开发数据集:仅包含使用设备 A 录制的材料,包含 40 小时的音频,在课程之间保持平衡。数据来自12个城市中的10个。TAU Urban Acoustic Scenes 2019 评估数据集包含来自所有 12 个城市的数据。

    TAU Urban Acoustic Scenes 2019 移动开发数据集:包含使用设备 A、B 和 C 录制的材料。它由使用设备 A 录制的 TAU Urban Acoustic Scenes 2019 数据和使用设备 B 和 C 录制的一些并行音频组成。来自设备的数据A 被重新采样并平均到单个通道中,以与设备 B 和 C 记录的数据的属性保持一致。数据集总共包含 46 小时的音频(40h + 3h + 3h)。TAU Urban Acoustic Scenes 2019 移动评估数据集还包含来自设备 D 的数据。

    TAU Urban Acoustic Scenes 2019 开放集开发数据集:仅包含使用设备 A 记录的材料,由 TAU Urban Acoustic Scenes 2019 和开放分类问题的其他音频示例组成。“开放”数据由TUT Acoustic Scenes 2017 数据集的“海滩”和“办公室”类以及 2019 年记录的其他材料组成。数据集总共包含 46 小时的音频(40 小时 + 6 小时)。TAU Urban Acoustic Scenes 2019 开放集评估数据集包含来自 10 个已知类别和其他未知类别的数据。

    TUT Sound events 2016

    下载地址:

    音频参数:44.1kHz,双声道,24位深

    包含来自两个声学场景的 22 段录音:

    家庭(室内),10 个录音,共 36:16
    住宅区(室外),12个录音,共42:00

    TUT Acoustic scenes 2016

    下载地址:

    音频参数:44.1kHz,双声道,24位深

    由来自 15 个声学场景的 30 秒音频片段组成,每个声学场景有 78 个片段,总共 39 分钟的音频。

    复制代码
    Bus 公共汽车-在城市乘坐公共汽车(车辆)
    Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内)
    Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆)
    City center 市中心(室外)
    Forest path 林间小径(室外)
    Grocery store 杂货店 - 中型杂货店(室内)
    Home  家(室内)
    Lakeside beach 湖滨海滩(室外)
    Library  图书馆(室内)
    Metro station 地铁站(室内)
    Office 办公室 - 多人,典型工作日(室内)
    Residential area 住宅区(室外)
    Train 火车里面(旅行,车辆)
    Tram 有轨电车(旅行,车辆)
    Urban park 城市公园(室外)
    复制代码

    smart cars 2017 test4

    任务描述:DCASE 2017 Large-scale weakly supervised sound event detection for smart cars

    Development: Training (Psswd Training file: DCASE_2017_training_set)

    Development: Testing (Psswd Testing file: DCASE_2017_testing_set)

    Evaluation dataset (863 MB) password "DCASE_2017_evaluation_set"

    音频参数:44.1kHz,单声道,16位深

    复制代码
    鸣笛:
    - 火车喇叭 (441)
    - 气喇叭、卡车喇叭 (407)
    - 汽车防盗器 (273)
    - 倒车提示音 (337)
    - 救护车(警笛) (624)
    - 警车(警笛) (2,399)
    - 消防车、消防车(警笛) (2,399)
    - 民防警报器 (1,506)
    - 尖叫 (744)
    
    车辆声音:
    - 自行车 (2,020)
    - 滑板 (1,617)
    - 汽车 (25,744)
    - 路过的汽车 (3,724)
    - 公共汽车 (3,745)
    - 卡车 (7,090)
    - 摩托车 (3,291)
    - 火车 (2,301)
    复制代码

    TUT Rare sound events 2017

    下载地址:开发数据集 (17.5 GB) | 评估数据集 (7.4 GB)

    音频参数:44.1kHz,单声道,16位深

    包含用于创建稀有声音事件(婴儿哭声、枪声、玻璃破碎等)与背景音频的混合的源文件,以及一组易于生成的mixtures 和用于生成它们的配方。

    数据集的“source”部分由两个子集组成:

    • 来自 15 个不同声学场景的背景录音

    复制代码
    - Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle)
    - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor)
    - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle)
    - City center 市中心(室外outdoor)
    - Forest path 林间小径(室外outdoor)
    - Grocery store 杂货店 - 中型杂货店(室内indoor)
    - Home 家(室内)
    - Lakeside beach 湖滨海滩(室外outdoor)
    - Library 图书馆(室内indoor)
    - Metro station 地铁站(室内indoor)
    - Office 办公室 - 多人,典型工作日(室内indoor)
    - Residential area住宅区(室外outdoor)
    - Train 火车(旅行,车辆)
    - Tram 有轨电车(旅行,车辆)
    - Urban park 城市公园(室外outdoor)
    复制代码
    • 来自三类目标罕见声音事件的录音,并附有它们的时间发生的注释,

    • 一组提供交叉验证设置的元文件:背景和目标事件记录列表分为训练和测试子集(分别称为“devtrain”和“devtest”,表示它们作为开发数据集提供,而不是评估数据集单独发布)。

    mixture set 由两个子集(训练和测试)组成,每个子集包含约 1500 个混合(每个子集中每个目标类约 500 个,其中一半的混合不包含任何目标类事件)。

    TUT Acoustic Scenes 2017

    下载地址:

    • 开发数据集 (10GB) 每个声学场景有312个片段,总计52分钟的音频。
    • 验证数据集 (3.6 GB) 每个声音场景有108段,总共18分钟的音频。

    音频参数:44.1kHz,双声道,24位深

    TUT Acoustic Scenes 2017,开发数据集由来自 15 个声学场景的 10 秒音频片段组成:

    复制代码
    - Bus 公共汽车-在城市乘坐公共汽车(车辆vehicle)
    - Cafe / Restaurant 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内indoor)
    - Car 汽车 - 在城市中驾驶或作为乘客旅行(车辆vehicle)
    - City center 市中心(室外outdoor)
    - Forest path 林间小径(室外outdoor)
    - Grocery store 杂货店 - 中型杂货店(室内indoor)
    - Home 家(室内)
    - Lakeside beach 湖滨海滩(室外outdoor)
    - Library 图书馆(室内indoor)
    - Metro station 地铁站(室内indoor)
    - Office 办公室 - 多人,典型工作日(室内indoor)
    - Residential area住宅区(室外outdoor)
    - Train 火车(旅行,车辆)
    - Tram 有轨电车(旅行,车辆)
    - Urban park 城市公园(室外outdoor)
    复制代码

    TUT Sound events 2017

    描述 DACSE 2017 test3

    下载地址:

    音频参数:44.1kHz,双声道,24位深

    这些录音是在不同的街道上拍摄的。对于每个录制位置,都会捕获 3-5 分钟长的录音。用于录音的设备包括双耳Soundman OKM II Klassik/studio A3驻极体入耳式麦克风和使用 44.1 kHz 采样率和 24 位分辨率的Roland Edirol R-09波形记录器。

    街道包含了(刹车吱吱作响、车、孩子们、大型车辆、说话的人、行走的人)

    没有纯净噪声,只有噪声起止点。

    TUT Urban Acoustic Scenes 2018

    挑战赛地址:DCASE 声学场景分类

    下载地址:

    音频参数:48kHz,双声道,24位深

    仅为开发数据集提供参考标签。评估数据集或排行榜数据集的参考标签将不会发布。数据集由来自 10 个声学场景的 10 秒音频片段组成:

    复制代码
    机场 - airport
    室内购物中心-shopping_mall
    地铁站 - metro_station
    步行街 - street_pedestrian
    公共广场 - public_square
    街道交通 - street_traffic
    乘坐有轨电车 - tram
    公交车上- bus
    乘地铁旅行 - metro
    城市公园- park
    复制代码

    TAU Urban Acoustic Scenes 2019

    挑战赛地址:DCASE 声学场景分类

    下载地址:

    音频参数:48kHz,双声道,24位深

    仅为开发数据集提供参考标签。评估数据集或排行榜数据集的参考标签将不会发布包含来自 10 个声学场景的 10 秒音频片段,每个声学场景有 1440 个片段(240 分钟的音频)。该数据集总共包含 40 小时的音频。

    复制代码
    - 机场 -airport
    - 室内购物中心 - shopping_mall
    - 地铁站 - metro_station
    - 步行街 - street_pedestrian
    - 公共广场 - public_square
    - 街道交通 - street_traffic
    - 乘坐有轨电车 - tram
    - 公交车上- bus
    - 乘地铁旅行 - metro
    - 城市公园- park
    复制代码

    DCASE 2019 Task4

    挑战赛地址:家庭环境中的声音事件检测

    下载地址:

    音频参数:

    该任务的数据集由在家庭环境中录制或合成以模拟家庭环境的 10 秒音频片段组成。该任务侧重于代表Audioset子集的 10 类声音事件(并非所有类都存在于 Audioset 中,一些声音事件类包括来自 Audioset 的几个类):

    复制代码
    演讲 Speech
    狗 Dog
    猫 Cat
    闹铃/响铃/响铃 Alarm_bell_ringing
    菜肴 Dishes
    油炸 Frying
    搅拌机 Blender
    自来水 Running_water
    吸尘器 Vacuum_cleaner
    电动剃须刀/牙刷 Electric_shaver_toothbrush
    复制代码

    TAU Urban Acoustic Scenes 2020 Mobile

    下载地址:

    音频参数:48kHz,双声道,24位深

    仅为开发数据集提供参考标签。评估数据集的参考标签将不会发布。TUT城市声学场景2020移动开发数据集由10个声学场景中的10秒音频片段组成

    复制代码
    机场 - airport
    室内购物中心-shopping_mall
    地铁站 - metro_station
    步行街 - street_pedestrian
    公共广场 - public_square
    街道交通 - street_traffic
    乘坐有轨电车 - tram
    公交车上 - bus
    乘地铁旅行 - metro
    城市公园- park
    复制代码

    TAU Urban Acoustic Scenes 2020 3Class

    下载地址:

    音频参数:48kHz,双声道,24位深

    TAU Urban Acoustic Scenes 2020 3Class 数据集由来自 10 个声学场景的 10 秒音频片段组成,分为以下三大类 :

    复制代码
    - 室内场景——*室内*:
        机场(airport):airport
        室内商场(shopping_mall):indoor shopping mall
        地铁站(metro_station):metro station
    - 户外场景-*户外*:
        步行街(street_pedestrian):pedestrian street
        公共广场(public_square):public square
        中等交通街道(street_traffic,):street with medium level of traffic
        城市公园(park):urban park
    - 交通相关场景-*交通*:
        乘坐公共汽车(bus):travelling by a bus
        乘坐电车(tram):travelling by a tram
        乘坐地铁(metro):travelling by an underground metro
    复制代码

    TAU Urban Audio-Visual Scenes 2021

    挑战赛地址:DCASE 2022 Task1

    下载地址:

    音频参数:1秒;44.1kHz;24位深,

    复制代码
    机场 - airport
    室内购物中心-shopping_mall
    地铁站 - metro_station
    步行街 - street_pedestrian
    公共广场 - public_square
    街道交通 - street_traffic
    乘坐有轨电车 -tram
    公交上 -bus
    乘地铁旅行 -metro
    城市公园-park
    复制代码

    TAU Urban Acoustic Scenes 2021 Mobile

    挑战赛地址:DCASE城市声学场景分类

    下载地址:Evaluation dataset (8.8 GB)

    音频参数:44.1kHz;单声道;24位深

    复制代码
    机场 - airport
    室内购物中心-shopping_mall
    地铁站 - metro_station
    步行街 - street_pedestrian
    公共广场 - public_square
    街道交通 - street_traffic
    乘坐有轨电车 -tram
    公交车上 -bus
    乘地铁旅行 -metro
    城市公园-park
    复制代码

    TAU Urban Acoustic Scenes 2022 Mobile

    下载地址:

    音频参数:44.1kHz;单声道;24位深

      使用四个同时捕获音频的设备进行录音。主要录音设备包括 Soundman OKM II Klassik/studio A3、驻极体双耳麦克风和使用 48kHz 采样率和 24 位分辨率的 Zoom F8 录音机,称为设备 A。其他设备是常用的客户设备:设备B 是三星 Galaxy S7,设备 C 是 iPhone SE,设备 D 是 GoPro Hero5 Session。

      使用设备 A 录制的音频、真实设备录制的脉冲响应和额外的动态范围压缩来模拟 11 台移动设备 S1-S11,以模拟真实的录音。来自设备 A 的录音通过与选定脉冲响应的卷积进行处理,然后使用一组选定的参数进行处理以进行动态范围压缩(特定于设备)。脉冲响应是专有数据,不会公布。

      数据集包含来自 10 个城市和 9 个设备的数据:3 个真实设备(A、B、C)和 6 个模拟设备(S1-S6)。来自设备 B、C 和 S1-S6 的数据由从同时记录中随机选择的片段组成,因此它们都与来自设备 A 的数据重叠,但不一定彼此重叠。开发集中的音频总量为 64 小时。

    复制代码
    机场 - airport
    室内购物中心 - shopping_mall
    地铁站 - metro_station
    步行街 - street_pedestrian
    公共广场 - public_square
    街道交通 - street_traffic
    乘坐有轨电车 - tram
    公交车上- bus
    地铁 - metro
    城市公园- park
    复制代码

    综合数据集 

    综合数据集是 既有语音又有噪声的数据集

    MUSAN

    地址:传送门(11G)

    音乐、语音和噪音的语料库

    FSDnoisy18k

    下载地址:传送门 (9.5 GB)

    FSDnoisy18k 是一个音频数据集,旨在促进对声音事件分类中标签噪声的调查。它包含 20 个声音类别的 42.5 小时音频,包括少量手动标记的数据和大量真实世界的嘈杂数据。

    DS_10283_2791

    用于训练语音增强算法和 TTS 模型的嘈杂语音数据库

    干净和嘈杂的并行语音数据库。该数据库旨在训练和测试以 48kHz 运行的语音增强方法。更详细的描述可以在与数据库相关的论文中找到。对于 28 个说话人数据集,详细信息可参见:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“使用深度循环神经网络的噪声鲁棒文本到语音合成系统的语音增强” “,在过程中。Interspeech 2016。对于 56 位说话者数据集:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,“研究基于 RNN 的语音增强方法以实现抗噪文本到语音”,In Proc. SSW 2016. 用于创建嘈杂语音的一些噪音来自需求数据库,可在此处获得:http://parole.loria.fr/DEMAND/。语音数据库来自 CSTR VCTK 语料库,可在此处获取:https://doi.org/10.7488/ds/1994。用于创建此数据集的语音和 babble 噪声文件可在此处获得:http://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。

    下载地址:传送门(1.342G)

    综合数据集就是啥也有

    DNS-Challenge:https://github.com/microsoft/DNS-Challenge/tree/master/datasets

    Noisy speech database for training speech enhancement algorithms and TTS models

    OpenSLR:https://openslr.org/

     

    参考

    【知乎】语音数据集整理

    【github】open-speech-corpora

    作者:凌逆战
    欢迎任何形式的转载,但请务必注明出处。
    限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。
    本文章不做任何商业用途,仅作为自学所用,文章后面会有参考链接,我可能会复制原作者的话,如果介意,我会修改或者删除。

  • 相关阅读:
    如何分析粉丝兴趣?
    Alibaba Nacos注册中心源码剖析
    LeetCode HOT 100 —— 49.全排列
    【开源微服务项目】论如何在微服务中优雅的实现Redis序列化配置
    ​Pycharm远程连接服务器(Ubuntu版)​
    容斥原理学习笔记
    微生物共现网络可视化:实现布局自由
    linux 系统资源命令
    【图解HTTP】访问用户身份的认证
    怎么给视频加配音?试试这些制作方法吧
  • 原文地址:https://www.cnblogs.com/LXP-Never/p/15474948.html