• 勇立潮头!高品质SFT语音数据实现Zero-Shot语音复刻大模型


    文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音,有不少机构及企业都进行了相关项目的研究,包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)还有Meta今年发布的Voicebox(https://voicebox.metademolab.com/),都是利用大数据、大模型和零样本(zero-shot)合成技术,实现语音合成的音色、韵律、风格的多样性的代表。

    语音TTS已经走向了AIGC大模型模式,利用大规模预训练数据,加上高品质的SFT数据,实现zero-shot的声音复刻正成为越来越火热的技术趋势。同时零样本语音合成在娱乐产业、云平台、通用AI平台及AIGC领域都有广泛的应用场景,包括电影电视配音及解说、有声书、游戏角色配音、虚拟主播、语音导航等。

    在此背景下,晴数智慧前瞻性地推出“高品质语音大模型SFT数据集”,此数据具备48KHz高采样率,采集人数上万,环境纯净,内容自然多样,近万小时,是语音SFT的绝佳数据。

    数据集参数:

    话题分布:涉及休闲娱乐等15个话题

    说话人信息:为保证语音的多样性,此数据集由来自中国各方言地区超3万人参与录制,男女近似比1:1,以中青年为主,地域分布广泛。

    说话人性别分布
    说话人年龄分布
    说话人地域分布

     

    此数据已被数家娱乐产业头部企业运用于AIGC语音合成研发及应用,数据质量经过实践检验。更多数据详情,资讯我们的数据专家。

  • 相关阅读:
    Linux的ssh服务管理
    java 中的Object类与Objects类
    我的sql没问题为什么还是这么慢|MySQL加锁规则
    迁移学习
    基于SpringBoot的在线学生请假管理系统的设计与实现毕业设计源码060935
    WebGL层次模型——多节点模型
    Python大数据之PySpark(五)RDD详解
    [Servlet 4]Bean与DAO设计模式
    【Python3】基础 - 基本数据类型
    二十九、【进阶】MySQL索引的概述和索引查询
  • 原文地址:https://blog.csdn.net/weixin_47718443/article/details/133168866