• 针对语音服务提供厂商的记录(2022-08-16)


    1、前言

    最近结合项目概要,需要用到录音文件解析服务,所以需要根据现行主流仓上的语音服务进行排比,主要调研的厂商为:①科大讯飞 ②阿里巴巴 ③腾讯 ④微软

    2、容量试用方面

    分析到底,还是需要一个试用才能知真解,这里提及的试用主要针对为API调用方式。

    ①科大讯飞: https://www.xfyun.cn/services/lfasr

    ②微软: https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/#features

    ③腾讯: https://cloud.tencent.com/product/asr

    ④阿里: https://ai.aliyun.com/nls/trans

    内容标注\厂商科大讯飞微软腾讯/仅新用户阿里/仅新用户需1元
    试用时长(时)505/month1030
    文件音頻长度5小时1GB5MB/url流不大于512MB512MB
    格式限制wav、flac、opus、m4a、mp3wav、pcm及GStreamer压缩过的内容wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flacwav、mp3、m4a、wma、aac、ogg、amr、flac
    音頻采样率16k或8k、位长8bit或16bit、单声道&多声道16 KHz 或 8 kHz,16 位,单声道 PCM采样率16k或8k,单声道&多声道采样率16k或8k,单声道&多声道
    制约因素免费用户,每天2小时

    2.1、参考返回时间

    2.1.1、科大讯飞:

    基于官网的数据讯息,对应参考地址

    音频时长X(分钟)参考返回时间Y(分钟)
    X<10Y<3
    10<=X<303<=Y<6
    30<=X<606<=Y<10
    60<=X10<=Y<20

    2.1.2、微软:

    基于参考文档, 对应地址讯息

    并没有给出一个细节内的数据示例,故对应时间为自行测试的大概时间,测试次数大概为40个轮回数据。

    音频时长X(分钟)参考返回时间Y(分钟)
    X<1Y<1
    X<8Y<3

    2.1.3、阿里巴巴

    普通版:

    免费用户的识别任务在24小时内完成并返回识别文本; 付费用户的识别任务在3小时内完成并返回识别文本

    极速版本:

    支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。

    媒体类型普通版极速版
    AAC
    MP3
    OPUS
    WAV
    m4a
    wma
    ogg
    amr
    flac

    2.1.4、腾讯

    普通版:

    3小时内完成识别(大多数情况下1小时音频约3分钟以内完成识别)

    极速版本:

    支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。

    媒体类型普通版极速版
    wav
    pcm
    ogg-opus
    speex
    silk
    mp3
    m4a
    aac
    flv
    mp4
    wma
    3gp
    amr
    flac

    3、本地化部署支持

    厂商本地化支持
    腾讯支持
    阿里支持
    微软不支持
    科大讯飞支持
  • 相关阅读:
    Python+playwright 实现Web UI自动化
    响应式布局
    【Python实战】全球疫情数据采集, 并做可视化展示
    Java零拷贝(一):从硬件到内核再到源码分析
    2023云栖大会议程&体验攻略
    垃圾回收机制
    公众号的附件怎么上传(如Word、Excel、Pdf等)
    用视频设置为视频的背景剪辑的两种效果
    再推新品,但华为智慧屏还在等一个契机
    pytorch-geometric相关包安装链接
  • 原文地址:https://blog.csdn.net/CoffeeAndIce/article/details/126369173