针对语音服务提供厂商的记录（2022-08-16）

1、前言

最近结合项目概要，需要用到录音文件解析服务，所以需要根据现行主流仓上的语音服务进行排比，主要调研的厂商为：①科大讯飞 ②阿里巴巴 ③腾讯 ④微软

2、容量试用方面

分析到底，还是需要一个试用才能知真解，这里提及的试用主要针对为API调用方式。

①科大讯飞： https://www.xfyun.cn/services/lfasr

②微软： https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/#features

③腾讯： https://cloud.tencent.com/product/asr

④阿里： https://ai.aliyun.com/nls/trans

内容标注\厂商	科大讯飞	微软	腾讯/仅新用户	阿里/仅新用户需1元
试用时长（时）	50	5/month	10	30
文件音頻长度	5小时	1GB	5MB/url流不大于512MB	512MB
格式限制	wav、flac、opus、m4a、mp3	wav、pcm及GStreamer压缩过的内容	wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac	wav、mp3、m4a、wma、aac、ogg、amr、flac
音頻	采样率16k或8k、位长8bit或16bit、单声道&多声道	16 KHz 或 8 kHz，16 位，单声道 PCM	采样率16k或8k,单声道&多声道	采样率16k或8k,单声道&多声道
制约因素				免费用户，每天2小时

2.1、参考返回时间

2.1.1、科大讯飞：

基于官网的数据讯息，对应参考地址

音频时长X（分钟）	参考返回时间Y（分钟）
X<10	Y<3
10<=X<30	3<=Y<6
30<=X<60	6<=Y<10
60<=X	10<=Y<20

2.1.2、微软：

基于参考文档，对应地址讯息

并没有给出一个细节内的数据示例，故对应时间为自行测试的大概时间，测试次数大概为40个轮回数据。

音频时长X（分钟）	参考返回时间Y（分钟）
X<1	Y<1
X<8	Y<3

2.1.3、阿里巴巴

普通版：

免费用户的识别任务在24小时内完成并返回识别文本；付费用户的识别任务在3小时内完成并返回识别文本

极速版本：

支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。

媒体类型	普通版	极速版
AAC	√	√
MP3	√	√
OPUS	√	√
WAV	√	√
m4a	√
wma	√
ogg	√
amr	√
flac	√

2.1.4、腾讯

普通版：

3小时内完成识别（大多数情况下1小时音频约3分钟以内完成识别）

极速版本：

支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。

媒体类型	普通版	极速版
wav	√	√
pcm	√	√
ogg-opus	√	√
speex	√	√
silk	√	√
mp3	√	√
m4a	√	√
aac	√	√
flv	√
mp4	√
wma	√
3gp	√
amr	√
flac	√

3、本地化部署支持

厂商	本地化支持
腾讯	支持
阿里	支持
微软	不支持
科大讯飞	支持

相关阅读:
Python+playwright 实现Web UI自动化
响应式布局
【Python实战】全球疫情数据采集, 并做可视化展示
Java零拷贝（一）：从硬件到内核再到源码分析
2023云栖大会议程&体验攻略
垃圾回收机制
公众号的附件怎么上传(如Word、Excel、Pdf等)
用视频设置为视频的背景剪辑的两种效果
再推新品，但华为智慧屏还在等一个契机
pytorch-geometric相关包安装链接

原文地址：https://blog.csdn.net/CoffeeAndIce/article/details/126369173