最近结合项目概要,需要用到录音文件解析服务,所以需要根据现行主流仓上的语音服务进行排比,主要调研的厂商为:①科大讯飞 ②阿里巴巴 ③腾讯 ④微软
分析到底,还是需要一个试用才能知真解,这里提及的试用主要针对为API调用方式。
①科大讯飞: https://www.xfyun.cn/services/lfasr
②微软: https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/#features
③腾讯: https://cloud.tencent.com/product/asr
④阿里: https://ai.aliyun.com/nls/trans
| 内容标注\厂商 | 科大讯飞 | 微软 | 腾讯/仅新用户 | 阿里/仅新用户需1元 |
|---|---|---|---|---|
| 试用时长(时) | 50 | 5/month | 10 | 30 |
| 文件音頻长度 | 5小时 | 1GB | 5MB/url流不大于512MB | 512MB |
| 格式限制 | wav、flac、opus、m4a、mp3 | wav、pcm及GStreamer压缩过的内容 | wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac | wav、mp3、m4a、wma、aac、ogg、amr、flac |
| 音頻 | 采样率16k或8k、位长8bit或16bit、单声道&多声道 | 16 KHz 或 8 kHz,16 位,单声道 PCM | 采样率16k或8k,单声道&多声道 | 采样率16k或8k,单声道&多声道 |
| 制约因素 | 免费用户,每天2小时 |
基于官网的数据讯息,对应参考地址
| 音频时长X(分钟) | 参考返回时间Y(分钟) |
|---|---|
| X<10 | Y<3 |
| 10<=X<30 | 3<=Y<6 |
| 30<=X<60 | 6<=Y<10 |
| 60<=X | 10<=Y<20 |
基于参考文档, 对应地址讯息
并没有给出一个细节内的数据示例,故对应时间为自行测试的大概时间,测试次数大概为40个轮回数据。
| 音频时长X(分钟) | 参考返回时间Y(分钟) |
|---|---|
| X<1 | Y<1 |
| X<8 | Y<3 |
普通版:
免费用户的识别任务在24小时内完成并返回识别文本; 付费用户的识别任务在3小时内完成并返回识别文本
极速版本:
支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。
| 媒体类型 | 普通版 | 极速版 |
|---|---|---|
| AAC | √ | √ |
| MP3 | √ | √ |
| OPUS | √ | √ |
| WAV | √ | √ |
| m4a | √ | |
| wma | √ | |
| ogg | √ | |
| amr | √ | |
| flac | √ |
普通版:
3小时内完成识别(大多数情况下1小时音频约3分钟以内完成识别)
极速版本:
支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。
| 媒体类型 | 普通版 | 极速版 |
|---|---|---|
| wav | √ | √ |
| pcm | √ | √ |
| ogg-opus | √ | √ |
| speex | √ | √ |
| silk | √ | √ |
| mp3 | √ | √ |
| m4a | √ | √ |
| aac | √ | √ |
| flv | √ | |
| mp4 | √ | |
| wma | √ | |
| 3gp | √ | |
| amr | √ | |
| flac | √ |
| 厂商 | 本地化支持 |
|---|---|
| 腾讯 | 支持 |
| 阿里 | 支持 |
| 微软 | 不支持 |
| 科大讯飞 | 支持 |