又快又准又安全？实时字幕有“芯”秘密！

又快又准又安全？实时字幕有“芯”秘密！
手机是当下人们在移动场景下处理各种事务的“多面手”，对于新一代折叠旗舰小米MIX Fold 2来说，其大屏尤其能在诸多工作场景和生活娱乐中独当一面。

你，是否遇到过这样的情况？
- 刷到感兴趣的英语“生肉”，只能看画面，却听不懂外语
- 利用通勤时间上网课时，地铁人声嘈杂、信号弱，视频声音根本听不清
- 参加需要保密的跨国会议时，由于网络信号被屏蔽，常规的在线实时字幕难以使用……
面对这些常见难题，小米工程师一直在思考，能否通过AI实现实时的同传体验，从而轻松打破语言壁垒？伴随着这一灵感诞生的实时字幕，则提供了又快、又稳、又安全的解决方案。

01

离线方案

高效且安全

基于高通AI引擎的强大算力，实时字幕实现了离线条件下的中英文转写与翻译，能够几乎实时形成双语字幕，成为手机中高效又安全的同声传译助手。小米的实时字幕有何优势呢？

那就要回到技术本身，也是这一功能的最大特点—— “ 离线 ” ，也就是说，无需联网即可在手机端运行。由此，用户在使用中将享受到如下三大便利：
- 隐私保护：语音转文字和翻译的传统方案需要将用户音频上传至云端，小米实时字幕则采用基于设备端的AI技术离线运行，相关音频默认不会离开用户设备，从而保护隐私安全；
- 速度接近实时：相比云端方案，离线实时字幕的语音转写和翻译速度显著提高，听障人士无障碍享受视频与线上交流也更为便利；
- 无网环境也能翻译：尽管大多数情况下均可接入网络，但是移动场景下信号强弱不稳定，而通过离线，无论是地铁、飞机等弱信号环境，都不影响实时字幕的使用。
02

一场火力全开的全“芯”探索

1 从云端转向离线的尝试

小米的实时字幕为什么要做离线？参考传统路径来说，似乎直接沿用已有的云端方案是更简单的道路。然而小米工程师们没有轻易选择，而是指出了云端方案的三个隐患：
- 云端方案需要将用户正在播放的视频或在线会议的声音上传到云端服务器，完成同声传译后再将字幕文字传输到用户手机上，用户担心隐私泄露；
- 云端方案的上传和下载过程依赖网络传输，在消耗流量的同时必然会花费一定时间，因而速度很难做到实时；
- 使用实时字幕的场景持续的时间通常比较长，如果很多用户在同一时间使用，会对服务端形成非常大的并发压力，易引发服务不稳定的情况。
因此，工程师们认为，想要实现性能更好的实时字幕，必然要从方案上另辟蹊径。而随着当前手机芯片的算力越来越强，绕开云端而直接将运算放到手机本地完成成为可能。

2 追求极致平衡，发现“芯”突破口

实时字幕功能运算量巨大，如果单纯地将云端模型迁移到CPU当中，极高的功耗会使得实时字幕根本难以使用。因而，在有限的计算条件下将准确率做到极致，同时在快、准、稳之间形成平衡，是小米工程师面临的最大难题。

但工程师们找到了突破点——高通骁龙8+的第七代AI引擎，它包含一块用于加速神经网络运算的专用处理器，不仅速度快而且功耗低，尤其适合处理需要庞大计算量的语音识别和机器翻译任务。

未充分开发的 “ 第七代AI引擎 ” ，其强大算力不可不谓是一块亟待挖掘的金矿，工程师们认为，极致平衡的最优解或许就在其中。

3 自研语音识别和机器翻译技术的成功落地

离线方案的研发可以说是一次全新的探索，缺乏前人经验参考的自研之路非常艰难。而得力于小米AI实验室算法团队和汽车部MACE团队的通力合作，小米自研语音识别和机器翻译技术最终在高通AI引擎上成功落地。

1/ 模型优化：更快，更准，更稳

实时离线字幕既要快，又要准，还要更小的存储占用，因此工程师们通过知识蒸馏，网络剪枝，数据增强，对抗样本训练，参数共享，有偏解码等技术，实现了延时，质量，存储，功耗，显示稳定等多个目标之间的平衡，也节省了计算开销和能源消耗。

经测试，实时字幕的语音识别和翻译准确率依然达到行业一流水平，且译文显示更稳定。

2/ 落地高通AI引擎：重重限制下的“最优解”

由于高通AI引擎本身硬件性能以及算法模型结构的复杂性，模型精度的损失和速度受限成为最新的困扰和挑战。对于模型，算法团队尝试使用更适合半精度浮点运算的网络结构，以解决高通AI引擎上的半精度浮点溢出问题、推理速度慢以及不定长解码的问题。

MACE作为小米自研的开源端侧机器学习推理框架，在行业内处于领先地位，其在高通平台丰富的经验和资源提高了模型在计算单元间切换的效率。团队对模型的转换和运行做了大量优化，并通过精度校验工具即时发现分析并解决精度损失问题，从而使得在高通AI引擎上不仅可以兼容更为复杂的模型结构，也可以获得更好的性能。在MACE团队的支持下，算法团队顺利完成了模型的落地。

03

未来

值得期待

受到AI模型和芯片结构差异的限制，目前实时字幕仅支持搭载第七代AI引擎的高通骁龙8 +芯片设备，包含小米MIX Fold 2、小米12S系列、Redmi K50至尊版，未来将拓展到更多机型。

很快，实时字幕将支持 “ 背景音识别 ” 功能，不仅能识别视频或会议当中的人声，还能识别“鼓掌”“笑声”等背景声音，自动语种识别、根据语义断句等更多人性化体验也将实现。

“背景音识别”功能示例

实时字幕的诞生来源于小米工程师团队与“极致平衡”这一目标的“死磕”，团队间的协作互助也加速了这一目标的实现。其不仅为低功耗、低延时的前沿AI应用的落地提供了范例，而且也对用户信息安全和隐私保护有着重要的意义。

小米工程师的每次深入探索，都能使技术的革新真正便利用户的生活。相信未来，更值得期待。
相关阅读:
v-if、v-for、列表的过滤与排序、强制绑定class和style、收集表单信息
 2023年第三届纳米材料与纳米技术国际会议(NanoMT 2023)
数据结构---交换排序
 【2-3个月左右录用】物联网、无线通信类、人工智能、传感器、人机交互等领域必投快刊，进展顺利，12月截稿
 SonarQube学习笔记三：直接使用sonar-scanner扫描器
 C语言-写一个简单的Web服务器(二)
【vue设计与实现】挂载和更新 7-更新子节点
 Elasticsearch7.5.2 常用rest api与elasticsearch库
 项目的表单提交，以及页面非常多，该如何处理，开发思路总结
 labelimg标注的VOC格式标签xml文件和yolo格式标签txt文件相互转换
原文地址：https://blog.csdn.net/pengzhouzhou/article/details/126397000

离线方案

高效且安全

一场火力全开的全“芯”探索

未来

值得期待