视频会议场景一直被认为是 RTC 最具挑战性的场景,一方面,它对抗弱网、低端机适配、降噪、多人上麦等都有极高的要求,对 Web 端的要求也远高于其他场景;另一方面,有很多孵化自会议场景的技术能力最终都被复制到了其他场景。
为什么说“视频会议”场景对于 RTC 的技术挑战最大?相比于其他行业和场景,“视频会议”中的 RTC 到底独特在哪?
首先,会议场景的需求是更为复杂的,这里举 4 个例子。
在视频会议中,每一个参会方都可以自由选择是否打开自己的麦克风和摄像头,这是视频会议非常基础的功能,但随着参会人数的增加,技术实现会越发复杂。行业内 RTC 一般可以实现五十到上百人的自由开麦,超过了这个人数之后就需要主持人来控制麦位。飞书会议要求我们支持 1000 个参会方,如果 RTC 支持自由上麦的人数低于 1000,飞书会议的用户使用起来就会非常不方便(虽然所有参会人同时开麦的极端情况比较少见,但是业务的需求是希望主持人不要过多“干预”会议——不断地控制参会人上麦、下麦,把发言能力分配给想发言的人)。假设一场会议里有 1000 个参会方,但只有 50 个麦位可以发言,主持人就要把想说话的参会人不停地“挪”到这 50 个麦位之中。为了让主持人知道谁想发言,还需要引入一些沟通机制,整体操作成本非常高。RTC 为什么会限制拥有上麦能力的用户数量?如果不限制可以上麦用户的数量,发布/订阅流模型的算法复杂度就是 O(n^2),即,如果有 1000 人参会,就会产生 100 万 音视频流发布/订阅关系。短时间高频的上下麦操作会造成服务端信令风暴,所以上麦人数才需要加以限制。可是现实中,一些大型会议的规模往往会超过 1000 人,甚至达到几千、上万,我们不该因为技术的限制而牺牲用户的体验。
视频会议一般会提供多种视图布局类型供参会方选择,从 11 全屏,到 22 四宫格,33 九宫格,到 77 四十九宫格……这还只是普通的宫格,还会有一些其他布局,比如演讲者模式、侧边栏模式等。画面布局类型的丰富让每个参会者都可以自己选择自己喜欢的布局,但这样一来,同一个会上,有开四宫格的,有开九宫格的,有开演讲者模式的,视频发布者就需要决策到底发布什么样的分辨率。如果发布的分辨率过大,对于选择多宫格的订阅方来说,分辨率就过剩了,同时还造成了极大的下行带宽和设备性能压力——试想一下,一个订阅方同时拉了 49 路 1080P 的视频,什么样的神仙设备和带宽都扛不住;如果发布的分辨率过小,对于全屏或者演讲者模式这样的大窗口来说,清晰度就会不足,用户体验会受到影响。严格来说,每一种布局都应该有一个最合适的分辨率。在多人会议中,如何在有限的带宽与设备性能下,尽量提供灵活多样的画面布局,是一个很大的挑战。
这个功能大家比较容易理解,它的挑战在于,屏幕共享虽然也是视频流,但是它的视频画面特点和我们摄像头拍摄的视频画面特点是不一样的。简单来说,屏幕共享对画面的要求更清晰,要能看清楚很小的文字,但是对于帧率的要求并不高。对于编码器来说,需要决策什么时候编高帧率的视频,什么时候编低帧率的视频,这是关键。
很多时候,视频会议软件的用户是“临时用户”,比如用视频会议去参加一场面试,或者是合作伙伴用你们公司的会议软件来参加一场会议…这些“临时用户”可能并不希望去安装一个会议 App,用 Web 入会就是一个非常好的选择。但是 Web 对音视频有很多限制,而对视频会议的需求和体验的要求一点都没少,怎么才能把 Web 入会的体验尽量追上 Native 的体验?
除了业务需求更加复杂以外,视频会议场景所面临的环境也更为极端。
过去,开视频会议都是在专业的会议室里开,有很多专业的会议硬件设备来支撑会议体验,环境是相对比较好的。但现在,开会环境早已不限于会议室了,会议环境的多样性让 RTC 面临了很多新的挑战。这几年,疫情让我们居家办公的时间更多了,在家里开视频会议成为了很普遍的场景;一些经常出差的人——他们往往也是会比较多的人——在路上、车上、高铁上甚至飞机上通过手机参加视频会议也非常普遍。
会议环境多样性为 RTC 带来的挑战主要可以分为以下四大类:
首先是极端弱网,俗称“用户网络差”。这种情况非常常见,尤其是不在公司会议室里开会,弱网情况更常见;
其次是弱设备,也就是“设备性能不足”。如果参会设备不是专业视频会议硬件,就会承担更多的性能压力,尤其当参会人开启美颜或者虚拟背景这样高消耗的功能之后,原本可以开会的设备也会出现性能不足。现在在视频会议中使用虚拟背景是一个非常高频的功能,大家看我现在视频的背景就是一个虚拟背景。
再者就是会议场景的噪声类型会更多,除了会议场景常见的键盘声之外,如果你不是在会议室开会,就会伴随各种各样的噪声:空调的声音、开关门的声音、隔壁装修的声音、附近人说话的声音、小孩的哭闹