音频和视频都是单独以一条流的形式存在,互不干扰。那么在播放时根据视频的帧率(Frame Rate)和音频的采样率(Sample Rate)通过简单的计算得到其在某一Frame(Sample)的播放时间分别播放,理论上应该是同步的。但是由于机器运行速度,解码效率等等因素影响,很有可能出现音频和视频不同步,例如出现视频中人在说话,却只能看到人物嘴动却没有声音,非常影响用户观看体验。
目前主要有三种方式实现同步:
(1)将视频和音频同步外部的时钟上,选择一个外部时钟为基准,视频和音频的播放速度都以该时钟为标准。
(2)将音频同步到视频上,就是以视频的播放速度为基准来同步音频。
(3)将视频同步到音频上,就是以音频的播放速度为基准来同步视频。
比较主流的是第三种,将视频同步到音频上。至于为什么不使用前两种,因为一般来说,人对于声音的敏感度更高,如果频繁地去调整音频会产生杂音让人感觉到刺耳不舒服,而人对图像的敏感度就低很多了,所以一般都会采用第三种方式。
处理步骤:
(1)音频帧正常顺序播放,音频播放时间作为基准时钟
(2)视频帧在解码后,根据基准时钟来调整当前处理:
♦️ 视频帧PTS >基准时钟:根据时间差异计算视频帧显示延时
♦️ 视频帧PTS< 基准时钟< 下一GOP点:丢弃当前帧,直接依次解码后续帧
♦️ 视频帧PTS<下一GOP点<基准时钟:直接调整到下一GOP开始,依次解码
PTS:Presentation Time Stamp,显示渲染用的时间戳,告诉我们什么时候需要显示
DTS:Decode Time Stamp,视频解码时的时间戳,告诉我们什么时候需要解码
在音频中PTS和DTS一般相同。但是在视频中,由于B帧的存在,PTS和DTS可能会不同
音视频同步分析-基于ffplay - 知乎
FFmpeg音视频同步_CindyWangry的博客-CSDN博客_ffmpeg音画同步
音视频同步原理 - 知乎