简单音视频处理。
学习自:
小破站FFmpeg最强教学丨入门FFmpeg看这一篇就够了丨从入门到放弃系列_哔哩哔哩_bilibili
音视频处理基本都是:采样-处理得到帧队列-编码得到包队列-封装得到文件。
RGB:各占8位,因此一个像素点是24位=3B。比如一个1280*720像素的图像,其大小为1280*720*3 B.
YUV:Y 是亮度,UV 指代颜色。存储格式主要有 444 422 420 三种:
YUV422 每两个 Y 共用一个 UV 分量。YUV420 每4个 Y 共用一个 UV 分量:
YUV444:8:8:8=3B。
YUV422:8:4:4=2B。
YUV420:8:2:2=1.5B。
传输会通过一些压缩方式处理:
码率:kb/s,单位时间内数据流量,和采样率挂钩。
帧率:fps,一秒多少帧。
分辨率:一幅图像包含像素数。
IPB:视频压缩中的压缩算法。I帧体积最大,解压缩的时候不需要参考其他帧仅靠自己就能重构完整图像,可以由编码器选择决定I帧数量;P帧需要向前寻找可以参考的I/P帧来解压缩;B帧则可以向前或向后寻找预测。
计算机用数字信号模拟现实中连续的声音。
采样率:采样频率,每秒采样点个数,如 22KHz。
采样精度:y轴能取到的值数量,精度以位数为单位,如16 bit。
通道:声道。
一定时间长度的音频大小:时长*采样率*采样深度*通道。
比特率:每秒传输数据数,= 采样频率 * 采样精度 * 通道数。
码率: 压缩后的音频数据的比特率。= 音频文件大小/时长。数据越大说明压缩率越低,音质越好。
帧长:1帧的播放时间/压缩后一帧的数据长度。
压缩方式:交错方式,如左右声道 LRLRLR…… 非交错模式,如 LLLL RRRR
压缩技术就是去掉音频中的一些冗余部分,人耳无法识别的来降低数据大小。一方面是人耳真的听不到的,20Hz~20kHz 以外的;另一方面有一些效应影响,比如一个强声音和一个弱声音同时出现,弱声音通常不会被我们听到。这就是掩蔽效应,主要表现为频谱掩蔽效应和时域掩蔽效应。
频谱掩蔽效应:某一个频率上出现了强度很大的声音信号,其周围一定范围频率内的信号如果强度相对小一些,则不容易被听到。
时域掩蔽效应:前掩蔽是出现强信号前的一小段时间内弱信号会被掩蔽;同时掩蔽是强弱信号同时出现的时候弱信号被掩蔽;后掩蔽是强信号小时一段时间内弱信号会被掩蔽.
编码:根据心理声学模型来设置阈值、量化、编码。
视频音频按一定格式算法压缩封装便于播放器播放。比如 MP4 MKV。类似拿着肉馅和皮,包饺子还是包包子。
同步包括:
一般出现B帧的时候两者顺序会不相同。
同步方式:AM 视频同步到音频,VM 音频同步到视频,ECM 两者同步到外部时钟,一般 AM 最多,VM 最不常见。
基于 MPEG 编码标准的 “Fast Forward” 开源多媒体处理程序。
ffmpeg:编码器。
ffplay:播放器。
ffprobe:分析器。
首先,播放器是如何处理音视频数据的?
容器:多媒体文件。
媒体流:时间轴上一段连续数据。
数据帧:编解码的最小单元。
复用器:把视频,音频,字幕流组合起来。
解复用器:按一定规则解开。
avformat_alloc_context()
申请一个AVFormatContext 结构的内存,并进行简单初始化
$ ffmpeg -h # 查看所有提示信息。还可以后跟 full 等。
$ ffplay 视频/音频文件 # 使用 ffplay 开始播放视频/音频。播放时按下 w 键切换播放窗口的显示
$ ffprobe 视频/音频文件 # 使用 ffprobe 分析查看视频/音频具体信息
$ ffmpeg -i 输入文件 预期输出文件 # 转换格式。比如输入文件是 .mp4,期望输出文件是 .mov
改变编码基本是为了调整存储方式节约存储空间;或者牺牲存储空间获得更好的音质画质。
$ ffmpeg -codecs # 查看所有编码方式
几种不同的封装推荐的编码方式(以下几种是 1080p 及以下质量的封装方案):
mp4:h264 + aac。
webm:vp8 + vorbis(youtube 的方案,软硬件支持程度不高但是为了避开专利问题)。
ogg:theora + vorbis(开源)
$ ffmpeg -i in.flac -acodec libmp3lame -ar 44100 -ab 320k -ac 2 out.mp3
# libmp3lame: mp3 的编码器。或者后跟输出文件是.mp3 格式也是一样的效果、
# -ar: 采样率,如果不设置和默认是一样的。一般常用 4800 和 44100
# -ab: 比特率,默认 128k
# -ac: 通道数
$ ffmpeg -i in.webm -s 1920x1080 -pix_fmt yuv420p -vcodec libx264 -preset medium -profile:v high -level:v 4.1 -crf 23 -acodec aac -ar 44100 -ac 2 -b:a 128k out.mp4
# -s: 分辨率大小
# -pix_fmt: 颜色像素空间,可以通过 ffmpeg -pix_fmts 查询。yuv420p 是网络视频常用
# libx264: h264 的软件编码器
# -preset: 编码器预设。精度越高速度越慢体积越小。默认 medium,录制视频一般 veryfast 存储空间换速度,压制视频一般 veryslow
# -profile:v : 画质级别。实时传输常用 baseline,流媒体常用 main,高清视频常用 high。
# -level:v : 压缩视频级别。
# -crf: 恒定速率模式,控制视频质量(不过无法控制具体文件大小)范围0~51,数值越小质量越高。
# -r: 设置帧率。
# 其他和音频的类似, -b:a 和 -ab 一样
转换完成了可以 ffprobe 测一下看看具体数值。
码率控制:有以下三种。-qbp
-crf
-b`.
-qp:恒定量化器,把画质转化为参数。参数范围也是0~51,0 是无损,体积很大。
能有多大?我作死试试。
试完回来了。7.60MB 变成 23MB了。
-crf:降低一些码率,来保证画质变化不大。
-b:固定码率模式,这样固定码率和文件大小。一般对文件大小有严格要求时才使用。
以上三种都是单遍编码,好像就是扫描一遍完成编码。因此 qp crf 最好搭配 veryslow 预设,使得参数控制更精准。
比特率编码方式:
$ ffmpeg -i in.mp4 -vcodec copy -an out.mp4
# vcodec 复制原来的。
# -an 静音,也就是把音频分离出来。
# 同理,-vn 是得到音频。
# 如果有多个音频流,需要选定,比如 -map 0:3 选定 0:3 音频流。
$ ffmpeg -i in.mp4 -i in.m4a copy -c out.mp4
# 如此来合并音视频
$ ffmpeg -i in.mp4 -ss 00:01:00 -to 00:05:00 -vcodec copy out.mp4
$ ffmpeg -i in.mp4 -ss 00:01:00 -t 4 -vcodec copy out.mp4 # 持续时长4s
$ ffmpeg -i in.mp4 -sseof -10 -vcodec copy out.mp4 # 末尾截取10s
$ ffmpeg -ss 00:01:00 -i in.mp4 -to 00:05:00 -vcodec copy out.mp4 # 调换数据,关键帧技术加速处理。但是得到的视频时间不一定准确
$ ffmpeg -ss 00:01:00 -i in.mp4 -to 00:05:00 -vcodec copy -copyts out.mp4 # 保留时间戳,更准确
$ ffmpeg -i "concat:01.mp4|02.mp4|03.mp4" -c copy out.mp4 # 合并视频。不建议合并不同类型数据!
# 可以试试 avidemux,基于 ffmpeg 的另一个开源工具,专用与裁剪合并的。ffmpeg 万能但是底层(就像c语言hh),应用的时候可以多尝试上层技术。
$ ffmpeg -i in.mp4 -ss 00:05:00 -vframes 1 img.jpg # 5s 处截一张图
$ ffmpeg -i in.mp4 -i logo.png -filter_complex "overlay=20:20" out.mp4 # 距离左上角坐标:20 20 的位置添加此图片水印
$ ffmpeg -i in.mp4 -ss 00:01:00 -to 00:05:00 -s 640x320 -r 15 -out.gif # 导出 gif
$ ffmpeg -f gdigrab -i desktop rec.mp4
# gdigrab 是 windows 下的录屏工具。不过显示比较多,我 win11 录制失败了。
# 录屏以及录制摄像头推荐工具: obs studio
# 推流:
ffmpeg -re -i rec.mp4 按照网站要求编码 -f flv "my rtmp address/my live stream code"