
论文:AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis
代码:https://github.com/YudongGuo/AD-NeRF
出处:ICCV2021
贡献:
Audio-driven 的说话人合成方法可以看成从 audio 到 visual face 的跨模态的特征映射
之前的很多方法都使用的 GAN,比如利用 3D face 或 2D landmark 作为中间表征,来对声音信号和面部形变作为中间桥梁,进行更简单的建模
但这样也会导致很多信息丢失,可能会让生成的面部形变和原始的声音信号之间缺乏正确的联系,为了避免一些误关联,很多方法只对嘴部建模,保持头部不动。
为了解决现有方法的问题,本文作者提出了基于 NeRF 的方法——AD-NeRF

总体框架如图 1,输入使用的是一个视频序列:
作者使用的是 conditional 神经辐射场来生成 talking heads,使用 audio 作为 condition
NeRF 其实就是一个映射函数,输入声音、3D 空间位置、每个位置的方向,输出该位置的颜色和密度(此处还额外的将每个声音 a 对应的 semantic feature 作为输入,semantic feature 在这里应该就是相邻 16 帧的信号)

Semantic audio feature
为了从声音信号中抽取到更有意义的语义信息,作者使用了 DeepSpeech 模型为每个 20ms 的 audio clip 来预测出 29-d feature code
本文中,连续的 audio feature 会送入时序的卷积网络来提出噪声信号,也就是使用从当前帧左右相邻的 16 帧的声音得到的特征 a ∈ R 16 × 19 a \in R^{16 \times 19} a∈R16×19 来表达当前时刻的声音信号。
使用 F θ F_{\theta} Fθ 得到了颜色和密度后,可以使用体渲染的方法来得到每个位置的颜色和密度
每个 ray r(t) \text{r(t)} r(t) 映射到某个位置上的期望的颜色为:

作者对 head 和 torso 分别进行训练,因为两者的运动方式是不同的。




