主页:https://niujinshuchong.github.io/monosdf/
论文:https://arxiv.org/pdf/2206.00665.pdf
Code:https://github.com/autonomousvision/monosdf
效果:

In recent years, neural implicit surface reconstruction methods have become popular for multi-view 3D reconstruction. In contrast to traditional multi-view stereo methods, these approaches tend to produce smoother and more complete reconstructions due to the inductive smoothness bias of neural networks. State-of-the-art neural implicit methods allow for high-quality reconstructions of simple scenes from many input views. Yet, their performance drops significantly for larger and more complex scenes and scenes captured from sparse viewpoints. This is caused primarily by the inherent ambiguity in the RGB reconstruction loss that does not provide enough constraints, in particular in less-observed and textureless areas. Motivated by recent advances in the area of monocular geometry prediction, we systematically explore the utility these cues provide for improving neural implicit surface reconstruction. We demonstrate that depth and normal cues, predicted by general-purpose monocular estimators, significantly improve reconstruction quality and optimization time. Further, we analyse and investigate multiple design choices for representing neural implicit surfaces, ranging from monolithic MLP models over single-grid to multi-resolution grid representations. We observe that geometric monocular priors improve performance both for small-scale single-object as well as large-scale multi-object scenes, independent of the choice of representation.
译文:
近年来,神经隐式曲面重建方法在多视点三维重建中得到了广泛的应用。与传统的多视点立体方法相比,由于神经网络的诱导平滑偏差,这些方法倾向于产生更平滑和更完整的重建。最先进的神经隐式方法允许从许多输入视图高质量地重建简单场景。然而,对于更大和更复杂的场景以及从稀疏视点捕获的场景,它们的性能显著下降。这主要是由RGB重建损失中的固有模糊性引起的,其没有提供足够的约束,特别是在较少观察和无纹理的区域中。受单眼几何预测领域最新进展的启发,我们系统地探索了这些线索为改善神经隐式表面重建提供的效用。我们证明,深度和正常线索,预测通用单目估计器,显着改善重建质量和优化时间。此外,我们分析和研究了多种设计选择来表示神经隐式表面,范围从单网格上的单片MLP模型到多分辨率网格表示。我们观察到,几何单眼先验无论对于小规模的单对象还是大规模的多对象场景都能提高性能,而与表示的选择无关。

我们使用通用预训练网络预测的单目几何线索来指导神经隐式曲面模型的优化。更具体地说,对于一批射线,我们将渲染预测的RGB颜色、深度和法线,并优化关于输入RGB图像和单眼几何线索。进一步,我们研究了神经隐式架构的不同设计选择,并提供了深入的分析。
我们将场景几何体表示为带符号的距离函数(SDF)。带符号距离函数是一个连续函数f,对于给定的3D点,它返回该点到最近曲面的距离:
f
:
R
3
→
R
x
→
s
=
S
D
F
(
x
)
,
(
1
)
f:R^3 \to R \ \ \ \ x\to s=SDF(x),(1)
f:R3→R x→s=SDF(x),(1)
其中,x是3D点,s表示相应的SDF值。在本研究中,我们用可学习参数
θ
\theta
θ对SDF函数进行参数化,并研究用于表示函数的几种不同设计选择:作为可学习SDF值的密集栅格显式、作为单个MLP隐式或使用MLP与单分辨率或多分辨率要素栅格组合的混合。
在最近的工作[49,76,81,82]之后,我们通过使用可微体积渲染的基于图像的重建损失来优化第3.1节中描述的隐式表示。更具体地说,为了渲染像素,我们从摄像机中心投射一个射线r,沿其视线方向穿过该像素。我们沿着射线对M点
x
r
i
=
o
+
t
r
i
v
x_r^i=o+t_r^iv
xri=o+triv进行采样,并预测它们的
S
D
F
s
^
r
i
SDF\ \hat s_r^i
SDF s^ri和颜色值
c
^
r
i
\hat c_r^i
c^ri。我们按照[81]将
s
^
r
i
\hat s_r^i
s^ri的SDF值转换为用于卷渲染的密度值
σ
^
r
i
\hat \sigma_r^i
σ^ri:
σ
β
(
s
)
=
{
1
2
β
exp
(
s
β
)
if
s
≤
0
1
β
(
1
−
1
2
exp
(
−
s
β
)
)
if
s
>
0
,
(
8
)
\sigma_{\beta}(s)=\left\{
其中
β
\beta
β是可学习的参数。根据 NeRF [44],当前光线 r 的颜色
C
^
(
r
)
\hat C (r)
C^(r) 通过数值积分计算:
C
^
(
r
)
=
∑
i
=
1
M
T
r
i
α
r
i
c
^
r
i
T
r
i
=
∏
j
=
1
i
−
1
(
1
−
α
r
j
)
α
r
i
=
1
−
exp
(
−
σ
r
i
δ
r
i
)
,
(
9
)
\hat{C}(\mathbf{r})=\sum_{i=1}^{M} T_{\mathbf{r}}^{i} \alpha_{\mathbf{r}}^{i} \hat{\mathbf{c}}_{\mathbf{r}}^{i} \quad T_{\mathbf{r}}^{i}=\prod_{j=1}^{i-1}\left(1-\alpha_{\mathbf{r}}^{j}\right) \quad \alpha_{\mathbf{r}}^{i}=1-\exp \left(-\sigma_{\mathbf{r}}^{i} \delta_{\mathbf{r}}^{i}\right),(9)
C^(r)=i=1∑MTriαric^riTri=j=1∏i−1(1−αrj)αri=1−exp(−σriδri),(9)
其中
T
r
i
T^i_r
Tri和
α
r
i
\alpha^i_r
αri分别表示沿着射线r的样品点i的透射率和
α
\alpha
α值,并且
δ
r
i
\delta^i_r
δri是相邻样品点之间的距离。 类似地,我们计算与电流射线相交的表面的深度
D
^
(
r
)
\hat D(r)
D^(r)和法线
N
^
(
r
)
\hat N(r)
N^(r)为:
D
^
(
r
)
=
∑
i
=
1
M
T
r
i
α
r
i
t
r
i
N
^
(
r
)
=
∑
i
=
1
M
T
r
i
α
r
i
n
^
r
i
,
(
10
)
\hat{D}(\mathbf{r})=\sum_{i=1}^{M} T_{\mathbf{r}}^{i} \alpha_{\mathbf{r}}^{i} t_{\mathbf{r}}^{i} \quad \hat{N}(\mathbf{r})=\sum_{i=1}^{M} T_{\mathbf{r}}^{i} \alpha_{\mathbf{r}}^{i} \hat{\mathbf{n}}_{\mathbf{r}}^{i},(10)
D^(r)=i=1∑MTriαritriN^(r)=i=1∑MTriαrin^ri,(10)
将体绘制与隐式曲面统一起来会产生令人印象深刻的 3D 重建结果。然而,这种方法很难处理更复杂的场景,尤其是在无纹理和稀疏覆盖区域。为了克服这一限制,我们使用现成的、可高效计算的单眼几何先验,从而改进神经隐式曲面方法。
Reconstruction Loss:
Eikonal Loss:
Depth Consistency Loss:
Normal Consistency Loss:
我们用来与外观网络一起优化我们的隐式表面的总损失是:
L
=
L
rgb
+
λ
1
L
eikonal
+
λ
2
L
depth
+
λ
3
L
nermal
,
(
14
)
\mathcal{L}=\mathcal{L}_{\text {rgb }}+\lambda_{1} \mathcal{L}_{\text {eikonal }}+\lambda_{2} \mathcal{L}_{\text {depth }}+\lambda_{3} \mathcal{L}_{\text {nermal }},(14)
L=Lrgb +λ1Leikonal +λ2Ldepth +λ3Lnermal ,(14)
虽然以前的神经implicit-based重建方法主要集中在singleobject场景与许多输入视图,在这项工作中,我们调查的重要性单眼几何信号扩展到更复杂的场景。因此我们认为:
我们与
该基线示出了如果仅使用单目深度线索而不使用隐式表面模型的重建质量。
对于DTU,我们遵循官方评估协议并报告倒角距离。对于Replica和ScanNet,按照[21,42,53,54,68,92],我们报告了倒角距离、阈值为5cm的F得分以及正态一致性测量。

DTU 数据集上的对象级重建将所有输入视图。将 Chamfer 距离与最先进的方法进行了比较。我们使用 MLP 的方法取得了与以前方法相似的结果,而我们使用多分辨率特征网格的方法导致更详细的表面并且大大优于以前的工作。