通过Eq.(3),我们为BiNI技术做出了两个重要的贡献。首先,我们利用先前从SMPL-X体网格中渲染的粗深度来对BiNI进行正则化,这解决了将前后表面以连贯的方式组合成一个完整身体的关键问题。其次,我们使用轮廓一致性项来鼓励前后轮廓边界处的深度值相同,并在域中计算(如图4所示):该项提高了重建的前后衣深图的物理一致性。

对于没有自我遮挡的简单身体姿势,如FACSMILE和Moduling Humans中所做的那样,可以直接合并前后d-BiNI表面以获得完整的3D服装扫描。然而,通常会导致自咬合现象,从而导致大部分表面缺失。在这种情况下,泊松表面重建(PSR)会产生斑点状伪影。

使用SMPL-X完成PSR

为了解决这个问题,我们采用了一种简单的方法:利用估计的SMPL-X体来填充缺失的表面。我们从SMPL-X中移除前后摄像头可见的三角形,剩下的三角形“汤”包含了侧视图边界和遮挡区域。然后,我们将PSR应用于与d-BiNI曲面{}的并集,得到一个水密重建r。虽然这种方法避免了四肢或侧面的缺失,但由于SMPL-X与实际的衣服或头发之间的差异,它不能为原来缺失的衣服和头发表面产生一致的表面;见图5中的示例。

使用IF-Nets+ ()进行绘画

为了提高重建的一致性,我们使用学习的隐函数(IF)模型来“补绘”给定的前后缺失的几何形状d-BiNI表面。具体来说,我们将通用形状补全方法IF-Nets定制为SMPL-X引导的方法,称为IF-Nets+。IF-Nets从缺乏的3D输入(如不完整的3D人体形状或低分辨率体素网格)完成3D形状。受Li等人[44]的启发,我们在体素化的SMPL-X身体上调节IF-Nets来处理姿态变化。IF-Nets+以体素化的正面和背面地真深度图()和体素化(估计的)的身体网格()作为输入进行训练,并使用地真3D形状进行监督。在训练过程中,为了对遮挡的鲁棒性,我们随机屏蔽数据。在推理过程中,我们将估计的和输入IF-Nets+中以获得占用场,并从中提取入画网格,并使用Marching cubes算法进行绘制。

用 ()完成PSR

为了获得最终的网格R,我们应用PSR来缝合以下三个步骤:(1)d-BiNI表面;(2)来自Rir的侧面和闭塞的三角形汤纹;以及(3)从估计的SMPL-X裁剪的脸或手。这个步骤的必要性源于手/脸重建不佳的情况,详见图6中的差异。该方法表示为。

值得注意的是,尽管已经是一个完整的人体网格,但由于输入的有损体素化和Marching cubes算法的有限分辨率,它在某种程度上平滑了细节,这些细节是通过d-BiNI优化的(见图5中的 vs )。虽然更好地保留了d-BiNI的细节,但侧视图和遮挡部分在泊松步骤中被融合。

在实验方面,作者将ECON与身体不可知论方法(即PIFu和PIFuHD)和身体感知方法(即PaMIR和ICON)进行比较,见表1。为了公平比较,作者使用ICON中的PIFu和PaMIR的重新实现,因为它们具有相同的网络设置和输入数据。ECON的性能与ICON相当,并且在包含偏离分布(OOD)姿势(CAPE)的图像上优于其他方法,距离误差低于1cm。在分发套件(Renderpeople)方面,ECON的表现与PaMIR相当,比PIFuHD要好得多。当涉及到法线测量的高频细节时,在两个数据集上都达到了SOTA的性能。

为评估野外图像上的ECON。测试图像分为三类:“具有挑战性的姿势”、“宽松的衣服”和“时尚图像”。挑战性姿势和宽松服装的例子如图9所示。参与者被要求在基线方法和ECON之间选择他们认为更现实的重建方法。我们在表2中计算了每个基线优于ECON的可能性。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

感知研究的结果证实了表1中的定量评估。对于“具有挑战性的姿势”图像,ECON明显优于PIFuHD,并且优于ICON。对于穿着宽松衣服的人的图像,ECON比ICON更受欢迎和优于PIFuHD。

最后在消融实验里作者将d-BiNI和BiNI,IF-Nets+和IF-Nets进行了比较,实验结果如下表所示:同时作者也比较了比较了IF-Nets+和IF-Nets在遮挡情况下的几何“补绘”,结果如图5所示:

虽然ECON在单图人体三维重建上达到了一个全新的高度,但是从单个图像中恢复SMPL-X体(或类似模型)仍然是一个开放的问题,并没有完全解决。任何故障都可能导致ECON故障,如图8-A和图8-B所示。由于合成数据变得足够逼真,它们与真实数据的领域差距显著缩小,可以预见,这种限制将被消除。ECON的重建质量主要依赖于预测法线图的准确性。较差的法线贴图会导致前后表面过近甚至相交,如图8-C和图8-D所示。

未来的工作方向主要集中在解决上述限制,并探索更多实际应用。目前,ECON(Enhanced Compositional Neural Avatar)仅能重建三维几何形状。然而,通过恢复底层骨骼和皮肤权重,我们可以获得完全可动画的化身。此外,生成后视纹理将产生具有完整纹理的头像。一旦分离出服装、发型或配饰,这些样式将使模拟、合成、编辑和转移变得更加容易。

值得注意的是,ECON的重建功能,以及它下面的SMPL-X体,可以在学习神经化身之前用作3D形状。这为进一步的研究和应用提供了一个强大的工具集。总之,尽管目前存在一些限制,但未来的工作方向将继续努力克服这些问题,并为实际应用提供更多可能性。