陈宝权课题组ECCV 2020入选论文(Spotlight)解读:基于条件生成网络的多模态形状补全

  本文是计算机视觉领域顶级会议 ECCV 2020 入选 spotlight 论文《基于条件生成网络的多模态形状补全(Multimodal Shape Completion via Conditional Generative Adversarial Networks )》的解读。

 

项目主页:https://chriswu1997.github.io/files/multimodal-pc/index.html
论文链接:https://arxiv.org/abs/2003.07717
代码仓库:https://github.com/ChrisWu1997/Multimodal-Shape-Completion

 

  
 

 

01 引言

 

  三维形状的补全,即预测残缺形状缺失部分的几何从而恢复出完整的三维模型,是计算机视觉、图形学领域的基本问题。我们所获得的三维形状经常是不完整的,如用户进行三维设计时的中间产物、扫描时由于遮挡而得到的不完整点云等等,因此形状补全有着很广的应用范围。

 

  尽管目前已有很多工作利用深度学习方法进行形状补全,然而这些方法只能对每个残缺形状输出单个补全结果,完全忽视了缺失部分几何存在的歧义性。如下图所示,左侧的输入完全缺失了椅子的下半部分,此时补全就存在歧义性,即椅子下半部分的具体几何是存在多种可能性的,比如右侧的五个补全结果均是可能且合理的。

 

  因此,我们提出了多模态(multi-modal)形状补全这一问题,即对残缺形状输出多个可能、合理的补全结果。我们通过条件生成式建模(conditional generative modeling),在不需要配对的训练数据情形下,设计了第一个基于点云表示的多模态形状补全的方法。

 

图1. 多模态形状补全

 

02 方法

 

  给定一个残缺形状(partial shape)集合 P,我们试图通过深度神经网络学习一个从 P 到完整形状(complete shape)集合 C 的多模态映射,从而实现多模态补全的目标。值得注意的是,我们的方法只需要一个残缺形状集合和一个完整形状集合作为训练数据,并不需要两者之间有任何的配对样例,这使得我们的方法能够直接应用于真实扫描的数据。

 

  对于这样无配对数据的设定,受到 pcl2pcl [1] 的启发,我们采用在学习到的表达点云的隐空间上进行对抗训练(adversarial training)的方式解决这一问题。同时,我们通过引入一个低维向量 z 作为额外的条件输入,来建模可能的补全结果中出现的多模态。为了实现随机采样,我们期望 z 能够从一个先验分布 p(z) 中采样,本文我们使用了标准高斯分布 N(0, Ι)。

 

图2. 我们多模态形状补全的网络结构

 

  具体来说,我们首先预训练两个自编码器以得到两个表达点云的隐空间:p 表示残缺形状,c 表示完整形状。解决多模态形状补全问题就转化为在条件生成意义下学习一个从 pc 的映射。为此,我们训练一个生成器

 

 

以实现多模态映射,并以低维向量 z 作为条件输入。在缺少配对数据的情况下,我们使用对抗训练来进行形状补全。此外,为了促使生成器 G 使用低维条件输入 z 向量,我们还引入了一个编码器 Ez 来从补全输出中重建 z。实现细节请参见论文。

 

03 实验结果

 

  我们在所构建的具有不同形状缺失形式的三个数据集(PartNet [2], PartNet-Scan, 3D-EPN [3])上展示了定量和定性的结果,并与基准方法以及我们方法的几个变体进行了对比。下图展示了我们方法的多模态形状补全结果,其中灰色点云代表输入,其后五个黄色点云是我们方法的补全结果。由上至下,输入数据来源依次为 PartNet (1-3行),PartNet-Scan(4-6行)和 3D-EPN(7-9行)。与其他方法的对比结果请参见论文。

 

图3. 在三个数据集上的多模态补全结果

 

  为了实现对补全结果更加显式的控制,模态条件输入 z 可以从一个用户指定的参考形状(reference shape)编码得到。如图4所示,这使得我们在所给定的参考形状的指导下进行形状补全。

 

图4. 通过参考形状进行补全,补全结果可随参考形状变化

 

  形状补全问题的歧义性是随着输入不完整程度增大而增大的。因此,随着输入形状的不完整程度的提高,模型应当产生更加多样的补全结果。为此,我们在 PartNet 数据集上通过控制缺失的部件(part)个数,测试了我们的模型。图5展示了我们的补全结果随着不完整程度的增加而更加多样。

 

图5. 随着输入形状的不完整程度的提高,模型产生的补全结果更加多样

 

04 总结

 

  本文提出了多模态(multi-modal)形状补全这一问题,并设计了第一个基于点云表示的多模态形状补全的方法。尽管我们已经展示了补全结果的多样性,显式地编码整体形状的多模态并不是最优的,还有进一步提高的可能性。一个可能的研究方向是探究如何使得引导网络关注形状缺失部分的多模态,从而实现补全结果多样性和可信度之间的平衡。

 

参考文献
[1] Chen, X., Chen, B., Mitra, N.J.: Unpaired point cloud completion on real scans using adversarial training. In ICLR 2020.
[2] Mo, K., Zhu, S., Chang, A.X., Yi, L., Tripathi, S., Guibas, L.J., Su, H.: PartNet: A
large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding. In IEEE CVPR 2019.
[3] Dai, A., Ruizhongtai Qi, C., Nießner, M.: Shape completion using 3d-encoder-predictor cnns and shape synthesis. In CVPR 2017.

 

ECCV

 

       European Conference on Computer Vision (ECCV),即欧洲计算机视觉国际会议,是计算机视觉领域国际顶级会议,与计算机视觉模式识别会议(CVPR)和国际计算机视觉大会(IEEE ICCV)并称计算机视觉方向的三大顶级会议。ECCV每两年召开一次,受新冠疫情影响,ECCV 2020 将于2020年8月23-28日以在线方式举行。