ICCV 2023 | 全身交互三维重建：从椅子谈起

该研究的目标是复杂人-物交互理解的问题，文章提出了利用全身交互三维先验进行细粒度人-物体交互理解与重建的算法，并展示了下游视觉相关任务的应用；文章同时提出了基于大量人与带自由度的铰接物体交互片段的交互先验，并提供了精细的三维姿态和结构标注的真实数据，填补了三维视觉领域在全身复杂交互方法的空白，为可供性、具身智能等算法的研究与落地奠定了基础。

论文题目：

Full-Body Articulated Human-Object Interaction

论文链接：

https://jnnan.github.io/project/chairs/

一、概述

人-物交互理解[1，2]在计算机视觉与机器人领域有重要的意义，让人工智能算法理解三维空间下复杂的人与物体交互一直是研究者们追求的目标。然而，要达成这项目标目前还有诸多挑战。

首先，学术界缺少一个包含全身参与的人与复杂物体交互的数据。现有的数据大多限制在与刚体的交互[3，4]，或是仅关注某个特定的身体部位。其次，真实环境下的物体结构复杂，难以用一个单一的模板来描述。近期的工作开始研究带自由度的物体[5]进行研究，但仍仅限于一个可动部件，缺少复杂的结构和运动方式。第三，对人与物体之间关系的建模也是现阶段的一大挑战[6]。以人与椅子的交互为例，当身体向后靠时，椅子靠背会产生旋转。类似的这种现象里面包含了复杂的人与物体间三维结构相关性。上述几大挑战并非不可实现，但根本问题均指向了研究数据的缺失。

为此，本文基于大量的真实交互案例，包含总长为17.3小时的人与复杂物体交互的片段、46位不同的拍摄人员、81把形状结构不同的椅子、沙发和板凳等交互物体等；提供了精细的人体和物体的三维形状信息标注，同时附带多视角RGB和深度的拍摄原始数据信息，以及匹配校准后的点云数据。基于CHAIRS数据集，本文针对人-物交互理解的任务，提出了使用cVAE模型训练的人-物交互先验来指引物体部件重建和姿态优化的过程，实现带自由度关节参数的准确估计和人体-物体联合三维重建。

蒋楠表示，这项研究是从硬件搭建，到数据采集，再到方法构建的一套全栈流程，是一个有难度的、参考资料较少且工作量较大的任务。之所以选择这项工作，蒋楠一方面是看到它未来在残疾人协助，居家机器人、游戏、影视等领域的应用潜能；另一方面是希望通过这项有挑战性的任务全面提升自己的科研能力。

黄思远研究员回忆，在收集数据的准备过程中，由于实验室改造尚未完成，不得不在临时搭建的房间奋斗。从12月到来年3月，蒋楠与合作者们调节软硬件设备，自己同时身兼动作捕捉模特与程序员，从自己身上获取一手数据。他常常穿着羽绒服敲代码，20分钟手就冻僵了，就把手缩回袖子中思考一会儿，等手指可以活动了再继续敲代码。等到投稿时，已然春暖花开。

二、物体重建

本文主要解决了从单张图片中重建人-物交互的问题。其中人体用SMPL-X参数来表示。用每个部件的6D位姿表示物体的每个部分（给物体定模型）或直接对物体进行三维重建（不给物体定模型）。物体重建模型以图片和估计的人体姿态为输入，首先提取图片特征以及人体在不同尺度下的体素，接着将图片特征输入至三维反卷积网络，并将每层的三维特征拼接人体体素信息，最终可得到空间中的点被物体占有的概率分布。

三、人体交互先验

细粒度关系的建模对人-物交互的理解有重要价值。本文提出基于cVAE的交互先验模型，从大量CHAIRS的交互数据中学习了在给定人体姿态下的物体三维空间分布。交互先验模型以体素化的人体为输入，输出周边空间内每个点被占有情况的联合概率分布。这种建模方式可以在已估计出人体姿态的情况下，得出最有可能的物体形状，以此来对物体姿态估计提供必要的指引。

四、交互片段采集

实验环境设置：所有片段都在一个装有惯性-光学混合动作捕捉系统的区域中采集，所有动作对摄像头完全可见。周边设置了四个面向人物的多视角Kinect Azure DK相机，经过了精确校准和同步，以获取RGB-D信息以及点云。

物体姿态的收集：首先，将物体排列到其初始的姿态，并将混合追踪器附着到其每个可移动部分。在记录交互的过程中，根据追踪器的姿态实时计算每个物体部分的基准6D姿态。最后，将刚性部分拟合到物体的运动结构以获得高质量的物体姿态。

人体姿态和形状的收集：我们采用SMPL-X表示法来表示人体姿态和形状。参与者在录制过程中穿上带有17个IMU、一双手套和5个安装在头、手和脚上的混合追踪器的动作捕捉套装。交互过程中优化人体模型的形状参数，使得重构的SMPL-X网格与混合追踪器的位置对齐。动作捕捉系统在记录过程中实时产生人体姿态和形状的估计。

五、实验结果

为全方位对本文提出方法的效果进行评估，作者使用CHAIRS数据集以及网络中包含人和椅子的图片测试了人-物交互重建。实验结果显示，不论是否给定物体的三维模型，本文提出的方法均能基于单张图片重建出合理的人体和物体的交互姿态。

研究背后的故事

我们采访了论文第一作者蒋楠，让我们跟随他走进顶会论文背后的故事。

Q：在进行这项研究的过程中遇到最大的困难和挑战是什么？

A：首先是当时理解人与动态物体交互的既有研究非常少，方法设计难以开展，需要探索大量的可能性。其次是我们进行动作采集的过程涉及多位采集人员，因此需要大量的沟通、交流和高效的工作流程。第三是还有就是投稿过程也不太顺利，投稿之前我们都感觉工作量很大所以肯定能中，但前两次reviewer都没有买账。所以我们确实得花时间证明工作的意义，做科研并不是谁工作量大就更有价值。

Q：你认为在这一领域做科研最重要的特质是什么？

A：我认为是想象力，要天马行空、要敢想，不能说别人做过了、验证成功了自己才做，要做“挖坑的人”而不是“填坑的人”；要有敏锐的感受力和判断力，这种判断力来自于对这一领域的了解，来自于跟不同的人交流。

Q：在这项研究中你最大的收获是什么？

A：积累了很多宝贵的经验。这个项目中我是主要负责人，工作中涉及很多交流沟通的内容，我的合作能力和领导力得到了提升；此外在项目中积累的收集数据、解决问题等方面的经验也能应用到我新的工作中。

References

[1] Zhu Y, Jiang C, Zhao Y, et al. Inferring forces and learning human utilities from videos. In Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[2] Chen Y, Huang S, Yuan T, et al. Holistic++ scene understanding: Single-view 3d holistic scene parsing and human pose estimation with human-object interaction and physical commonsense. In International Conference on Computer Vision (ICCV), 2019.

[3] Taheri O, Ghorbani N, Black M J, et al. GRAB: A dataset of whole-body human grasping of objects. In European Conference on Computer Vision (ECCV), 2020.

[4] Bhatnagar B L, Xie X, Petrov I A, et al. Behave: Dataset and method for tracking human object interactions. In Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

[5] Fan Z, Taheri O, Tzionas D, et al. ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation. In Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

[6] Zhang J Y, Pepose S, Joo H, et al. Perceiving 3d human-object spatial arrangements from a single image in the wild. In European Conference on Computer Vision (ECCV), 2020.

Illustration From IconScout By Delesign Graphics