ECCV 2022 Oral | HuMMan：多样化感知与建模的多模态4D人体数据集

人的4D感知与建模是计算机视觉和图像学的基本任务，也有着广泛的应用。随着新传感器与算法的出现，对多样化的数据集的需求也日渐提升。在这个工作中，本文贡献了HuMMan：一个大规模多模态4D人体数据集。HuMMan包含1000个人物，40万段视频，6000万帧数据。

HuMMan有着多个优势：

多模态数据和标注包括彩色图片、点云、关键点、SMPL参数以及带纹理的网格模型；
数据采集方案中部署了移动端设备；
一个500个动作的集合，覆盖了人体基本的动作；
HuMMan支持多种任务如动作识别、姿态估计、参数化人体估计以及带纹理的网格模型重建。

在HuMMan上的实验指出了细粒度的动作识别、动态人体网格模型重建、基于点云的参数化人体估计以及跨设备的域间隙（domain gap），都是非常值得深入研究的问题。

论文链接：

https://arxiv.org/pdf/2204.13686.pdf

项目主页：

https://caizhongang.github.io/projects/HuMMan/

一、硬件搭建

我们为获取高质量深度图专门设计了一个较为紧凑的数据采集设施，使用10部Kinect Azure相机来获取同步的RGB-D帧。另外，我们增加了一部手持扫描仪来获取高精度人体网格（精度可达0.1 mm）。更重要的是，我们额外包括了流行的移动端设备（内置激光雷达），采集了对现实应用非常相关的数据。

二、工具链

我们开发的工具链支持多种数据和标注模态，例如图片、点云、关键点、SMPL参数以及带纹理的网格模型。

其中，我们通过将SMPL配准到高清人体扫描上获取精确的人体形状参数。

对于带纹理的网格模型，我们主要的步骤包括点云去噪与利用深度的纹理重建，从而降低投影误差。

我们提供参数化模型与带纹理的网格模型的动态序列，更多的细节请见我们的论文。

三、动作集

我们从人体解剖学的角度设计了500个动作的动作集，其三个特点为层级式的设计、完备（包括了上半身动作、下半身动作和全身动作）、无歧义（我们的动作定义是依赖于驱动的肌肉，而不是抽象的描述）。

四、人物

五、实验

我们的动作集非常有挑战性。首先，相同的方法在著名的动作识别数据集NTU RGB-D系列上可以获得超过80% Top-1精度。其次，Top-1与Top-5的结果之间因为细粒度的动作类别有较大的差距。这可能是一个有趣的研究方向。

3D人体姿态估计也展示了HuMMan的难度，例如FCN在Human3.6M上能达到53.4mm MPJPE。另外，在HuMMan上训练的模型比在Human3.6M训练的模型可以更好地迁移到舞蹈数据集AIST++上。

对于3D人体姿态与体型估计，使用点云作为输入依然存在很大的问题，尤其当点云存在不全、噪音、稀疏的问题时。

最后，目前的方法也不太能够从一种设备迁移到另一种设备。当点云作为输入时，这个问题变得尤其严重，这可能归结于目前深度相机的性能有较大区别。

六、结语

HuMMan是一个大规模4D人体数据集，包括多模态的数据与标注、移动端数据、丰富的动作集以及多任务支持。目前HuMMan数据集发现的一些有趣的方向，包括但不限于细粒度的动作识别、基于点云的参数化人体估计、动态人体网格序列重建、跨设备迁移、多任务联合训练等。我们希望HuMMan能够助力更好的人体感知与建模的算法的研究。

ECCV 2022 Oral | HuMMan：多样化感知与建模的多模态4D人体数据集

一、硬件搭建

二、工具链

三、动作集

四、人物

五、实验

六、结语

文章来源：公众号【商汤学术】

作者：蔡中昂Illustration by IconScoutstore from IconScout

作者信息

文章信息

上一篇

下一篇