ICCV 2023 | SynBody：用于三维人体感知和建模的基于分层人体模型的合成数据集

由于虚拟数据提供了低成本获取大规模人体数据集的可能性，因此它已成为3D人体研究中前景广阔的数据来源。

为了提高人体模型的多样性和标注质量，我们提出了一个虚拟合成数据集SynBody，它具备以下三个特点：

1）能够生成涵盖各种样式服装的参数化人体模型；

2）同过分层的人体模型表示形式能够自然地获得高质量的3D标注，为多种训练任务提供支持；

3）提出一个可扩展的数据生成系统，用于生成符合现实世界任务需求的真实数据。该数据集包含了120万张图像以及相应的精确的3D标注，涵盖了1万个人体模型、1187个动作和各种视角。数据集中还包括两个子集，分别用于人体姿势和形状估计以及人体神经渲染。

SynBody上的实验表明，它可以显著提升SMPL和SMPL-X估计的性能。此外，SynBody提供的分层标注为研究HumanNeRF提供了宝贵的数据资源。

论文地址：

https://arxiv.org/abs/2303.1736

项目主页：

https://synbody.github.io/

代码开源：

https://github.com/SynBody/SynBody

工具链：

https://github.com/openxrlab/xrfeitoria

一、动机与背景

3D人体感知和人体重建的研究对大规模、高质量数据的需求日益增大。大规模收集真实人体数据面临隐私问题和大量的时间与金钱投入。因此，探索使用虚拟合成人体数据集成为一个重要的研究方向。

图1. SynBody是基于分层人体模型的大规模虚拟合成数据集，可用于人体感知与建模等任务

基于真实扫描数据构建的人体数据集的合成和构建有三个核心难点。首先，扩展真实数据集中的人体形态、姿势和服装类型十分困难。其次，由于人体模型穿着衣服进行扫描，通过配准得到的3D标注常常带有误差。第三，很难分别得到人体和服装的分层标注。

为解决这些问题，我们提出了一个名为SynBody的合成数据集。该数据集包含120万帧带有对应3D人体标注的图像。它涵盖1万个人体模型、1187个动作和26960个视频片段，带有270万个SMPL/SMPL-X标注。

SynBody的核心是一个分层的参数化人体模型，它自下而上构建了穿着衣服的人体模型。SMPL-X本身是广泛使用的参数化人体模型，能够采样不同体形的人体。但是它本身缺乏建模衣物的能力，只能采样出没穿衣服的人体模型，限制了合成真实人体模型的应用场景。

为弥补这个不足，我们提出基于SMPL-X的分层表示的SMPL-XL参数化人体模型。SMPL-XL在三个方面优化了SMPL-X模型:

1）添加了毛发系统，包含32种发型和13种胡须类型；

2）向SMPL-X体添加了114种服装和配饰，包含服装外套、衬衫、裤子、裙子、鞋子和眼镜等；

3）除增加丰富的几何结构外，SMPL-XL还增加了丰富的皮肤与服装的纹理贴图。

我们设计的SMPL-XL可以自动生成大量高质量带标注的带服装人体模型。通过采样不同体形、衣着样式、发型、配饰和纹理，SynBody生成了1万个带服装的人体模型。利用SMPL-X作为身体模型，使得我们可以得到绝对准确的SMPL-X参数标注。

此外，由于构建过程是将服装附加到人体表面，我们天然可以获得分层的人体与服装的标注信息。

图3. 合成人体数据集中的人体模型质量对比。从左到右：SUREAL, RenderPeople, SMPL-XL

为生成大规模、内容多样且高质量标注的数据集，我们设计可扩展和自动的系统自动化地构建了场景、对图像和标注进行渲染。首先，我们利用大型动作库对1万个带服装的人体模型进行动画重定向。然后设计算法将人体模型放置在场景中而不会穿模。随后在考虑了视角、自遮挡和他遮挡等视觉因素下设置多个相机机位，利用渲染模块将这些资产渲染成图像及对应标注。

通过SynBody，我们开展了两项任务的验证:人体姿态和形状估计以及人体神经渲染（HumanNeRF）。实验结果显示，在相同训练数据下，SynBody比AGORA在人体姿态和形状估计上效果更好。