一、前言
在当今的计算机视觉 和人体建模领域,随着虚拟现实、动画、游戏以及医疗等应用的快速发展,如何精确地捕捉和重建人体形状和姿态成为一个重要课题。本篇博客将深入探讨几种主流的人体建模方法,包括SMPL、SMPLX、STAR等。这些模型为生成逼真的人体动画和实现高效的人体姿态分析提供了强大的工具支持,从而推动了相关技术的前沿进展。通过对这些模型的比较与研究,我们可以更好地理解其背后的技术逻辑与应用潜力。
二、主要内容
SMPL A Skinned Multi-Person Linear Model
文献内容:
文献信息:
标题: SMPL:一种皮肤多人员线性模型作者: Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; Industrial Light and Magic, San Francisco, CA关键词: 人体形状,皮肤绑定,混合形状,软组织。
SMPLX
Expressive Body Capture 3D Hands, Face, and Body from a Single Image SMPL-X
文献内容:
文献信息:
标题: 从单张图像中捕获表达性人体:3D手部、面部和身体作者: Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A.A. Osman, Dimitrios Tzionas, Michael J. Black所属机构: MPI for Intelligent Systems, Tübingen, DE; University of Pennsylvania, PA, USA关键词: 3D人体姿态估计, 手部姿态估计, 面部表情建模, 单目图像, SMPL-X模型, SMPLify-X方法文献链接: SMPL-X
STAR
STAR: Sparse Trained Articulated Human Body Regressor ### 文献内容:
文献信息:
标题: STAR:稀疏训练的人体关节回归器作者: Ahmed A.A.Osman, Timo Bolkart, Michael J.Black所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany关键词: 3D人体姿态估计,稀疏模型,姿态校正,形状参数化,SMPL模型DOI: arXiv:2008.08535v1文献链接: STAR
SCAPE
SCAPE: Shape Completion and Animation of People
文献内容:
文献信息:
标题: 人体形状完成与动画(SCAPE: Shape Completion and Animation of People)作者: Dragomir Anguelov, Praveen Srinivasan, Daphne Koller, Sebastian Thrun, Jim Rodgers, Stanford University; James Davis, University of California, Santa Cruz所属机构: Stanford University, University of California, Santa Cruz关键词: 合成演员,变形,动画,形态变化
BfSNet
Towards Accurate 3D Human Body Reconstruction from Silhouettes
3. 文献内容:
SMPLR
SMPLR: Deep SMPL reverse for 3D human pose and shape recovery
文献内容:
文献信息:
标题: SMPLR: Deep SMPL Reverse for 3D Human Pose and Shape Recovery作者: Meysam Madadi, Hugo Bertiche, Sergio Escalera所属机构: Computer Vision Center, EdificiO, Campus UAB, 08193 Bellaterra (Barcelona), Catalonia, Spain; Dept. Mathematics and Informatics, Universitat de Barcelona, Catalonia, Spain关键词: 3D Human Pose Estimation, SMPL, Deep Learning, Autoencoder, Denoising Autoencoder, CNN, 3D Shape Recovery其他信息: arXiv:1812.10766v2 [cs.CV]
3D body scan anthropometric measurement
Anthropometric clothing measurements from 3D body scans
文献内容:
文献信息:
标题: 从3D身体扫描获取人体测量学测量作者: Song Yan, Johan Wirta, Joni-Kristian Kämäräinen所属机构: Tampere University, NOMO Technologies Ltd关键词: 人体测量学测量、3D身体模型、非刚性ICPq
Graph-CNN for direct 3D human mesh vertex regression
Convolutional Mesh Regression for Single-Image Human Shape Reconstruction
文献内容:
文献信息:
标题: 单图像人体形状重建的卷积网格回归作者: Nikos Kolotouros, Georgios Pavlakos, Kostas Daniilidis所属机构: 宾夕法尼亚大学关键词: 3D人体姿态估计,形状估计,图卷积神经网络,SMPL模型,单图像重建DOI: arXiv:1905.03244v1文献链接: arXiv:1905.03244v1
Voice-to-3D face geometry prediction
Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices?
文献内容:
研究背景:
人类感知的根本问题: 人的声音能否揭示面部几何形状?现有研究的局限性: 以往研究仅限于将声音转换为面部图像,但这种方法不可避免地涉及预测声音无法暗示的属性,如面部纹理、发型和背景。本研究的创新点: 本研究专注于重建3D面部,以更生理学为基础,专注于几何形状,而非图像域。 研究方法:
数据集构建: 构建了一个包含配对声音和面部网格的新数据集Voxceleb-3D,使得有监督学习成为可能。知识蒸馏机制: 在3D面部扫描数据有限的情况下,研究是否仍能从声音中提取面部几何形状。分析框架: 提出了跨模态感知框架(CMP),在有监督和无监督学习设置下研究声音与面部几何形状之间的相关性。监督学习: 使用配对的声音和3DMM参数进行训练,通过L₂损失进行监督。无监督学习: 在没有配对声音和3D面部数据的情况下,使用知识蒸馏(KD)机制研究面部几何形状是否仍能从声音中提取。 实验设计:
实验分析: 将核心问题分解为四个部分,并进行视觉和数值分析。主观评估: 通过主观偏好测试来量化输出差异。 结果分析:
有监督学习: 通过有监督学习,我们能够从声音中预测出视觉合理的面部网格。无监督学习: 无监督学习框架能够预测出与参考面部形状相似的3D面部模型。主观评估: 主观评估结果表明,受试者显著偏好我们的模型预测结果。知识蒸馏: 在无监督学习中,通过知识蒸馏机制,我们能够验证声音和面部几何形状之间的相关性。 总体结论:
研究发现: 本研究发现,3D面部可以从声音中大致重建,这为未来的人类中心交叉模态学习提供了可解释的基础。未来应用: 本研究为公共安全、游戏或虚拟现实系统中的个人头像生成、以及为除语音和面部图像验证之外的个人身份验证提供了潜在应用。
文献信息:
标题: 语音到3D面部的跨模态感知:声音能否揭示面部几何形状?作者: Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann所属机构: University of Southern California关键词: 语音识别,面部几何,跨模态学习,知识蒸馏,3D面部重建DOI: arXiv:2203.09824v1[cs.CV]18 Mar 2022参考文献: [1]-[70](具体文献信息略)项目页面: 请参见我们的项目页面。
Fast 3D head reconstruction from multi-view images
Instant Multi-View Head Capture through Learnable Registration
文献内容:
文献信息:
标题: 通过可学习的注册即时多视角头部捕获作者: Timo Bolkart, Tianye Li, Michael J. Black所属机构: MPI for Intelligent Systems, Tübingen; University of Southern California关键词: 3D头部捕获, 多视角图像, 体积特征表示, 空间变换器, 3D网格推断DOI: 未提供文献链接: TEMPEH 代码/模型/数据: TEMPEH Resources
Automatic 3D human pose and shape estimation from images
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image ### 文献内容:
文献信息:
标题: Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image作者: Federica Bogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler, Javier Romero, Michael J. Black所属机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; Microsoft Research; University of Maryland; University of Tübingen关键词: 3D body shape, human pose, 2D to 3D, CNN
Human Optical Flow
Learning Human Optical Flow
文献内容:
研究背景:
人体光流的重要性: 人体光流对于分析人类行为非常有用,但目前的光流算法通常被视为通用的、低层次的视觉问题,没有针对人体运动进行特别设计。现有数据集的不足: 用于人体运动估计的数据集和算法尚未得到足够关注,而真实场景中密集人体运动的准确捕获极为困难,缺乏真实标注数据。合成数据的潜力: 最近的研究表明,在合成数据上训练的光流方法在真实数据上具有较好的泛化能力,这激励了我们创建一个专门针对人体运动的数据集。 研究方法:
人体光流数据集的创建: 使用SMPL身体模型和运动捕捉数据生成约十万种不同的人体形状,并将它们放置在随机室内背景中,模拟跑步、走路、跳舞等人类活动,创建了一个大型虚拟数据集。神经网络训练: 基于SPyNet使用该数据集训练了一个神经网络,该网络能够从图像对中估计人体光流场,并对网络进行了端到端的训练。网络结构: 网络由4个金字塔级别组成,每个级别在特定的图像分辨率上工作,通过学习不同级别的卷积层来预测光流残差,并将这些残差累加以产生完整的光流。 实验设计:
数据集细节: 数据集包含135,153个训练帧和10,867个测试帧,分辨率为256×256,以支持神经网络训练。超参数设置: 使用Adam优化器,学习率为10^-6,β1=0.9,β2=0.999,批量大小为8,每个epoch运行4000次迭代,模型在Human Flow数据集上训练100个epoch。数据增强: 通过应用缩放、旋转、随机裁剪、添加高斯噪声和颜色抖动等变换来增强数据。 结果分析:
性能比较: 在Human Flow数据集上,训练的网络比之前的方法平均端点误差(EPE)低30%,表明我们的方法在人体运动光流估计上优于现有技术。泛化能力: 我们的方法不仅在合成场景中表现良好,而且能够泛化到真实世界场景中的人体运动。实时性能: 我们的模型在NVIDIA TitanX上进行推理需要31ms,能够以32fps的速度实时运行,非常适合手机和嵌入式设备。网络大小: 由于采用了空间金字塔结构,我们的网络非常小,只有7.8MB的内存大小,包含420万个可学习参数,易于训练。 总体结论:
数据集和方法的优势: 我们创建了一个包含真实人体形状运动图像及其真实光流标注的大型数据集,结合端到端训练的系统,我们的新方法在人体特定数据集上超越了现有的光流方法。未来工作方向: 计划模拟更微妙的人体运动,如面部和手部,生成包含多个互动人物和更复杂3D场景运动的训练序列,以及添加3D服装和配饰。应用前景: 我们的方法适用于实时应用,支持基于运动的界面,甚至可能在计算能力有限的设备上使用,如手机。
文献信息:
标题: 学习人体光流作者: Anurag Ranjan, Javier Romero, Michael J. Black所属机构: Max Planck Institute for Intelligent Systems Tübingen, Germany; Amazon Inc.关键词: 人体光流,深度学习,数据集,神经网络,运动估计DOI: 10.1109/ICCV.2019.00087文献链接: HumanFlow
Multi-Human Optical Flow
Learning Multi-Human Optical Flow
文献内容:
研究背景:
人类动作分析的重要性: 人类动作分析对于理解人类行为至关重要,光学流作为理解人类动作的重要特征,对于多种应用如行人分析、运动控制游戏、活动识别、人体姿态估计等具有重要作用。光学流研究的现状: 光学流通常被视为一个通用的、低级的视觉问题,但针对人类运动的光学流研究较少,且现有的光学流数据集不足以支持人类运动估计的研究。 研究方法:
数据集构建: 本文开发了一个包含真实纹理和背景的人类运动光学流数据集,包括单人和多人场景,称为人类光学流数据集(Human Optical Flow dataset),由单人光学流数据集(SHOF)和多人光学流数据集(MHOF)组成。网络训练: 使用基于空间金字塔的网络架构,如SPyNet和PWC-Net,在这些数据集上训练光学流网络,以估计图像对中的人类运动场。性能评估: 通过在保留的测试数据上评估训练好的网络,证明了这些网络在人类场景上的光学流性能有显著提升,并且能够很好地泛化到真实图像序列。 实验设计:
数据集详细信息: SHOF数据集包含135,153个训练帧和10,867个测试帧,MHOF数据集包含86,259个训练帧、13,236个测试帧和11,817个验证帧。数据增强: 通过应用缩放、旋转等变换和添加噪声来增强数据集,以提高在真实场景中的结果质量。网络训练细节: 使用预训练权重作为初始化,通过端到端训练最小化平均终点误差(EPE)来训练SPyNet和PWC-Net。 结果分析:
SHOF数据集上的比较: 在SHOF数据集上,fine-tuning SPyNet的性能比初始SPyNet提高了约43%,同时比现有的最先进方法提高了约30%。PWC-Net在SHOF上的性能没有进一步提升。MHOF数据集上的比较: 在MHOF数据集上,fine-tuning SPyNet和PWC-Net都取得了性能提升,特别是在人类区域的像素上。与通用的流估计方法相比,MHOF数据集上训练的模型在人类对应的像素上表现更优。真实场景的泛化: 通过视觉比较和运动补偿强度(MCI)误差评估,证明了在真实场景中,MHOF数据集上训练的模型能够很好地泛化。 总体结论:
数据集的贡献: 本文提供的单人和多人光学流数据集对于光学流网络的训练具有重要意义,能够提高网络在人类运动估计上的准确性。模型泛化能力: 训练好的模型不仅在数据集上表现优异,而且能够泛化到真实世界场景中的人类运动。未来工作展望: 未来的工作将扩展数据集以包含更多样化的服装和户外场景,并探索将这些数据集集成到端到端的动作识别系统中。
文献信息:
标题: 学习多人类光学流作者: Anurag Ranjan, David T.Hoffmann, Dimitrios Tzionas, Siyu Tang, Javier Romero, Michael J.Black所属机构: Max Planck Institute for Intelligent Systems, Germany; Amazon Inc.关键词: 光学流, 人类动作分析, 数据集, 深度学习, 人体姿态估计DOI: arXiv:1910.11667v2文献链接: Human Optical Flow
3D Human Shape Reconstruction From Point Clouds
Skeleton-Aware 3D Human Shape Reconstruction From Point Clouds
文献内容:
文献信息:
标题: 从点云中重建骨架感知的三维人体形状作者: Haiyong Jiang, Jianfei Cai, Jianmin Zheng所属机构: 南洋理工大学, 新加坡; 蒙纳士大学信息技术学院关键词: 三维重建, 点云, 骨架感知, SMPL模型, 深度学习
MagicMan
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
文献内容:
文献信息:
标题: MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement作者: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang所属机构: 深圳国际研究生院, 腾讯AI Lab, 香港科技大学, 斯坦福大学, 香港中文大学关键词: 3D人体重建, 新视角合成, 扩散模型, 迭代细化, SMPL-X模型DOI: arxiv:2408.14211v1文献链接: arXiv: MagicMan
Self-supervised 3D human mesh recovery from noise
Self-supervised 3D Human Mesh Recovery from Noisy Point Clouds
文献内容:
文献信息:
标题: 自监督3D人体网格从噪声点云恢复作者: Xinxin Zuo, Sen Wang, Qiang Sun, Minglun Gong, Li Cheng所属机构: University of Alberta, University of Toronto, University of Guelph关键词: 自监督学习, 3D人体重建, 噪声点云, 概率对应关联, Gaussian Mixture ModelDOI: arXiv:2107.07539v2文献链接: arXiv: Self-supervised 3D Human Mesh Recovery
三、总结
在本篇博客中,我们详细探讨了SMPL、SMPLX、STAR等多个人体形状和姿态建模方法的原理、研究方法、实验设计及其结果分析。这些模型在计算机视觉、动画和人体姿态重建领域的应用非常广泛,它们解决了人体形状捕捉和动画化的诸多技术难题,提供了对人体形状、姿态以及手部和面部的详细建模能力。
SMPL模型以其简洁和高效的姿态变形表示取得了较高的渲染效率和准确性,而SMPLX进一步扩展了手部和面部的控制能力,提供了更丰富的表达力。STAR模型则通过引入稀疏的姿态校正混合形状,显著减少了参数数量,同时提高了泛化性能。这些模型的发展展示了如何在保证模型复杂性与渲染性能之间找到平衡,以适应不同应用场景的需求。
未来的研究方向可能包括进一步优化这些模型以提高对各种形状和姿态的精确性和细节表现,扩展到更复杂的动态软组织模拟,以及通过深度学习和自监督学习的方法实现更快更准确的人体重建。