一个摄像头就能让虚拟人唱跳rap，抖音即可玩

人工智能1年前发布 baohang

17 00

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

全身动作捕捉，现在无需昂贵的动捕设备，只要一个摄像头就能轻松实现。

并且就在抖音上，人人都能上手体验。

上面这段虚拟数字形象跳舞的视频采用了抖音直播伴侣功能背后的全身驱动技术，主播仅需要单个普通摄像头并开始跳舞，就可以实时、精准地驱动虚拟形象。

相较于以往的轻量化动作捕捉，这项来自字节跳动智能创作团队的全身驱动技术具有高真实性，可以体现空间的距离感和地面感。

并且具有更高的鲁棒性，能够在复杂的环境、穿戴等场景下实现良好的结果。

同时，还具备更高的还原性，人物的姿态、手势和动作的姿态、速度都能更加准确地还原。

值得一提的是，普通的惯性动捕手套在一定时间后就会产生漂移损耗，无法支持长时间的直播，而全身驱动技术则可以有效规避这一问题，能够更好地适应直播场景。

据介绍，全身驱动技术的技术方案包含了数据、估计、修正以及驱动四个步骤，具体的实现方案如下：

△全身驱动技术方案全流程

构建高精度3D数据供应链

技术团队使用了混合3D数据构建方式，其来源包括自建多目工装动捕系统、2D数据、伪标签3D数据，基于此，团队构建了包含800万以上高精3D标签的数据集。

为了获取接近业务场景的高精度3D人体数据，团队搭建了一套完整的基于多目摄像头的无标记物视觉动捕系统，并基于自研的人体重建算法，实现了对人体的位置，姿态和体型的准确估计。

尽管在多数情况下，自动化的重建算法能够给出精度满足要求的重建结果，但对于一些遮挡严重，运动过快导致模糊的样本，仍需要通过人工筛选修正的方式进行数据清洗。通过搭建3D数据筛选标注系统，可以实现高效的半自动化数据生产，并通过将人工审核后的样本用于相关模型的训练，持续优化数据产线相关模型的性能，最终实现数据质量的自举式提升。

△高精度3D数据构建流程

高还原性与高鲁棒性的全身估计模型

据介绍，通过上述步骤，团队积累了样本量高达近千万的大规模数据集。

在此基础上，团队训练了一个基础特征表示底座进行3D-Aware的共享特征抽取，基于共享特征构建了姿态估计分支、相机估计分支、Root点估计分支。

其中，姿态估计分支负责为表演者的关节点进行局部3D坐标估计，相机估计分支以及Root点估计分支为当前表演者的全局位置进行估计。

基于多分枝的估计模块结合积累的大量自有数据，人体估计模型可以在较少的计算量下取得高还原性与高鲁棒性的结果。

另外，针对全身场景下的手部姿态估计，团队统计了手腕关节旋转的先验分布辅助模型训练，保证模型输出符合人体结构约束；设计了手腕关节的时序模型，保证手腕姿态的稳定性；对关键点预测进行概率建模从而预测模型输出的置信度进行难样本过滤；将以上优化点与大量的自有手部数据结合，智能创作团队的手部姿态算法模型在复杂遮挡模糊场景下结果仍可有不错的表现。

以下为人体在复杂遮挡服饰场景下的优化对比。左边为原始预测结果，右边为异常遮挡优化结果。

一个摄像头就能让虚拟人唱跳rap，抖音即可玩

再来看看手腕在旋转动作下的优化对比。左边为原始预测结果，右边为手部姿态还原性&鲁棒性优化结果。