
以下著述转载自量子位
一张图就能创建上半身动作视频,措施还入选了ICCV 2025!
来自清华大学、IDEA(粤港澳大湾区数字经济接续院)的接续东谈主员建议新框架GUAVA,不需要多视角视频、不需要针对不同个体单东谈主覆按, 仅需0.1秒就能从单图创建一个上半身3D化身。
经常来说,创建传神且富足进展力的上半身东谈主体化身(如包含细巧面部情态和丰富手势),在电影、游戏和捏造会议等畛域具有垂死价值。
但适度现在,仅凭单张图像达成这一标的仍然是一个首要挑战,况兼同期还需要易于创建和维持及时渲染。
而GUAVA,手脚第一个从单张图像创建可运行上半身3D高斯化身的框架,与需要多视图视频或单东谈主覆按的3D措施不同——不错在秒级时候内完成推理重建,并维持及时动画和渲染。
张开剩余88%与基于扩散模子的2D措施比拟,GUAVA使用3D高斯来确保更好的ID一致性和及时渲染。况兼还引入一种富足进展力的东谈主体模子EHM,处分了现存模子在捕捉细巧面部情态方面的局限性。
此外,它还应用逆纹理映射期间以准确地瞻望高斯纹理,并齐集一个神经渲染器来普及渲染质料。
履行扫尾披露,GUAVA在渲染质料和遵循方面优于现存2D和3D措施。
底下精明来看GUAVA所弃取的措施。
具体措施
3DGS的兴起催生了好多3D化身重建措施,关系词这些措施仍然存在一些局限性:
逐ID练:每个个体皆需要单独覆按;
覆按复杂性:该经过耗时,需要标定的多视图或单目视频;
进展力有限:头部重建措施费事身段动作默示,而全身方划定忽略了细巧的面部情态。
逐ID练:每个个体皆需要单独覆按;
覆按复杂性:该经过耗时,需要标定的多视图或单目视频;
进展力有限:头部重建措施费事身段动作默示,而全身方划定忽略了细巧的面部情态。
另外,扩散模子在视频生成方面赢得了显耀后果。一些职责通过添加非凡条目,如关键点或SMPLX渲染图,来指令扩散模子的生成经过,推广了模子在生成可控东谈主体动画视频上的应用。
但问题是,诚然这些措施达成了精采的视觉效果,其局限性却依旧存在:
ID一致性:难以保执一致的ID,尤其是在姿势发生大变化时;
遵循:高打算资本和多步去噪导致推理速率慢,进攻了及时应用;
视点阻抑:2D措施无法放肆调度相机姿势,从而适度了视点阻抑。
ID一致性:难以保执一致的ID,尤其是在姿势发生大变化时;
遵循:高打算资本和多步去噪导致推理速率慢,进攻了及时应用;
视点阻抑:2D措施无法放肆调度相机姿势,从而适度了视点阻抑。
而GUAVA则通过以下举措进行了纠正。
(1)EHM模子与精准追踪
为了处分SMPLX模子在捕捉面部情态上的不及,GUAVA引入了EHM(Expressive Human Model)。
EHM齐集了SMPLX和FLAME模子,简略达成更准确的面部情态默示。
同期,接续东谈主员假想了对应的两阶段追踪措施,达成从单张图像到姿态的准确意料——领先应用预覆按模子进行稚子意料,然后使用2D关键点耗费进行精细优化,从而为重建提供精准的姿势和情态参数。
(2)快速重建与双分支模子
GUAVA基于追踪后的图像,通过单次前向推理花样完成化身的重建。
它包含两个分支:一个分支把柄EHM顶点和投影特征瞻望稚子的“模板高斯”,另一个分支则通过“逆纹理映射”期间,将屏幕特征映射到UV空间,生成捕捉精细细节的“UV高斯”。
这两种高斯组合成齐全的Ubody高斯,从而在保执几何结构的同期,捕捉丰富的纹理细节。
(3)及时动画与渲染
重建完成后,Ubody高斯不错把柄新的姿势参数进行变形和动画。
终末,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质料。
履行法子
履行成就方面,接续东谈主员从YouTube、OSX和HowToSign网罗视频数据集,主要柔顺东谈主体上半身视频。
其中覆按集包含向上62万帧,测试集包含58个ID。
为确保评估的全面性,履行弃取了多种见地:
孤高演(self-reenactment)场景下,通过PSNR、L1、SSIM和LPIPS评估动画扫尾的图像质料;
跨重演(cross-reenactment)场景下,使用ArcFace打算身份保留分数(IPS)以预计ID一致性。
孤高演(self-reenactment)场景下,通过PSNR、L1、SSIM和LPIPS评估动画扫尾的图像质料;
跨重演(cross-reenactment)场景下,使用ArcFace打算身份保留分数(IPS)以预计ID一致性。
评估中与MagicPose、Champ、MimicMotion等2D措施以及GART、GaussianAvatar和ExAvatar 3D措施进行比较。
定量扫尾如下:
(1)Self-reenactment
与2D措施比拟,GUAVA在所有见地(PSNR, L1, SSIM, LPIPS)上均进展最好,并在动画和渲染速率上达到约50 FPS,而其他措施仅为每秒几帧。
与3D措施比拟,GUAVA的重建时候仅为0.1秒摆布,而其他措施需要数分钟到数小时。
(2)Cross-reenactment
GUAVA在身份保留分数(IPS)上显耀优于其他所有2D措施,诠释了其在不同姿势下保执ID一致性的能力。
定性扫尾披露,尽管2D措施能生成高质料图像,但它们在保执ID一致性和准确复原复杂手势及面部情态方面存在不及。
举例,Champ的手部吞吐 ,MagicPose存在失真 ,而MimicMotion则无法保执ID一致性。
3D措施在处理精细的手指和面部情态方面存在艰难,也费事泛化能力,在未见区域或顶点姿势下会产生伪影。
GUAVA则能对未见区域生成合理的扫尾,在顶点姿势下进展出更好的鲁棒性,并提供更准确、更细巧的手部和面部情态。
为了考证措施中各个部分的有用性,论文还进行了充分的消融履行。
小结一下,论文所建议的GUAVA,是一个用于从单张图像重建可动画、具有精采进展力上半身3D化身的快速框架。
接续通过引入EHM模子过火精准追踪措施,增强了面部情态、体式和姿势的捕捉能力,并通过UV高斯和模板高斯的两个推理分支共同构建一个上半身高斯。
履行扫尾标明,GUAVA在渲染质料和遵循方面均优于现存措施。它达成了约0.1秒的重建时候开云体育(中国)官方网站,并维持及时动画和渲染。
发布于:安徽省