开云体育(中国)官方网站 ID一致性:难以保执一致的ID-kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载

  • 首页
  • 供应
  • 求购
  • 公司
  • 产品
  • 展会
  • 新闻
  • 人才
  • 会员商务室
  • 你的位置:kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载 > 新闻 > 开云体育(中国)官方网站 ID一致性:难以保执一致的ID-kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载
    开云体育(中国)官方网站 ID一致性:难以保执一致的ID-kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载
    发布日期:2025-10-24 04:21    点击次数:113

    开云体育(中国)官方网站 ID一致性:难以保执一致的ID-kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载

    以下著述转载自量子位

    一张图就能创建上半身动作视频,措施还入选了ICCV 2025!

    来自清华大学、IDEA(粤港澳大湾区数字经济接续院)的接续东谈主员建议新框架GUAVA,不需要多视角视频、不需要针对不同个体单东谈主覆按, 仅需0.1秒就能从单图创建一个上半身3D化身。

    经常来说,创建传神且富足进展力的上半身东谈主体化身(如包含细巧面部情态和丰富手势),在电影、游戏和捏造会议等畛域具有垂死价值。

    但适度现在,仅凭单张图像达成这一标的仍然是一个首要挑战,况兼同期还需要易于创建和维持及时渲染。

    而GUAVA,手脚第一个从单张图像创建可运行上半身3D高斯化身的框架,与需要多视图视频或单东谈主覆按的3D措施不同——不错在秒级时候内完成推理重建,并维持及时动画和渲染。

    张开剩余88%

    与基于扩散模子的2D措施比拟,GUAVA使用3D高斯来确保更好的ID一致性和及时渲染。况兼还引入一种富足进展力的东谈主体模子EHM,处分了现存模子在捕捉细巧面部情态方面的局限性。

    此外,它还应用逆纹理映射期间以准确地瞻望高斯纹理,并齐集一个神经渲染器来普及渲染质料。

    履行扫尾披露,GUAVA在渲染质料和遵循方面优于现存2D和3D措施。

    底下精明来看GUAVA所弃取的措施。

    具体措施

    3DGS的兴起催生了好多3D化身重建措施,关系词这些措施仍然存在一些局限性:

    逐ID练:每个个体皆需要单独覆按;

    覆按复杂性:该经过耗时,需要标定的多视图或单目视频;

    进展力有限:头部重建措施费事身段动作默示,而全身方划定忽略了细巧的面部情态。

    逐ID练:每个个体皆需要单独覆按;

    覆按复杂性:该经过耗时,需要标定的多视图或单目视频;

    进展力有限:头部重建措施费事身段动作默示,而全身方划定忽略了细巧的面部情态。

    另外,扩散模子在视频生成方面赢得了显耀后果。一些职责通过添加非凡条目,如关键点或SMPLX渲染图,来指令扩散模子的生成经过,推广了模子在生成可控东谈主体动画视频上的应用。

    但问题是,诚然这些措施达成了精采的视觉效果,其局限性却依旧存在:

    ID一致性:难以保执一致的ID,尤其是在姿势发生大变化时;

    遵循:高打算资本和多步去噪导致推理速率慢,进攻了及时应用;

    视点阻抑:2D措施无法放肆调度相机姿势,从而适度了视点阻抑。

    ID一致性:难以保执一致的ID,尤其是在姿势发生大变化时;

    遵循:高打算资本和多步去噪导致推理速率慢,进攻了及时应用;

    视点阻抑:2D措施无法放肆调度相机姿势,从而适度了视点阻抑。

    而GUAVA则通过以下举措进行了纠正。

    (1)EHM模子与精准追踪

    为了处分SMPLX模子在捕捉面部情态上的不及,GUAVA引入了EHM(Expressive Human Model)。

    EHM齐集了SMPLX和FLAME模子,简略达成更准确的面部情态默示。

    同期,接续东谈主员假想了对应的两阶段追踪措施,达成从单张图像到姿态的准确意料——领先应用预覆按模子进行稚子意料,然后使用2D关键点耗费进行精细优化,从而为重建提供精准的姿势和情态参数。

    (2)快速重建与双分支模子

    GUAVA基于追踪后的图像,通过单次前向推理花样完成化身的重建。

    它包含两个分支:一个分支把柄EHM顶点和投影特征瞻望稚子的“模板高斯”,另一个分支则通过“逆纹理映射”期间,将屏幕特征映射到UV空间,生成捕捉精细细节的“UV高斯”。

    这两种高斯组合成齐全的Ubody高斯,从而在保执几何结构的同期,捕捉丰富的纹理细节。

    (3)及时动画与渲染

    重建完成后,Ubody高斯不错把柄新的姿势参数进行变形和动画。

    终末,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质料。

    履行法子

    履行成就方面,接续东谈主员从YouTube、OSX和HowToSign网罗视频数据集,主要柔顺东谈主体上半身视频。

    其中覆按集包含向上62万帧,测试集包含58个ID。

    为确保评估的全面性,履行弃取了多种见地:

    孤高演(self-reenactment)场景下,通过PSNR、L1、SSIM和LPIPS评估动画扫尾的图像质料;

    跨重演(cross-reenactment)场景下,使用ArcFace打算身份保留分数(IPS)以预计ID一致性。

    孤高演(self-reenactment)场景下,通过PSNR、L1、SSIM和LPIPS评估动画扫尾的图像质料;

    跨重演(cross-reenactment)场景下,使用ArcFace打算身份保留分数(IPS)以预计ID一致性。

    评估中与MagicPose、Champ、MimicMotion等2D措施以及GART、GaussianAvatar和ExAvatar 3D措施进行比较。

    定量扫尾如下:

    (1)Self-reenactment

    与2D措施比拟,GUAVA在所有见地(PSNR, L1, SSIM, LPIPS)上均进展最好,并在动画和渲染速率上达到约50 FPS,而其他措施仅为每秒几帧。

    与3D措施比拟,GUAVA的重建时候仅为0.1秒摆布,而其他措施需要数分钟到数小时。

    (2)Cross-reenactment

    GUAVA在身份保留分数(IPS)上显耀优于其他所有2D措施,诠释了其在不同姿势下保执ID一致性的能力。

    定性扫尾披露,尽管2D措施能生成高质料图像,但它们在保执ID一致性和准确复原复杂手势及面部情态方面存在不及。

    举例,Champ的手部吞吐 ,MagicPose存在失真 ,而MimicMotion则无法保执ID一致性。

    3D措施在处理精细的手指和面部情态方面存在艰难,也费事泛化能力,在未见区域或顶点姿势下会产生伪影。

    GUAVA则能对未见区域生成合理的扫尾,在顶点姿势下进展出更好的鲁棒性,并提供更准确、更细巧的手部和面部情态。

    为了考证措施中各个部分的有用性,论文还进行了充分的消融履行。

    小结一下,论文所建议的GUAVA,是一个用于从单张图像重建可动画、具有精采进展力上半身3D化身的快速框架。

    接续通过引入EHM模子过火精准追踪措施,增强了面部情态、体式和姿势的捕捉能力,并通过UV高斯和模板高斯的两个推理分支共同构建一个上半身高斯。

    履行扫尾标明,GUAVA在渲染质料和遵循方面均优于现存措施。它达成了约0.1秒的重建时候开云体育(中国)官方网站,并维持及时动画和渲染。

    发布于:安徽省