InfinityHuman是什么
InfinityHuman 是字节跳动与浙江大学联合团队推出的商用级长时序音频驱动人物视频生成模型,开启 AI 数字人实用化新篇章。模型基于 coarse-to-fine 框架,生成低分辨率的动作表示,通过姿态引导细化器逐步生成高分辨率的长时视频。模型引入手部专属奖励机制,优化手部动作的自然性和同步性,有效解决现有方法中常见的身份漂移、画面不稳定和手部动作生硬等问题。在 EMTD 和 HDTF 数据集评估上,InfinityHuman 展示了卓越的性能,为虚拟主播、教育、客服等领域的应用提供新的可能性。

InfinityHuman的主要功能
- 长时视频生成:能生成高分辨率、长时长的人体动画视频,保持视觉一致性和稳定性。
- 自然手部动作:通过手部专属奖励机制,生成自然、准确且与语音同步的手部动作。
- 身份一致性:利用姿态引导细化器和首帧作为视觉锚点,减少累积误差,保持人物身份的长期一致性。
- 口型同步:确保生成的视频中人物的唇部动作与音频高度同步,提升真实感。
- 多样化角色风格:支持不同风格的人物角色生成,满足多种应用场景的需求。
InfinityHuman的技术原理
- 低分辨率动作表示生成:模型通过音频驱动生成与音频同步的低分辨率动作表示(pose),相当于“打底稿”,确保全局节奏、动作和嘴型先对齐。
- 姿态引导细化器(Pose-Guided Refiner):在生成低分辨率动作表示的基础上,模型用姿态引导细化器逐步生成高分辨率的视频。
- 姿态序列:姿态序列作为稳定的中间表示,抵抗时间退化,保持视觉一致性。
- 视觉锚点:首帧为视觉锚点,不断参照校正身份和画面,减少累积误差。
- 手部奖励机制:通过高质量的手部动作数据训练,引入手部专属奖励机制,优化手部动作的自然性和与语音的同步性。
- 多模态条件融合:模型融合多种模态信息,包括参考图像、文本提示和音频,确保生成的视频在视觉和听觉上的一致性和自然性。
InfinityHuman的项目地址
- 项目官网:https://infinityhuman.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2508.20210
InfinityHuman的应用场景
- 虚拟主播:虚拟主播能自然流畅地进行新闻播报、节目主持等,增强观众的观看体验,降低人力成本。
- 在线教育:AI 教师边讲解知识边做出相应的手势,让教学过程更加生动形象,提高学生的学习兴趣和专注度。
- 客服服务:数字客服在语音交流时能自然地做出回应动作,打破传统客服的机械感,提升客户满意度。
- 影视制作:在动画电影、电视剧等影视作品中,快速生成高质量的长时人物动画,减少人工绘制和后期修复的工作量。
- 虚拟社交:为虚拟现实(VR)和增强现实(AR)中的虚拟人物赋予自然的动作和表情,让虚拟社交更加真实和沉浸,增强用户之间的互动性。