【AIbase 报道】2023年8月12日,昆仑万维在其 SkyWork AI 技术发布周上,正式推出了全新自研的交互式世界模型 Matrix-Game2.0。作为 Matrix 系列的升级版本,这一模型不仅是业内首个在通用场景下实现实时长序列生成的开源世界模型,更标志着昆仑万维在多模态 AI 领域取得了重要突破。

Matrix-Game2.0在核心能力上实现了质的飞跃,支持以每秒25帧的速度生成连续的视频内容,时长可达分钟级,极大地提升了生成内容的连贯性和实用性。该模型增强了对物理规律和场景语义的理解,用户通过简单的指令即可自由探索和操控虚拟环境,获得更强的沉浸感与可控性。

在技术架构方面,Matrix-Game2.0引入了创新的视觉驱动交互建模方案,摒弃了传统依赖语言提示的生成模式。其底层基于3D 因果变分自编码器(VAE)与多模态扩散 Transformer,能够高效压缩时空维度,并根据用户的动作指令逐帧生成符合物理逻辑的动态视觉序列。这种创新架构使模型具备强大的跨域适应性,支持多种场景与视觉风格的模拟。

该模型的发布突破了传统交互式世界模型的瓶颈,展示了其在游戏内容创作、虚拟现实和智能交互系统等领域的广泛应用潜力。在 GTA 和 Minecraft 等游戏场景中,Matrix-Game2.0展现了卓越的交互能力,可生成符合物理逻辑的可交互视频。

昆仑万维表示,Matrix-Game2.0的持续迭代与开源代表了中国在空间智能研究领域的新里程碑,将对具身智能体训练、虚拟游戏世界的快速搭建以及影视与元宇宙内容生产产生深远影响。