
MAGREF – 字节跳动推出的多主体视频生成框架
MAGREF是什么MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性
MAGREF是什么
MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性与一致性,适用内容创作、广告制作等多种场景,展现极强的生成能力和可控性。

MAGREF的主要功能
- 多主体视频生成:支持单人、多人互动以及人物与物体、背景的复杂场景生成,保持身份特征高度一致,多人同框不串脸。
- 高一致性与可控性:基于一张参考图像和文本提示,生成身份稳定、动作自然、背景协调的视频,支持精确控制人物动作、表情、环境和光影效果。
- 复杂场景处理:支持人物与物体交互(如人与宠物互动、人物操作物体)及人物置于复杂背景中(如城市街景、自然环境等),生成语义清晰、风格协调的视频。
- 高效性和通用性:无需为不同任务单独设计模型,基于最小架构改动和统一训练流程,适配多种参考图配置。
MAGREF的技术原理
- 区域感知动态掩码机制:在生成空间中构建一块空白画布,将输入的参考图(如人脸、物体、背景等)随机排列其中。为每张参考图生成一张空间区域掩码,指示图像在画布中的语义位置。基于掩码引导模型理解“谁控制哪一块画面”,即使参考图数量和顺序不同,也能保持结构一致、身份不串、关系明确。
- 像素级通道拼接机制:将所有参考图在特征维度上逐像素对齐拼接,避免传统 token 拼接可能引发的图像模糊或信息混叠问题。增强视觉一致性,保持生成结果对姿态、服饰、背景等细节的精准还原。
- 三阶段数据处理流程:
- 筛选与字幕生成:从原始视频中切分出语义一致的片段,过滤低质量样本,为每段生成结构化文本。
- 主体提取与掩码标注:基于标签提取与语义分割识别出视频中的关键物体(如动物、服饰、道具等),进行后处理获得精准遮罩。
- 人脸识别与身份建模:检测并分配视频中人物身份,筛选高质量面部图像用在参考图构建,确保训练过程中的身份一致性。
- 基于DiT架构的统一模型:MAGREF构建在Diffusion Transformer(DiT)架构之上,引入掩码引导和通道拼接机制,实现一个统一模型适配多种复杂视频生成任务的能力。无需为不同任务单独设计模型,基于最小的架构改动和统一的训练流程,实现强泛化性与高可控性的平衡。
MAGREF的项目地址
- 项目官网:https://magref-video.github.io/magref.github.io/
- GitHub仓库:https://github.com/MAGREF-Video/MAGREF
MAGREF的应用场景
- 内容创作与娱乐:用在个人短视频创作、创意视频制作、虚拟角色生成,及影视特效和游戏开发,激发创意并降低制作成本。
- 教育领域:帮助学生基于历史重现、科学演示和语言学习视频,更直观地理解知识,增强教学效果。
- 广告与营销:快速生成高质量的广告视频、品牌推广内容和电商直播素材,提升吸引力和互动性。
- 虚拟现实与增强现实:增强虚拟现实内容的真实感,及将虚拟元素融入现实场景,提升用户体验。
- 社交媒体与企业级应用:生成个性化视频、互动视频、企业宣传视频和培训视频,满足个人分享和企业推广需求。