字节跳动技术团队宣布推出一项创新技术,基于DiT大模型与字体级分割的视频字幕无痕擦除方案,旨在助力短剧等视频内容的全球化传播。这一技术突破了传统字幕擦除方法的局限,为短剧出海、跨境电商等新兴领域提供了强有力的技术支持。

在全球化内容制作中,原始视频的中文字幕对于海外观众而言不仅是无效信息,还严重影响观看体验。传统的字幕添加或马赛克、GAN(生成对抗网络)等字幕擦除方案,往往导致画面杂乱、模糊或帧间闪烁,无法彻底解决这一问题。火山引擎视频点播推出的这一方案,通过两大核心技术突破和强大的工程能力,重新定义了字幕擦除标准,实现了全片真实自然的“无痕擦除”,并支持多字幕框、指定时间段的精准擦除。

该方案的核心在于两个技术突破:一是DiT视频字幕擦除模型,二是字体级分割模型。DiT模型通过强鲁棒性预训练基底、摆脱辅助先验依赖、两阶段训练策略提升鲁棒性与修复精细度,实现了像素级无痕修复。字体级分割模型则通过精准定位目标区域,实现了从“粗放擦除”到“像素级修复”的转变,有效避免了传统块填充导致的背景模糊或纹理重复问题。

火山引擎多媒体实验室联合工程团队构建了兼顾精度与效率的技术体系,经过超万集视频数据集验证,擦除任务成功率达到100%。创新的视频分镜技术结合服务器集群分布式计算,显著提升了视频处理效率。此外,该方案还支持多语言内容流转,突破了中英文限制,支持多个小语种字幕擦除,为全球内容流转提供了双向通道。

火山引擎视频点播形成了“擦除-翻译-口型同步”的一站式闭环,集成了多种语言翻译能力,并针对短剧场景优化了俚语与文化语境适配。结合语音韵律与面部动作分析技术,实现了翻译字幕与人物口型的动态对齐,大幅提升了从原视频到多语言本地化内容的全流程处理效率。

这一技术的推出,不仅为短剧出海提供了强有力的技术支持,也为跨境电商、影视公司等提供了高效的视频处理方案,使得优质内容的全球化传播变得更加简单和高效。火山引擎正通过技术消除视觉隔阂,让每一个精心打磨的镜头都能在全球观众眼中绽放原有的光彩。

火山引擎视频点播官网:

https://console.volcengine.com/vod/