应对Sora 2，谷歌发布新AI视频模型Veo 3.1：能精准可控视频生成

美国当地时间周三，谷歌正式推出新一代AI视频生成模型Veo 3.1，通过一系列创意与技术升级，显著提升了AI视频的叙事控制能力、音频融合度与画面真实感。

此次更新不仅为使用谷歌AI创作应用Flow的爱好者和创作者拓展了可能性，更为企业用户、开发团队和创意机构带来了可扩展、可定制的视频解决方案。

新模型在画质、物理模拟效果上均有明显提升，同时保持了与前代一致的定价体系。控制与编辑功能更加丰富多样，操作体验更为流畅。

与OpenAI上月发布的Sora 2相比，Veo 3.1的画面风格更偏向电影质感，视觉效果更加精致，但同时也稍显"人工化"。这种差异各具特色：Sora 2擅长营造手持拍摄的"自然抓拍"风格，而Veo 3.1则更适合追求精雕细琢的视觉呈现效果。

叙事与音频控制能力升级

Veo 3.1在前代基础上，增强了对对话、环境音效及其他音频元素的处理能力。值得关注的是，原生音频生成现已全面集成到Flow平台的三大核心功能中：

●"帧转视频"：将静态图像转化为动态场景

●"素材转视频"：整合多张图像中的元素，创作复合视频

●"延伸视频"：基于已有片段持续生成，将初始视频延伸至30秒甚至1分钟以上

这些功能此前需要用户手动添加音频，现在则实现了音画同步生成。这不仅让用户能更好地掌控作品的情感基调和叙事节奏，也省去了后期制作的繁琐步骤。

对企业用户而言，这种集成化的音视频处理方式，使得制作培训材料、营销视频等专业内容更加高效，显著降低了制作门槛。

多模态输入架构支撑精细编辑

Veo 3.1支持文本、图像、视频片段等多种输入形式，并在输出控制上更加精细。新引入的功能包括：

● 最多支持3张参考图像，精准把控输出内容的视觉风格

● 首尾帧插值技术，实现不同场景间的自然无缝过渡

● 场景延伸功能，突破单次生成时长限制，智能延续原有视频的动作与运镜逻辑

这些工具让企业用户能够精细调整内容的外观质感，确保符合品牌规范或创意要求。

此外，"插入对象"和"移除元素"等编辑功能也同步推出，不过部分功能尚未完全开放给Gemini API用户。

全平台部署策略满足多元需求

Veo 3.1通过以下渠道提供服务：

Flow：面向普通用户的AI辅助视频创作平台

Gemini API：为开发者提供视频能力集成方案

Vertex AI：即将支持"场景延伸"等企业级功能

透明定价，成本可控

目前Veo 3.1处于预览阶段，仅面向Gemini API付费用户开放。计费标准延续前代：

●标准版：每秒视频0.40美元

●Fast版：每秒视频0.15美元

采用按需计费模式，仅对成功生成的视频收费，无免费额度。这种透明的定价策略便于企业团队进行预算管理。

专业级输出规格拓宽应用场景

Veo 3.1支持720p与1080p分辨率输出，帧速率稳定在24帧/秒。基础视频生成长度提供4秒、6秒或8秒选项，通过延伸功能最长可达148秒的连续片段。

特别值得一提的是，企业用户上传产品图片或风格参考后，模型能够准确保持这些视觉元素的一致性，这一特性对零售、广告等行业的内容标准化生产极具价值。

早期用户反馈：还有改进空间

业界对Veo 3.1的评价呈现两极分化。

Otherside AI创始人Matt Shumer坦言"有些失望"，认为其"效果明显逊于Sora 2，价格却高出不少"。但他也承认，谷歌在参考图像支持和场景延伸等工具链方面的优势值得肯定。

3D数字艺术家Travis Davids指出，虽然音频质量确有提升，但模型仍存在明显局限："缺乏自定义语音选项，无法直接选择生成语音，基础生成时长仍卡在8秒上限。"他还提到，在多角度拍摄中保持角色一致性仍需精细的提示词设计，而Flow Pro付费用户仍无法直接获取1080p输出也令人不解。

不过，AI领域创作者@kimmonismus则给予了"Veo 3.1令人惊艳"的评价，尽管他也认为OpenAI的最新模型在整体体验上仍略胜一筹。

这些早期反馈表明，尽管Veo 3.1在工具完善度和创作控制上取得了进步，但随着竞争对手不断抬高行业标准，用户对真实性、语音控制和生成长度等方面的期待也水涨船高。

技术演进与市场竞争新格局

谷歌Veo 3今年在I/O开发者大会亮相后迅速赢得口碑，成为首个实现原生AI同步音频生成的视频模型。然而，OpenAI Sora的强势崛起改变了竞争态势。

随着两大科技巨头在AI视频领域持续加码，这场关乎技术创新、创作生态与知识产权保护的复杂博弈正进入全新阶段。

本文来自“腾讯科技”，编译：金鹿，编辑：郑萌萌，36氪经授权发布。

登录账号

应对Sora 2，谷歌发布新AI视频模型Veo 3.1：能精准可控视频生成

叙事与音频控制能力升级

多模态输入架构支撑精细编辑

全平台部署策略满足多元需求

透明定价，成本可控

专业级输出规格拓宽应用场景

早期用户反馈：还有改进空间

技术演进与市场竞争新格局

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

速抢（2核2G）77元/年香港免备案服务器

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

应对Sora 2，谷歌发布新AI视频模型Veo 3.1：能精准可控视频生成

叙事与音频控制能力升级

多模态输入架构支撑精细编辑

全平台部署策略满足多元需求

透明定价，成本可控

专业级输出规格拓宽应用场景

早期用户反馈：还有改进空间

技术演进与市场竞争新格局

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

速抢（2核2G）77元/年香港免备案服务器

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

AI前线作者