AI热点 8小时前 154 阅读 0 评论

支持消费级显卡部署:腾讯混元 3D 世界模型宣布推出 Lite 版本,推理速度提升 3 倍以上且精度损失 <1%

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 8 月 15 日消息,腾讯今日宣布,混元团队推出 Lite 版本并开源,通过引入动态 FP8 量化,将模型显存需求从原本的 26GB 优化至 17GB 以下,成功适配消费级显卡。

同时,通过引入 FP8 量化注意力算子,混元团队将 Transformer 中的 Q、K、V 矩阵量化 INT8,同时结合动态平滑与硬件优化,实现推理速度提升 3 倍以上,精度损失 < 1>

除显存方面外,混元团队还集成了 Cache 算法,通过优化冗余时间步,显著提升推理效率,让模型运行更加流畅。通过自动化搜参工具识别出关键时间步和 block,优化冗余时间步,显著提升推理效率,让模型运行更加流畅。

除了清晰的视觉质量以及更低的推理成本,区别于业界已有方法,混元 3D 世界模型 1.0 不仅能生成“可看”的场景,更进一步实现了对场景中的天空、地面、植被、物体等不同组件分层建模。并且生成的世界可导出为 3D mesh 格式文件,无缝接入游戏、物理引擎,进行二创,如游戏开发、影视制作、物理仿真等。

腾讯混元 3D 世界模型 1.0,是业界首个开源可编辑的世界生成模型,用户只需输入一句话或上传一张图片,就能生成一个完整、可漫游的 3D 世界,这一创新不仅降低了 3D 内容创作的门槛,也为游戏开发、VR、数字内容创作等领域带来了全新的可能性。

通过结合全景生成与层次化 3D 重建等技术,混元 3D 世界模型 1.0 同时支持文字或者图片输入,实现了可交互、可编辑、高质量的 360 度可漫游场景生成。混元 3D 世界模型的技术亮点在于其全方位的场景生成能力和高度的可编辑性。通过层次化 3D 场景表征及生成算法,该模型支持 3D Mesh 导出,在保证生成场景的逼真度和沉浸感的同时,兼容已有 CG 管线进行二次开发,如游戏开发、物理仿真、场景编辑等。

自发布以来,混元 3D 世界模型 1.0 在社区中备受关注,其卓越的世界生成能力为用户带来了全新 AI 体验。然而,显存开销大的问题是用户反馈的最大痛点,即使开启 pipeline offloading(流水线卸载)技术,仍需 26GB 以上显存,大多数消费级显卡无法运行。

为了让更多中小企业及个人开发者能够便捷使用混元 3D 世界模型 1.0,混元团队推出了混元 3D 世界模型 1.0-Lite 版本,让消费级显卡也能跑世界模型。

下面是混元世界模型 1.0-Lite 消费级显卡运行效果:

可漫游场景效果(消费级显卡运行):

量化前后效果对比:

原始效果(HYWorld1.0)

量化后效果(HYWorld 1.0-Lite)

原始效果(HYWorld1.0)

量化后效果(HYWorld 1.0-Lite)

IT之家附官方地址:

  • 官网地址:https://3d.hunyuan.tencent.com/sceneTo3D

  • Github 项目地址:https://github.com/ Tencent-Hunyuan / HunyuanWorld-1.0

  • Hugging Face 模型地址:https://huggingface.co/ tencent / HunyuanWorld-1

  • 技术报告地址:https://arxiv.org/abs / 2507.21809

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!