8月11日,智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的,继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线,拥有惊人的1060亿参数和120亿激活参数。值得一提的是,GLM-4.5V 还新增了 “思考模式” 开关功能,用户可以选择是否启用该模式,从而在处理任务时更灵活。

这一模型的视觉能力令人瞩目,能够轻松分辨出麦当劳和肯德基的炸鸡翅,从外观色泽和质感等多个角度进行深入分析。此外,GLM-4.5V 还能参与图像猜地点的挑战,甚至在比赛中取得了优异的成绩,超越了99% 的人类参赛者,位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现,在绝大多数测试中得分超过同等规模的其他模型。

目前,GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线,用户可以免费下载使用,并且还提供了 FP8量化版本。为了更好地体验这一模型,智谱推出了一个桌面助手应用程序,支持实时截屏和录屏,帮助用户完成各种视觉推理任务,包括代码辅助和文档解读。

在实际测试中,GLM-4.5V 展现了出色的能力,能够根据上传的图片进行位置推断,虽然偶尔会出现小误差,但推理过程仍然非常丰富。而在处理网页内容时,它可以通过截图生成相似度高的页面,展现出强大的复现能力。

GLM-4.5V 不仅在视觉理解领域表现突出,还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展,我们有理由期待它在未来的应用中为人们的生活带来更多便捷。