AI热点 5小时前 • 66 阅读 • 0 评论

智谱发布全新视觉大模型 GLM-4.5V，能轻松区分炸鸡品牌！

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

8月11日，智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的，继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线，拥有惊人的1060亿参数和120亿激活参数。值得一提的是，GLM-4.5V 还新增了 “思考模式” 开关功能，用户可以选择是否启用该模式，从而在处理任务时更灵活。

这一模型的视觉能力令人瞩目，能够轻松分辨出麦当劳和肯德基的炸鸡翅，从外观色泽和质感等多个角度进行深入分析。此外，GLM-4.5V 还能参与图像猜地点的挑战，甚至在比赛中取得了优异的成绩，超越了99% 的人类参赛者，位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现，在绝大多数测试中得分超过同等规模的其他模型。

目前，GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线，用户可以免费下载使用，并且还提供了 FP8量化版本。为了更好地体验这一模型，智谱推出了一个桌面助手应用程序，支持实时截屏和录屏，帮助用户完成各种视觉推理任务，包括代码辅助和文档解读。

在实际测试中，GLM-4.5V 展现了出色的能力，能够根据上传的图片进行位置推断，虽然偶尔会出现小误差，但推理过程仍然非常丰富。而在处理网页内容时，它可以通过截图生成相似度高的页面，展现出强大的复现能力。

GLM-4.5V 不仅在视觉理解领域表现突出，还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展，我们有理由期待它在未来的应用中为人们的生活带来更多便捷。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

1.3亿下载的AI漫画应用，凭一键生成Q版手办席卷美国

1.3亿下载的AI漫画应用，凭一键生成Q版手办席卷美国

2小时前 • AI热点

华为发布 AI 推理创新技术 UCM：可实现高吞吐、低时延推理体验，计划 9 月开源

华为发布 AI 推理创新技术 UCM：可实现高吞吐、低时延推理体验，计划 9 月开源

1小时前 • AI热点

企业大模型：不要拎着大模型的锤子乱找钉子了，躲4血坑 + 3步实操，成功落地！

企业大模型：不要拎着大模型的锤子乱找钉子了，躲4血坑 + 3步实操，成功落地！

2小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

Sam Altman最新博客：奇点温柔地到来，奇迹变成日常，然后成为标配

Sam Altman最新博客：奇点温柔地到来，奇迹变成日常，然后成为标配

2小时前 • AI热点

拿下3D生成行业新标杆！昆仑万维Matrix-3D新模型鲨疯了

拿下3D生成行业新标杆！昆仑万维Matrix-3D新模型鲨疯了

4小时前 • AI热点

讲师课程海报制作难？AI来拯救你的设计烦恼！

讲师课程海报制作难？AI来拯救你的设计烦恼！

3小时前 • AI热点

CodeArts Doer 全流程多 Agent 协同，驱动研发全流程效能跃升｜AICon 深圳

CodeArts Doer 全流程多 Agent 协同，驱动研发全流程效能跃升｜AICon 深圳

2小时前 • AI热点

热门标签

参数人工智能公司一起用AI AI游戏一键整合包 AI视频Agent 电商洗牌 Onlook On-Device AI 宇树人形机器人

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝