AI热点 5月前 41 阅读 0 评论

阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容

作者头像

AI技术专栏作家 | 发布了 246 篇文章

感谢IT之家网友 泓澄、咩咩洋 的线索投递!

IT之家 3 月 28 日消息,今天凌晨,阿里通义千问团队宣布推出新一代视觉推理模型 QVQ-Max。

据官方介绍,QVQ-Max 不仅能够理解图片和视频内容,还能为上述信息提供分析并推理。不止分析和推理,QVQ-Max 还可以完成设计插图、生成短视频剧本等内容,甚至根据用户的需求创建角色扮演内容。

核心能力:从观察到推理

QVQ-Max 的能力可以总结为三个方面:细致观察、深入推理和灵活应用。下面分别来说说它在这些方面的表现。

  • 细致观察:抓住每一个细节

    QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节。

  • 深入推理:不只是“看到”,还要“想到”

    仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。

  • 灵活应用:从解答问题到创作

    除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家,占卜师。

QVQ-Max 的应用范围很广,无论是在学习、工作还是日常生活中都能派上用场。

  • 职场工具:在工作中,QVQ-Max 可以协助完成数据分析、信息整理、编程写代码等任务。

  • 学习助手:对于学生来说,QVQ-Max 可以帮助解答数学、物理等科目的难题,尤其是那些配有图表的题目。它还能通过直观的方式讲解复杂概念,让学习变得更轻松。

  • 生活小帮手:在生活中,QVQ-Max 也能提供不少实用建议。比如,它可以根据你的衣柜照片推荐穿搭方案,或者根据食谱图片指导你如何烹饪一道新菜。

IT之家注意到,目前该模型已上线 Qwen Chat,用户只需上传任意图片或视频,提出问题,并点击“Thinking”按钮,即可使用 QVQ-Max 的推理能力。

阿里巴巴表示,这只是该模型演化过程中的一个阶段,未来还将持续优化其性能并扩展功能。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!