AI热点 1月前 132 阅读 0 评论

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

作者头像

AI技术专栏作家 | 发布了 246 篇文章

感谢IT之家网友 zerodert 的线索投递!

IT之家 5 月 30 日消息,Xiaomi  MiMo 官方公众号今日发文宣布,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型, Agent 时代而来

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o

在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一

其能够完成复杂图片推理和问答等任务,在长达 10 多步的 GUI 操作上,MiMo-VL-7B 也展示了不错的潜力,甚至能帮你加购小米 SU7 至心愿单。

其采用了高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):

  • 多阶段预训练:

    收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。

  • 混合在线强化学习:

    混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型,IT之家附开源链接:https://huggingface.co/XiaomiMiMo 及相关技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 测评任务的框架也已经开源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!