多模态大模型

AI热点 11月前

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。与传统的平面几何相比，立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力，还要能

AI中国

244 0

AI热点 1年前

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议，双方将利用各自的技术优势，在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。此次合作的目标是实现 “实现在物理世界的推理”，共同开发一种名为 “RoboAgent” 的智能机器人，推动通用人工智能（AGI）在实际应用中的落地。签约仪式上，阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。阶跃

AI中国

333 0

AI热点 8月前

生数科技完成新一轮数亿元规模A轮融资

2025年9月19日，生数科技宣布完成新一轮数亿元人民币规模的A轮融资，此次融资由博华资本领投，百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东持续跟投，同时建发新兴投资等产业合作方也加码跟投。生数科技自2023年成立以来，凭借其强大的核心团队，该团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校的技术人才以及产业界的产品研发和产业服务人才组成，

AI中国

277 0

AI热点 9月前

阿里启动近千人AI招聘计划重点布局大模型与AI硬件

阿里巴巴集团旗下智能信息事业群近日启动了近年最大规模的AI人才招聘计划，面向社招与校招，总规模接近千人，覆盖北京、上海、杭州、广州等核心城市。本轮招聘重点聚焦大语言模型、多模态识别与理解、多模态训练工程、智能体应用及AI硬件等前沿技术领域。阿里招聘官网显示，大量岗位与多模态大模型算法及产品相关，其中部分强化学习及大模型算法岗位还要求具备医疗等垂直领域业务背景。以智能信息事业群的旗舰应用夸克为例，招

AI中国

157 0

AI热点 11月前

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。目前，尽管现有的多模态大模型在根据文本提示生成图像方面已有显著进展，但在处理涉及精准空间关系和复杂组合的指

AI中国

251 0

AI热点 1年前

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。RBench-V 基准测试包含803道题目，涉及多个领域，包括几何与图论、力学与电磁学、多目标识别和路径规划等。与以往只要求文字回答的评估不同，这次评

AI中国

213 0

AI热点 1年前

Meta 发布 Llama 4 大模型：混合专家架构引领 AI 新时代

Meta 公司推出了其最新的开源人工智能模型 Llama4，标志着其在人工智能领域的又一重大进展。Llama4分为两个版本，分别命名为 Scout 和 Maverick，旨在提升 AI 模型的功能与表现。Meta 表示，Llama4是一个多模态大模型，能够处理文本、图像、视频和音频等多种数据类型，并能在这些格式之间自由转换。值得一提的是，Llama4系列首次采用了 “混合专家”（MoE）架构，这一

AI中国

282 0

AI热点 7月前

抖音与LV-NUS联合推出SAIL-VL2模型：小巧身材也能大显神威！

在科技的浪潮中，抖音 SAIL 团队与 LV-NUS Lab 强强联手，推出了一款名为 SAIL-VL2的多模态大模型。这个新模型在保持较小参数规模的同时，竟然在复杂推理任务中超过了许多同类模型，甚至能与更大型的闭源模型相抗衡。这一突破性的进展无疑刷新了小模型的应用可能性。SAIL-VL2的参数设置分为2B 和8B，在106个数据集上实现了性能的突破，尤其在 MMMU、MathVista 等复杂推

AI中国

201 0

AI热点 9月前

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布，这款多模态大模型在图像分割领域实现了重要突破，将传统的"分割万物"能力升级为"任意分割"，显著提升了模型的适应性和应用范围。传统的Segment Anything Model（SAM）虽然在生成密集分割掩码方面表现出色，但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈，研究团队创新性地提出了视觉定位分割(Vi

AI中国

252 0

AI热点 11月前

阿里Ovis-U1震撼发布：多模态AI三合一，开源赋能全球开发者

2025年6月29日，阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**，标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作，Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体，展现了强大的跨模态处理能力，为开发者、研究者和行业应用提供了全新的可能性。以下是AIbase对Ovis-U1的详细报道。Ovis-U1:三合一的多模态统一框架Ovis-U1是

AI中国

311 0

加载更多

登录账号

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

共同阶跃星辰与原力灵机达成战略合作

生数科技完成新一轮数亿元规模A轮融资

阿里启动近千人AI招聘计划重点布局大模型与AI硬件

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

Meta 发布 Llama 4 大模型：混合专家架构引领 AI 新时代

抖音与LV-NUS联合推出SAIL-VL2模型：小巧身材也能大显神威！

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

阿里Ovis-U1震撼发布：多模态AI三合一，开源赋能全球开发者

热门标签

热门作者

AI科技前沿

机器学习笔记

AI绘画大师

热门阅读

6种AI声音克隆工具，听说还有99%的人不知道（建议收藏）

蛋仔派对：看别人让豆包看图片猜人物，我便让他认一下蛋仔皮肤！

WMS 系统「入库管理」功能详解

3个颠覆认知的AI学习真相，90%的人都想错了！

速抢（2核2G）77元/年香港免备案服务器

YouMind: 你的AI创作新范式

0代码经验，半天时间，我用Cursor从0到1开发了微信小程序并上线，附教程+提示词

AI制作ASMR视频也能火爆全网，沉浸式切水果视频教程

教运营使用DeepSeeK+ECharts画桑吉图

可口可乐，你浓眉大眼的也用AI做广告了？

分享4个超简单的DeepSeek提示词公式，让你的DeepSeek秒懂你

即梦AI图片3.0智能参考图指南，也能一句话做出爆款设计了

怎样才能制作出一个数字人？一分钟教你完成AI数字人制作

别再花钱去拍形象照了，教你一键制作大师级人物摄影照

扣子节点文本转Word攻略：4步搞定，告别手动排版！

全新SkyReels正式上线

我用一张表格，把带娃从“鸡飞狗跳”变成“母慈子孝”！

拼多多直通车优化技巧

靠AI做美食图？小白也能轻松制作出让人垂涎欲滴的美食照片

我用腾讯3D Studio让原神的芙宁娜活了，能跑还能打