开源项目 4小时前 75 阅读 0 评论

开源项目X-SAM从分割一切到任意分割,单次操作可分割多个对象!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

由中山大学、鹏城实验室、美团联合开源的X-SAM模型,在计算机视觉领域取得重大突破。

它首次实现了真正统一的图像分割多模态大语言模型,将分割范式从“分割万物”革命性地扩展到了“任意分割”。

创新设计

X-SAM的核心在于构建了一个统一的框架,赋予MLLMs高级的像素级感知与理解能力。其创新点主要包括:

视觉定位分割:研究团队提出了“视觉定位分割”这一新任务。它要求模型通过交互式视觉提示(如点、框)分割图像中的所有实例对象,从而赋予MLLMs视觉定位的像素级理解能力。

通用输入输出设计

文本查询输入: 适用于通用分割、开放词汇分割、指代分割等任务。

视觉查询输入: 适用于交互式分割和VGD分割任务,支持点、涂鸦、框、掩码等多种提示。

分割连接器:针对图像分割任务对多尺度特征的需求,该组件通过上下采样路径生成多尺度特征,为解码器提供丰富的信息。

统一分割解码器:X-SAM摒弃了SAM原有的解码器,采用了Mask2Former架构。这一关键改进使得模型能够单次分割图像中的所有目标对象,彻底突破了传统SAM只能逐个处理对象的效率瓶颈,显著提升了处理复杂场景的能力。

性能表现

X-SAM在涵盖通用分割、开放词汇分割、指代分割、交互式分割、GCG分割、推理分割、视觉定位分割(VGS)等7大类、超过20个图像分割基准数据集上进行了全面评估,均达到了最先进(SOTA)性能。

指代分割任务: 性能优异。

对话生成分割任务: 表现出色。

视觉定位分割任务: 验证了VGS任务的有效性。

图文理解任务: 也展现了强大能力。

可视化效果:X-SAM在多种任务上的分割结果清晰准确,充分展示了其强大的多模态像素级视觉理解能力。

X-SAM成功实现了从“分割万物”到“任意分割”的重要跨越,通过创新的VGS任务、统一架构和训练策略,在保持各项任务顶尖性能的同时,极大地扩展了任务覆盖范围,为图像分割研究和通用视觉理解系统的构建奠定了坚实基础。

GitHub地址:
https://github.com/wanghao9610/X-SAM

#AI开源项目推荐##github##AI技术##AI图像分割#图像识别##图像分割#

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!