开源项目 2天前 115 阅读 0 评论

英伟达开源DAM图像描述一切模型:实现详细局部图像与视频的描述

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

在计算机视觉和自然语言处理的交叉领域,图像描述(image captioning)一直是一项核心挑战,尤其是如何为图像中的特定区域生成精确、详细的描述。

前段时间,来自英伟达、UC伯克利等机构的研究者推出了“描述一切模型”DAM(Describe Anything Model),这是一个革命性的多模态大语言模型,能够针对用户指定的图像或视频区域,生成丰富的上下文描述。

功能特征:

DAM是一个强大的视觉语言模型(VLM),专为生成图像或视频中特定区域的详细描述而设计。用户可以通过点、框、涂鸦或蒙版等方式指定区域,模型会输出包含细微属性(如纹理、颜色、形状)的丰富描述。

例如,在视频中指定一头母牛的区域,DAM能捕捉其动态姿态:

“一头身披深棕色皮毛、臀部有一块浅色斑块的母牛,正以一系列动作展现其姿态。起初,母牛略微低着头,展现出平静的神态。随着画面的推进,母牛开始向前移动,双腿舒展,步态稳健而有节奏……”

类似地,在静态图像中指定一只猫的区域,模型也能生成精准描述:

“一只白色的猫,有着浅橙色的耳朵和粉红色的鼻子。这只猫表情放松,眼睛微微闭合,身上覆盖着柔软的白色毛发。”

详细的本地化字幕:为图像中用户指定的区域生成详细的本地化描述。DAM 接受各种用户输入以进行区域规范,包括点击、涂鸦、框和蒙版。

高度详细的图像和视频字幕:通过平衡焦点区域的清晰度与全局上下文,该模型可以突出细微的特征,例如复杂的图案或不断变化的纹理,远远超出一般图像级字幕所提供的范围。

指令控制字幕:无论是需要简短的总结还是冗长而复杂的叙述,模型都可以调整其输出。这种灵活性有利于从快速标记任务到深入专家分析的各种用例。

零样本区域 QA:除了描述之外,模型还可以回答有关指定区域的问题,而无需额外的训练数据。用户可以询问该地区的属性,该模型会利用其对本地化的理解来提供准确的、上下文驱动的答案。此功能增强了自然的交互式用例。

性能对比:

DAM在局部图像与视频描述任务中表现卓越,能够支持多粒度输出(包括关键词、短语及详细描述),并在7个领域内基准测试和零样本基准测试中均达到SOTA。

在 object-level LVIS和part-level PACO数据集上进行测试,DAM取得了最佳性能。

DAM在详细的本地化字幕方面优于以前的纯API模型、开原模型和特定于区域的VLM。

DAM在详细的本地化视频字幕方面优于以前的模型。

短语级数据集Flickr30k实体的零样本评估。该模型比之前的最佳水平平均相对提高了7.34%。

DAM代表了局部图像和视频描述技术的重大进步,未来有望在医疗、安防和内容创作等领域发挥更大作用。

GitHub:https://github.com/NVlabs/describe-anything

#AI开源项目推荐##github##AI技术##分割一切##图像描述#英伟达开源#DAM

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!