DAM-3B – 英伟达推出的多模态大语言模型

AI技术专栏作家 | 发布了 246 篇文章

DAM-3B是什么

DAM-3B（Describe Anything 3B）是英伟达推出的多模态大语言模型，专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定目标区域，能生成精准且符合上下文的描述文本。 DAM-3B的核心创新包括“焦点提示”技术和“局部视觉骨干网络”。焦点提示技术将全图信息与目标区域的高分辨率裁剪图融合，确保细节不失真，同时保留整体背景。局部视觉骨干网络则通过嵌入图像和掩码输入，运用门控交叉注意力机制，将全局特征与局部特征相结合，再传输至大语言模型生成描述。

DAM-3B的主要功能

区域指定与描述：用户可以通过点、边界框、涂鸦或掩码等方式指定图像或视频中的目标区域，DAM-3B能生成精准且符合上下文的描述文本。
支持静态图像和动态视频：DAM-3B和DAM-3B-Video分别适用于静态图像和动态视频的局部描述。DAM-3B-Video通过逐帧编码区域掩码并整合时间信息，在存在遮挡或运动的情况下，能生成准确的描述。

DAM-3B的技术原理

焦点提示（Focal Prompt）：DAM-3B采用焦点提示技术，将全图信息与目标区域的高分辨率裁剪图相结合。能确保在保留整体背景的同时，不丢失目标区域的细节，生成既精准又符合上下文的描述。
局部视觉骨干网络（Localized Vision Backbone）：网络通过嵌入图像和掩码输入，运用门控交叉注意力机制，巧妙地融合全局特征和局部特征。增强了模型对复杂场景的理解，能高效地将特征传递至大语言模型以生成描述。
多模态架构：DAM-3B基于Transformer架构，能处理图像和视频的多模态输入。用户可以通过点选、边界框、涂鸦或掩码等方式指定目标区域，模型随后生成与上下文高度契合的描述。
视频扩展（DAM-3B-Video）：DAM-3B-Video版本通过逐帧编码区域掩码并整合时间信息，扩展了模型在动态视频中的应用能力。在存在遮挡或运动的情况下，模型也能生成准确的描述。
数据生成策略：为解决训练数据匮乏的问题，英伟达开发了DLC-SDP半监督数据生成策略。利用分割数据集和未标注的网络图像，构建了包含150万局部描述样本的训练语料库，优化模型的描述质量。