
Stream-Omni – 中科院联合国科大推出的语言视觉语音模型
Stream-Omni是什么Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨干,基于序列维度拼接实现视觉文本对齐,基于CTC的层维度映射实现语音文本对齐,高效地将文本能力迁移到语音模态。Stream-Omni在视觉理解、
Stream-Omni是什么
Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨干,基于序列维度拼接实现视觉文本对齐,基于CTC的层维度映射实现语音文本对齐,高效地将文本能力迁移到语音模态。Stream-Omni在视觉理解、语音交互及视觉引导的语音交互任务上表现出色,基于少量的全模态数据(如23000小时语音数据)训练。模型能在语音交互过程中同时提供中间文本输出,如自动语音识别(ASR)转录和模型响应,为用户提供更丰富的多模态交互体验。

Stream-Omni的主要功能
- 多模态输入与输出:支持文本、视觉(图像)和语音等多种模态的输入,能同时生成文本和语音响应。
- 无缝“边听边看”体验:在语音交互过程中,能实时输出中间文本结果(如自动语音识别ASR转录和模型响应),为用户提供更丰富的交互体验。
- 高效训练:仅需少量全模态数据(如23000小时语音数据)训练,对数据需求量小,训练效率高。
- 灵活的交互模式:支持多种模态组合的交互,包括文本+视觉→文本、文本+视觉→语音、语音+视觉→文本、语音+视觉→语音等,满足不同场景下的交互需求。
- 视觉理解与语音交互:在视觉理解任务和语音交互任务上表现出色,能准确理解和生成与视觉内容相关的文本和语音信息。
Stream-Omni的技术原理
- 基于LLM的骨干架构:基于大型语言模型(LLM)为核心,用其强大的语言理解和生成能力,为多模态交互提供基础支持。
- 视觉文本对齐:基于序列维度拼接的方式,将视觉编码器提取的视觉特征与文本输入进行拼接,再共同输入到LLM中,实现视觉和文本模态的对齐。
- 语音文本对齐:引入基于CTC(Connectionist Temporal Classification)的层维度映射,在LLM的底部和顶部添加语音层,实现语音到文本的映射和文本到语音的生成,将语音模态与文本模态对齐。
- 多任务学习:基于多任务学习策略,同时训练视觉文本、语音文本及全模态(视觉+文本+语音)的任务,让模型更好地理解和生成多模态内容。
- 实时语音生成:基于特殊的语音层设计和层维度映射,Stream-Omni在生成文本的同时,实时生成对应的语音输出,实现流畅的语音交互。
- 数据驱动与监督学习结合:模型依赖少量多模态数据进行训练,基于精心设计的对齐机制和多任务学习,能在有限的数据上实现高效的模态对齐和交互能力。
Stream-Omni的项目地址
- GitHub仓库:https://github.com/ictnlp/Stream-Omni
- HuggingFace模型库:https://huggingface.co/ICTNLP/stream-omni-8b
- arXiv技术论文:https://arxiv.org/pdf/2506.13642
Stream-Omni的应用场景
- 智能车载系统:司机基于语音指令查询路线、获取路况,系统结合视觉信息(如导航地图、路况摄像头图像)实时显示文本提示和语音反馈,提升驾驶安全性和交互效率。
- 教育辅助工具:在教育场景中,学生用语音提问,系统依据教材视觉内容(如图表、图片)给出详细文本解释和语音回答,帮助学生更好地理解和学习知识。
- 智能家居控制:作为智能家居助手,用户基于语音指令控制家电设备,系统结合视觉输入(如摄像头捕捉的环境信息)提供文本或语音反馈,实现更智能、便捷的家居控制。
- 医疗辅助诊断:医生在查看患者病历时,基于语音指令查询关键信息,系统结合视觉报告(如X光片、CT图像)提供详细的文本分析和语音解释,辅助医生更准确地做出诊断。
- 智能客服服务:在客服领域,客服人员用语音与客户交流,系统实时显示相关文本信息和视觉提示(如产品图片、操作流程图),帮助客服人员快速理解客户需求并提供准确解答,提升服务质量和效率。