近日,小红书智创音频团队正式推出FireRedChat,这是业内首个支持私有化部署的全双工大模型语音交互系统。

它具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。

主要功能
全双工语音交互:支持用户和 AI 代理实时双向对话,双方可同时说话并实现可控打断,提升交互流畅性。

隐私保护与私有化部署:系统支持完全自托管,不依赖外部 API,确保数据安全,用户可自主控制部署环境。
模块化设计:由多个模块组成,包括转录控制、交互模块和对话管理器等,支持灵活的级联和半级联架构,便于定制和扩展。

低延迟通信:基于 LiveKit RTC Server 实现实时通信,搭配高效处理模块,确保低延迟交互,接近工业级标准。
语音活动检测与语义分析:采用流式个性化语音活动检测(pVAD)和语义结束检测(EoT),有效抑制背景噪声,精确标记主要说话人语音片段,提升用户打断成功率和对话自然度。
性能表现
FireRedChat 定义了系统层面的核心评价指标,重点关注实际对话体验中的三个关键方面:最大限度地降低错误打断率,提升语义结束点判断的准确性,以及进一步缩短系统响应延迟。
打断准确率方面,pVAD 显著减少噪声和无关说话人的误打断,并通过微小等待(如 50ms)在鲁棒与灵敏之间取得更优权衡。

在语义端点检测方面,EoT 技术能够更准确地判断用户是否已表达完毕,显著减少了因结束点误判而导致的等待尴尬或插话现象。

在整体延迟表现上,系统在本地级联部署模式中,响应速度可媲美工业级闭源系统,显著优于现有开源方案,使实时反馈成为标准体验。

应用场景
智能客服:为用户提供实时语音支持,快速响应客户问题,提升服务效率和客户满意度。
虚拟助手:在智能家居、智能办公等场景中,作为语音交互核心,实现设备控制、信息查询等功能。
教育领域:用于在线教育平台,提供实时语音互动教学,增强学习体验。
开源地址:
https://github.com/FireRedTeam/FireRedChat
#AI开源项目推荐##github##AI技术##小红书开源#FireRedChat#语音交互系统#