AI热点 6天前 206 阅读 0 评论

OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

作者头像
快科技

AI技术专栏作家 | 发布了 246 篇文章

快科技9月1日讯,OpenAI已正式推出语音模型GPT-realtime。

据悉,GPT-realtime是一个聚焦于语音AI Agent的多模态模型,能够产出极为自然流畅的语音,精确再现人类语调、情感以及语速的丰富多样变化。此模型支持图像理解,还能与语音或文本对话相结合运用,特别适用于客服、教育、金融、医疗等领域,用以构建高品质的语音智能体。

官方宣称,新模型在复杂指令执行、工具精准调用以及生成更自然、更具表现力的语音方面表现出色。尤其是在重复字母与数字、逐字宣读免责声明、语句间无间断切换语言等场景中,GPT-realtime展现出良好的适应能力。

该模型还拥有卓越的上下文理解能力,能够精准捕捉非语言线索(比如笑声),并实时调节语音语气,达成诸如带有法国口音的友好语调”或者语速较快的专业语调”等多种表达。

另外,GPT-realtime增添了Cedar”和Marin”两种语音风格,并且对现有的八种语音效果进行了全方位优化。

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!