OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

快科技

AI技术专栏作家 | 发布了 246 篇文章

快科技9月1日讯，OpenAI已正式推出语音模型GPT-realtime。

据悉，GPT-realtime是一个聚焦于语音AI Agent的多模态模型，能够产出极为自然流畅的语音，精确再现人类语调、情感以及语速的丰富多样变化。此模型支持图像理解，还能与语音或文本对话相结合运用，特别适用于客服、教育、金融、医疗等领域，用以构建高品质的语音智能体。

官方宣称，新模型在复杂指令执行、工具精准调用以及生成更自然、更具表现力的语音方面表现出色。尤其是在重复字母与数字、逐字宣读免责声明、语句间无间断切换语言等场景中，GPT-realtime展现出良好的适应能力。

该模型还拥有卓越的上下文理解能力，能够精准捕捉非语言线索（比如笑声），并实时调节语音语气，达成诸如带有法国口音的友好语调”或者语速较快的专业语调”等多种表达。

另外，GPT-realtime增添了Cedar”和Marin”两种语音风格，并且对现有的八种语音效果进行了全方位优化。

（举报）

登录账号

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

速抢（2核2G）77元/年香港免备案服务器

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

OpenAI发布语音模型GPT-realtim：具备情感感知能力 多语言无缝切换

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

速抢（2核2G）77元/年香港免备案服务器

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

AI前线作者