AI热点 3月前 81 阅读 0 评论

亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

作者头像
快科技

AI技术专栏作家 | 发布了 246 篇文章

快科技4月9日消息,亚马逊正式推出新一代生成式AI语音模型Nova Sonic,标志着其在人工智能语音领域取得重大突破。

这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。

Nova Sonic通过亚马逊Bedrock开发者平台提供服务,采用创新的双向流式API接口,为企业级AI应用开发提供了强大支持。亚马逊特别强调,该模型在成本效益方面具有显著优势,其价格比OpenAI的GPT-4o便宜约80%。堪称目前市场上最具性价比的AI语音解决方案。

与竞争对手的AI语音模型相比,Nova Sonic在将用户请求路由到不同API方面表现出色。这一能力使得Nova Sonic能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。

在双向对话中,Nova Sonic会等待合适的时机”发言,会考虑到说话者的停顿和打断等情况。此外,Nova Sonic还能够为用户的语音生成文本记录,开发者可以将这些文本用于各种应用场景。

亚马逊AGI部门首席科学家罗希特?普拉萨德透露,Nova Sonic的部分技术已经应用于升级版数字助手Alexa 。该模型的推出是亚马逊构建人工通用智能(AGI)战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!