ResNet3DCNN - AI学习站

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

AI热点 10月前

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visual-text之间的时序对齐关系，构建出更鲁棒、更通用的语音表征框架，系统性提升语音识别任务（VSR/AVSR）、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任

AI中国

AI中国

219 0

热门标签

AI识谣发现《Funkytown (12" Version)》财富动画种草激励计划 AI新词:Portraits 自然对话对话合成模型设计教程 SDBench 姓氏设计

热门作者

作者头像

AI科技前沿

102篇文章

作者头像

机器学习笔记

87篇文章

作者头像

AI绘画大师

64篇文章

热门阅读

1

6种AI声音克隆工具，听说还有99%的人不知道（建议收藏）

902 阅读

2

AI制作ASMR视频也能火爆全网，沉浸式切水果视频教程

747 阅读

3

【SD绘画教程】5月最新StableDiffusion保姆级全套教程+SD必备插件模型——秋叶SD零基础入门到精通 AI绘画出图全流程教学实战（附SD安装包）

720 阅读

4

AI副业带货轻松变现，0基础3分钟搞定图文全流程！

687 阅读

5

蛋仔派对：看别人让豆包看图片猜人物，我便让他认一下蛋仔皮肤！

685 阅读

6

【全108集】2025 最新发布！即梦AI3.0独家保姆级教程来啦！AI绘画+图生视频+脚本+剪辑完整流程详解！设计师必学的首款AI软件，按头就能学会

675 阅读

7

速抢（2核2G）77元/年香港免备案服务器

660 阅读

8

【拒绝人工智障！】为什么DeepSeek这么牛逼，到你手里却稀烂？三招教你把deepseek训练成你的私人AI助理，零基础小白轻松搞定大模型，我奶奶都能学会

642 阅读

9

【AI绘画】StableDiffusion插件之NSFW审查（瑟瑟审查）安装使用教程

597 阅读

10

分享4个超简单的DeepSeek提示词公式，让你的DeepSeek秒懂你

534 阅读

11

360 AI 浏览器来了！免费用 AI 还能剪视频？

508 阅读

12

MegaTTS3 V3版 - 去除上传npy限制真开源! 字节高保真语音克隆、文本转语音软件支持50系显卡本地一键整合包下载

506 阅读

13

Deepseek做表情包！首月变现！电脑操作有手就会~

495 阅读

14

即梦AI图片3.0智能参考图指南，也能一句话做出爆款设计了

493 阅读

15

如何免费使用VEO3？绝对不能错过的攻略

479 阅读

16

【AI绘画教程】专为电商设计师打造的StableDiffusion入门教程，从0到1掌握AI绘图+商业落地系列SD教程！基础入门+实战案例，一周掌握SD

469 阅读

17

认识Sora 理解Sora

466 阅读

18

怎样才能制作出一个数字人？一分钟教你完成AI数字人制作

431 阅读

19

WMS 系统「入库管理」功能详解

422 阅读

20

突破性更新！Vidu1.5让AI视频保持角色一致性从未如此简单～

411 阅读