AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

文生音频系统最新突破，实现精确时间控制与90秒长时音频生成！

想象一下，给AI发一段复杂指令生成音频：

0-10秒要有森林风吹声；0-4秒，鸟儿鸣叫；4-6秒，木头燃烧；6-16秒，动物踩在干树叶上的脚步声；10-16秒，蟋蟀鸣叫；16-19秒，猫头鹰鸣叫；17-26秒，溪水流淌。

现在它真能做到每个声音都卡准时间点，请听：

不论是长时间生成还是短时间都轻松拿捏：

1-3秒，狼嚎声；0-8秒，蟋蟀鸣叫声。

各种器物以及人的声响也都能复刻：

0-8秒，柔和的原声吉他拨弦奠定了节奏；8-16秒，男声加入，伴随着吉他的音乐唱歌；16-22秒，人声情绪高涨，而吉他声则保持稳定的背景；22-26秒，歌曲略微柔和，轻柔的吉他声持续演奏。

以前要实现这种效果非常难，要么时间控不准，要么时长撑不过10秒。但现在，来自清华大学、生数科技的新成果FreeAudio直接把这变成了现实。

更猛的是，它不用额外训练，靠一套“免训练”方法就突破了行业瓶颈，可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成。

实验中，在10秒时间控制的生成任务中，FreeAudio相较以往的免训练方法具有显著提升，且在无需任何时间对齐的音频-文本训练数据的情况下，取得了可与最先进基于训练方法媲美的效果。

此外，FreeAudio首次在长时音频生成任务中实现了时间控制，在大幅降低计算开销的同时，仍表现出与训练式方法相当的性能。

据了解，FreeAudio系统未来或考虑在Vidu产品端上线。该工作目前也已被ACM Multimedia 2025录用，并被AC推荐为Oral录取。

ACM MM是计算机多媒体领域的国际顶级会议，也是中国计算机学会（CCF）推荐的多媒体领域唯一A类国际学术会议，今年将于10月27日至31日在爱尔兰都柏林举行。

下面来看研究细节。

FreeAudio到底长啥样？

论文中提到，尽管现有的T2A生成模型取得了令人瞩目的进展，但在实现精确的时间控制和长时段连贯生成方面仍面临诸多挑战：

一是大多数公开可用的音频数据集长度较短（通常约为10秒），且仅提供粗粒度的标签或字幕级注释。

这限制了模型对细粒度时间控制和长时音频生成能力的学习与建模。同时，训练或微调用于时间控制和长时生成的大规模扩散模型，需要大量的计算资源与工程成本。

二是现有方法通常通过引入事件及其时间戳作为条件，增强模型的时间控制能力。

然而，这类方法普遍依赖于预定义的事件类别，难以适应开放式的自然语言描述，因而在实际应用中存在可扩展性差、泛化能力弱的问题。

为了应对上述挑战，本文提出FreeAudio，一种无需额外训练即可同时支持时间控制与长时生成的文本到音频框架。

该方法利用LLM对时间结构进行规划，将文本与时间提示解析为一系列互不重叠的时间窗口，并为每个窗口生成适配的自然语言描述。随后，FreeAudio依次生成各时间片段的音频内容，并通过上下文融合与参考引导机制实现最终的长时音频合成。

具体来看，FreeAudio以预训练的10秒可变长DiT-based T2A扩散模型为基础，引入音频总时长作为独立条件输入。目标是在无需训练的前提下实现时间控制与长时音频生成。

时间可控音频生成分为LLM Planning和Decoupling&Aggregating Attention Control模块：

在时间可控音频生成方面，FreeAudio首先借助LLM的Chain-of-Thought（CoT）思维链推理规划能力，将文本提示和时间提示解析为一系列不重叠的时间窗口，再将每个时间窗口对应的一组事件重述为适合T2A模型生成的文本提示。

Decoupling&Aggregating Attention Control模块由两个子机制组成，分别针对局部对齐与全局融合问题进行建模：

Decoupling Attention Control将原始Latent查询按照时间窗口划分，并仅在Cross-Attention模块中激活与当前时间窗口对应的子提示。
Aggregating Attention Control则负责在Self-Attention与Cross-Attention模块中融合子提示生成的关键区域，按照时间顺序拼接为完整输出，并与全局Latent进行插值融合。

另外，长时音频生成的整体架构如下图：

在长时音频生成方面，面对现有T2A模型推理长度有限（通常为10秒以内）的挑战，FreeAudio将任意时长的目标音频任务拆解为多个子片段，并采用两项关键技术协同保障整段音频的时序连贯与语义一致：

Contextual Latent Composition：在每一步扩散采样中对相邻片段的潜变量进行上下文融合，尤其在片段重叠区域采用双向拼接策略，有效提升跨段过渡的平滑性；
Reference Guidance：在自注意力模块中引入参考片段特征，作为全局参考，提升长音频在风格、音色与叙事连贯性方面的整体一致性；

最后，在波形重建阶段，对相邻片段的重叠区域进行去重裁剪，仅保留一次有效副本，保证生成音频在时域上的连续性与声学上的自然性。

实验效果如何？

在时间可控音频生成实验中，FreeAudio在AudioCondition测试集上显著优于现有主流方法，全面提升了时间对齐精度与音频质量。