音乐界的sd?ACE-Step音乐生成模型发布，20秒打造4分钟完整歌曲

AIbase基地

AI技术专栏作家 | 发布了 246 篇文章

ACE-Step，一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”，于近日正式亮相，被誉为“音乐界的Stable Diffusion”。该模型以其惊人的生成速度和多样化功能引发行业热议，支持19种语言，可在短短20秒内生成一首长达4分钟的完整音乐作品，效率比主流模型快15倍以上。

核心功能亮点:从歌词到完整歌曲一气呵成

ACE-Step以其强大的生成能力重新定义了AI音乐创作。其核心功能包括:

歌词驱动创作:输入歌词，模型自动生成旋律并演唱完整歌曲;

风格化编曲:根据指定的风格标签（如说唱、电子乐、流行等），自动生成伴奏和配器;

精准修改:支持对歌曲某段歌词进行修改，而不影响原有旋律的连贯性;

多样化生成:能够生成带风格的说唱、电子乐、人声或复杂配器，满足不同音乐场景需求。

社交媒体上，开发者与音乐创作者对ACE-Step的“一句歌词快速写歌”功能赞不绝口，认为其为音乐创作提供了前所未有的便捷性与灵活性。

技术突破:高效生成与多语言支持

ACE-Step基于DiT（Diffusion Transformer）架构，采用轻量化设计，支持在消费级GPU上运行，显著降低了硬件门槛。在A100GPU上，模型仅需20秒即可生成4分钟的高质量音乐，生成速度比传统模型快15倍以上。此外，ACE-Step支持19种语言，覆盖英语、中文、日语、西班牙语等多种语系，为全球音乐创作者提供了广泛的适用性。AIbase编辑团队了解到，该模型通过与StepFun的Step-1(130亿参数语言模型)结合，经过音频上下文预训练和任务特定后训练，实现了跨模态音乐理解与生成的高效融合。

开源赋能，社区驱动创新

作为一款开源模型，ACE-Step通过GitHub（stepfun-ai/Step-Audio）向开发者开放，允许社区对其进行微调以适配多样化的音乐任务。ACE Studio与StepFun表示，ACE-Step的简单架构和低硬件要求使其易于扩展，未来有望支持更多音乐风格和创作场景。AIbase观察到，社区开发者已开始基于ACE-Step开发定制化的音乐生成工具，进一步推动了AI音乐生态的繁荣。

AI音乐创作的未来标杆

ACE-Step的发布不仅展示了ACE Studio与StepFun在AI音乐生成领域的深厚技术积累，也为全球音乐创作者提供了一个高效、灵活的创作平台。AIbase编辑团队认为，ACE-Step的快速生成能力和多语言支持将大幅降低音乐创作的门槛，助力音乐家、独立创作者乃至影视制作团队实现创意落地。未来，随着模型的迭代和社区的持续贡献，ACE-Step有望成为AI音乐创作领域的标杆，引领“人机共创”的新潮流。

项目地址：https://ace-step.github.io/