
音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲
ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。
核心功能亮点:从歌词到完整歌曲一气呵成
ACE-Step以其强大的生成能力重新定义了AI音乐创作。其核心功能包括:
歌词驱动创作:输入歌词,模型自动生成旋律并演唱完整歌曲;
风格化编曲:根据指定的风格标签(如说唱、电子乐、流行等),自动生成伴奏和配器;
精准修改:支持对歌曲某段歌词进行修改,而不影响原有旋律的连贯性;
多样化生成:能够生成带风格的说唱、电子乐、人声或复杂配器,满足不同音乐场景需求。
社交媒体上,开发者与音乐创作者对ACE-Step的“一句歌词快速写歌”功能赞不绝口,认为其为音乐创作提供了前所未有的便捷性与灵活性。
技术突破:高效生成与多语言支持
ACE-Step基于DiT(Diffusion Transformer)架构,采用轻量化设计,支持在消费级GPU上运行,显著降低了硬件门槛。在A100GPU上,模型仅需20秒即可生成4分钟的高质量音乐,生成速度比传统模型快15倍以上。此外,ACE-Step支持19种语言,覆盖英语、中文、日语、西班牙语等多种语系,为全球音乐创作者提供了广泛的适用性。AIbase编辑团队了解到,该模型通过与StepFun的Step-1(130亿参数语言模型)结合,经过音频上下文预训练和任务特定后训练,实现了跨模态音乐理解与生成的高效融合。
开源赋能,社区驱动创新
作为一款开源模型,ACE-Step通过GitHub(stepfun-ai/Step-Audio)向开发者开放,允许社区对其进行微调以适配多样化的音乐任务。ACE Studio与StepFun表示,ACE-Step的简单架构和低硬件要求使其易于扩展,未来有望支持更多音乐风格和创作场景。AIbase观察到,社区开发者已开始基于ACE-Step开发定制化的音乐生成工具,进一步推动了AI音乐生态的繁荣。
AI音乐创作的未来标杆
ACE-Step的发布不仅展示了ACE Studio与StepFun在AI音乐生成领域的深厚技术积累,也为全球音乐创作者提供了一个高效、灵活的创作平台。AIbase编辑团队认为,ACE-Step的快速生成能力和多语言支持将大幅降低音乐创作的门槛,助力音乐家、独立创作者乃至影视制作团队实现创意落地。未来,随着模型的迭代和社区的持续贡献,ACE-Step有望成为AI音乐创作领域的标杆,引领“人机共创”的新潮流。
项目地址:https://ace-step.github.io/