SongGeneration – 腾讯AI Lab开源的音乐生成大模型

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题，SongGeneration基于LLM-DiT融合架构，显著提升音质表现和生成速度，生成歌曲的质量在多个维度上优于多数开源模型，部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能，满足创作者的可玩性，具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景，推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

SongGeneration的主要功能

文本控制：输入关键词文本，如“开心流行”，AI快速生成对应风格和情绪的完整音乐作品。
风格跟随：上传10秒以上参考音频，支持生成风格一致的全长新曲，涵盖多种流派。
多轨生成：自动生成分离的人声与伴奏轨道，保证旋律、结构、节奏与配器高度匹配。
音色跟随：基于参考音频的音色跟随，实现“音色克隆”级别的人声表现，自然且有情感。

SongGeneration的技术原理

LeLM（Language Model）：混合标记（Mixed Tokens）代表人声和伴奏的组合音频，用在捕捉歌曲的整体结构和节奏，确保人声与伴奏的和谐。双轨标记（Dual-Track Tokens）分别编码人声和伴奏，用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记，避免不同标记类型之间的干扰，提高生成质量和效率。
音乐编解码器（Music Codec）：编码器（Encoder）将音乐音频提取为混合标记和双轨标记。解码器（Decoder）将双轨标记重建为高保真的音乐音频，确保生成的歌曲具有高质量的音频表现。
多偏好对齐（Multi-Preference Alignment）：直接偏好优化（DPO）基于半自动数据构建和 DPO 后训练，处理多样化的人类偏好，提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐，提升生成歌曲的整体质量。
三阶段训练范式：
- 预训练（Pre-training）：在大规模音乐数据上进行预训练，对齐不同输入模态和混合标记。
- 模块扩展训练（Modular Extension Training）：进一步训练 AR 解码器，建模双轨标记，提升音质和音乐性。
- 多偏好对齐（Multi-Preference Alignment）：基于 DPO 后训练，优化模型在多维度偏好上的表现。

SongGeneration的项目地址

GitHub仓库：https://github.com/tencent-ailab/SongGeneration
HuggingFace模型库：https://huggingface.co/tencent/SongGeneration
arXiv技术论文：https://arxiv.org/pdf/2506.07520
在线体验Demo：https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

低比特率音乐编解码：实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建，减轻语言模型建模负担。
多类别token并行预测：基于“混合优先，双轨其次”策略，避免token相互干扰，提升音质和音乐性。
多维度人类偏好对齐：对齐音乐性、歌词对齐、提示一致性偏好，提升模型效果和鲁棒性。
三阶段训练范式：预训练、模块化扩展训练、多偏好对齐训练，优化音乐生成效果。

SongGeneration的性能表现

主客观整体测评：在与三款商业模型（Suno v4.5、海绵音乐、Mureka O1）和四款开源模型（YuE、DiffRhythm、ACE-Step、SongGen）的全方位主客观评测对比中，SongGeneration在开源模型中稳居第一，在商业模型中位列前茅，展现出显著的竞争优势。
客观测评（第三方开源模型评测）：在客观测评横向对比中中，SongGeneration在内容欣赏度（CE）、内容实用性（CU）和制作质量（PQ）三个关键维度上均位列榜首，制作复杂度（PC）处于领先位置。
主观评测（普通用户 + 专业音乐人评测）：在主观评测中，SongGeneration在歌词准确度上超越包括Suno在内的众多大模型，体现模型在语音与文本对齐能力上的显著优势，及在内容生成细节处理方面的成熟度。