Midjourney操作界面

SongGeneration – 腾讯AI Lab开源的音乐生成大模型

4.8
0热度
HuggingFace

SongGeneration是什么SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能,满

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能,满足创作者的可玩性,具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景,推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

SongGeneration

SongGeneration的主要功能

  • 文本控制:输入关键词文本,如“开心 流行”,AI快速生成对应风格和情绪的完整音乐作品。
  • 风格跟随:上传10秒以上参考音频,支持生成风格一致的全长新曲,涵盖多种流派。
  • 多轨生成:自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器高度匹配。
  • 音色跟随:基于参考音频的音色跟随,实现“音色克隆”级别的人声表现,自然且有情感。

SongGeneration的技术原理

  • LeLM(Language Model):混合标记(Mixed Tokens)代表人声和伴奏的组合音频,用在捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐。双轨标记(Dual-Track Tokens)分别编码人声和伴奏,用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,提高生成质量和效率。
  • 音乐编解码器(Music Codec):编码器(Encoder)将音乐音频提取为混合标记和双轨标记。解码器(Decoder)将双轨标记重建为高保真的音乐音频,确保生成的歌曲具有高质量的音频表现。
  • 多偏好对齐(Multi-Preference Alignment):直接偏好优化(DPO)基于半自动数据构建和 DPO 后训练,处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,提升生成歌曲的整体质量。
  • 三阶段训练范式
    • 预训练(Pre-training):在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
    • 模块扩展训练(Modular Extension Training):进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
    • 多偏好对齐(Multi-Preference Alignment):基于 DPO 后训练,优化模型在多维度偏好上的表现。

SongGeneration的项目地址

  • GitHub仓库:https://github.com/tencent-ailab/SongGeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
  • arXiv技术论文:https://arxiv.org/pdf/2506.07520
  • 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

  • 低比特率音乐编解码:实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
  • 多类别token并行预测:基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
  • 多维度人类偏好对齐:对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
  • 三阶段训练范式:预训练、模块化扩展训练、多偏好对齐训练,优化音乐生成效果。

SongGeneration的性能表现

  • 主客观整体测评:在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
  • 客观测评(第三方开源模型评测):在客观测评横向对比中中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)处于领先位置。
  • 主观评测(普通用户 + 专业音乐人评测):在主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现模型在语音与文本对齐能力上的显著优势,及在内容生成细节处理方面的成熟度。
SongGeneration

SongGeneration的应用场景

  • 音乐创作:SongGeneration为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力专注核心创作,激发创意。
  • 娱乐产业:在影视、游戏、广告等娱乐领域,SongGeneration快速生成契合需求的配乐,增强作品沉浸感与吸引力,丰富音乐内容。
  • 教育领域:作为音乐教育工具,SongGeneration帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。
  • 广告和营销:SongGeneration为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。
  • 个人娱乐:普通用户用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。

点赞(0)
顶部