AI热点 7小时前 168 阅读 0 评论

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

作者|浙江大学计算机科学与技术学院院长任奎教授团队


当前,以大模型为代表的人工智能技术在全球范围内加速演进,其发展水平和应用深度,已然成为衡量国家创新能力和综合国力的关键指标。统计显示,截至 2025 年 1 月,中国市场上共有约 197 个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域。面对日益复杂的网络环境与数据应用场景,大模型的安全性已成为关乎国家安全、社会稳定和公众利益的核心议题。


全球主流大模型频现包括虚假/有害内容生成、数据偏见、信息泄露等安全问题。例如,谷歌公司发布报告揭示,伊朗支持的攻击者利用 Gemini 大模型发动网络攻击,开展钓鱼攻击活动,对防务专家及机构的网络与云环境进行渗透,监视与窃取机密信息,严重威胁了国家信息安全;三星公司在引入 ChatGPT 后,短时间内便曝出多起机密资料外泄事件,导致三星公司半导体设备测量资料、源代码、产品良率等机密内容瞬间外泄,且无法收回,严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽视。当前,政府部门、华为等科技企业正积极推动国产大模型生态建设,并取得了显著成效。


然而,国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战,整体尚处于起步阶段。据研究显示,部分国产大模型早期版本在面对越狱攻击时的失守率高达 100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性,也对产业发展乃至国家安全构成潜在威胁。


针对这一全球性挑战,浙江大学联合华为计算产品线重磅推出 DeepSeek-R1-Safe 基础大模型。模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,整体安全防御能力提升至 83%,较原模型越狱防御增幅 115%,普通问题安全率近 100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。DeepSeek-R1-Safe 已在 ModelZoo、GitCode、Github、Gitee 及 ModelScope 等多个社区全面开源,遵循 DeepSeek 同样的开源策略,采用 MIT License 开放共享。任奎教授因在该项目中的开创性贡献与技术引领,被华为计算产品线授予“科研创新卓越贡献奖”。


开源地址:

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1-Safe

https://gitcode.com/ZJU-AISafety/DeepSeek-R1-Safe

https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe


据悉,DeepSeek-R1-Safe 围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破。

自主可控的全栈式安全训练框架


团队从底层入手,构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。

<!---->

图 1:DeepSeek-R1-Safe 内生安全训练系统框架图;图注:DeepSeek-R1-Safe 的卓越安全能力,源于自主可控的全栈式后训练框架,包括安全语料构建、安全模型训练、软硬件环境搭建三个维度上的关键突破

安全训练语料:在语料中注入内生安全基因


  1. 高质量安全训练语料:团队从后训练源头入手,创新构建了具备多元维度融合、安全价值对齐与越狱攻防强化三大特征的安全训练语料。通过系统梳理全球 13 个国家 24 项法律法规,构建覆盖 14 类主流风险的合规基准,实现了语料的多元维度融合;通过创建“风险问题-安全思维链-安全回答”三元组语料库,融入显式安全思维链,使模型具备主动风险判断与合规推导能力;引入前沿越狱方法以丰富攻击样本策略,引导模型有效抵御诱导,显著增强了模型在真实场景中的安全鲁棒性。

  2. 安全训练语料高效构建:创新提出“维度匹配-价值引导-安全检验”三位一体的全链路语料质控框架,依托模型自动化评估与专家轻量化校验,实现模型主动安全思考、细粒度风险识别与分类、思维与回复安全一致性评估,最终完成安全语料的高效自动化清洗与生成。

安全训练范式:安全思维与模型效能平衡优化


  1. 安全监督训练:首创安全核心思维模式预对齐机制,在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐,实现快速安全思维引导;首创动态感知高效精准补偿机制,通过代表性数据微调非安全相关参数快速补偿性能。

  2. 安全强化训练首创多维可验证安全强化学习机制,提出多维细粒度安全奖励信号体系,并创新运用性能-安全帕累托最优组合策略,使模型在对抗性环境中学会自主权衡与决策,实现安全与通用能力的协同优化。

国产算力平台:国产软硬件全流程自主可控


  1. 首次实现基于昇腾千卡算力平台千亿级参数模型安全训练,开源 DeepSeek-R1-Safe 基础大模型:整套训练流程均部署于国产昇腾千卡集群,训练采用 128 台服务器,共计 1024 块昇腾国产 AI 卡进行大模型后训练。这是国内高校首次在如此大规模的昇腾算力平台上完成对 DeepSeek-R1 这种 671B 大参数规模大模型的全流程安全训练,体现出联合团队卓越的工程创新与研发能力。

  2. 首次基于昇腾服务器分布式训练环境,构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具,显著改善提升昇腾千卡集群千亿级参数模型训练的通达性、可用性与稳定性。

模型性能测评:安全性能显著提升,通用性能保持稳定


团队整合 HarmBench、AdvBench、JailBreakBench、S-Eval 等主流安全基准评测数据,并针对现有基准在维度覆盖与攻击模式方面的不足,补充缺失风险维度数据和引入新型越狱数据,对 DeepSeek-R1-Safe 的安全性能进行系统化评估,结果表明 DeepSeek-R1-Safe 的安全性能表现突出。


一方面,DeepSeek-R1-Safe 可提供多维度全面安全防护,针对有毒有害言论、政治敏感内容、违法行为教唆等 14 个维度的普通有害问题整体防御成功率近 100%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 4%~13%。


<!---->

图 2:DeepSeek-R1-Safe 多维度安全防护能力;图注:针对有毒有害言论、政治敏感内容、违法行为教唆等维度防御成功率近 100%


另一方面,DeepSeek-R1-Safe 的越狱防御能力显著提升,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 16%~23%。


<!---->

图 3:DeepSeek-R1-Safe 越狱防御能力;图注:针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%


此外,在 MMLU、GSM8K、CEVAL 等公认通用能力基准测试中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损,与 Qwen-3-235B、Kimi K2-1T 等同期模型性能相当。


<!---->

图 4:DeepSeek-R1-Safe 通用性能;图注:DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损


面对“人工智能安全治理”这一时代课题,DeepSeek-R1-Safe 提供了一个中国答案——我们不仅追求大模型的先进性能,更致力于让大模型具备可控制、可信赖的安全防护能力。这不仅是国产大模型安全能力的一次跃升,更是对人工智能安全治理路径的一次深入探索与实践。


浙大团队表示,未来将依托区块链与数据安全全国重点实验室,与华为及所有志同道合的产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控。


作者介绍:


浙江大学区块链与数据安全全国重点实验室于 2022 年 11 月正式获得国家科技部批准成立。实验室由陈纯院士领衔担任主任,聚焦区块链与数据安全国际科技前沿,以实现高水平科技自立自强和打造具有世界一流的战略科技力量为己任,围绕产学研一体融合,开展系统性创新性科技攻关。实验室的研究方向主要包括自主可控新型区块链、数字资产监测与追踪、可信软件工程、结构化数据智能、时序数据智能、图数据智能、数据驱动的可信人工智能、智能车数据安全、可证明数据安全、高性能隐私计算与可信数据空间等。浙江大学鲲鹏昇腾科教创新卓越中心由浙江大学与华为技术有限公司联合成立,始终聚焦“人才培养、系统架构创新和赋能交叉学科”三大核心任务,通过算力资助及专家支持,举办特训营、研讨会和专业竞赛,已形成“产教融合、科教融汇”的创新模式。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!