AI安全 2天前 145 阅读 0 评论

把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

论文第一作者唐灵,张拳石老师课题组的博二学生。

今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断,这事儿特别应景。

所谓神经网络指纹技术,是指使用神经网络内部如同人类指纹一样的特异性信息作为身份标识,用于判断模型的所有权和来源。传统方法都在玩 "贴标签":往模型里塞各种人造指纹。但问题是,模型微调(fine-tuning)就像给整容 —— 参数一动,"整张脸" 就变了,指纹自然就糊了。

面对神经网络微调训练的威胁,现有方案都在修修补补,而我们上升到理论层面重新思考:神经网络是否先天存在某种对微调鲁棒的特征?如果存在,并将该固有特征作为网络指纹,那么无论对模型参数如何微调,该指纹就能始终保持不变。在这一视角下,前人的探索较为有限,没有从理论上证明出神经网络内部对微调天然鲁棒的特征。

  • 论文地址:https://arxiv.org/pdf/2505.01007
  • 论文标题:Towards the Resistance of Neural Network Watermarking to Fine-tuning

方法介绍

这里我们发现了一个颠覆性事实:卷积核的某些频率成分根本不怕微调。就像给声波做 DNA 检测,我们把模型参数转换到频率域,找到了那些 "焊死" 在频谱上的特征点 —— 我们拓展了离散傅里叶变换,从而定义了神经网络一个卷积核所对应的频谱,并进一步证明:当输入特征仅包含低频成分时,卷积核的某些特定频率成分在微调过程中能够保持稳定。

实验

最后,我们开展了一系列实验,以评估所提出神经网络指纹方法对微调操作的鲁棒性。实验结果表明,相较于现有主流的模型指纹与模型溯源方法,在所有数据集和微调使用的学习率设置下,我们的方法在模型溯源任务中均取得了最优表现,尤其在高学习率条件下展现出显著优势。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!