AI热点 5小时前 • 101 阅读 • 0 评论

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

3小时前 • AI热点

Netflix 承认已在自制剧集中使用生成式 AI：制作比传统特效快 10 倍

Netflix 承认已在自制剧集中使用生成式 AI：制作比传统特效快 10 倍

3小时前 • AI热点

新增“深度搜索”“语音输入模式”等功能，Mistral AI 旗下 Le Chat 聊天机器人获升级

新增“深度搜索”“语音输入模式”等功能，Mistral AI 旗下 Le Chat 聊天机器人获升级

5小时前 • AI热点

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

5小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

7小时前 • AI热点

欧盟为具有系统性风险的 AI 模型定规矩：若发生严重事故必须上报，网安工作要到位

欧盟为具有系统性风险的 AI 模型定规矩：若发生严重事故必须上报，网安工作要到位

7小时前 • AI热点

砸钱抢市场，AI 搜索企业 Perplexity 向印度 3.6 亿用户免费赠送原价 200 美元的一年 Pro 服务

砸钱抢市场，AI 搜索企业 Perplexity 向印度 3.6 亿用户免费赠送原价 200 美元的一年 Pro 服务

9小时前 • AI热点

热门标签

AI广告智灵云搜索引擎创意内容搞笑小剧场半挂式卡车 AI工作流微软365Copilot 机器学习(ML)模型一键包

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝