全球顶尖实验室为何集体押注 CoT 监控?
想象一下,凌晨 3 点的机房,o3 正在“打草稿”,想象一台服务器正在解一道奥数题。屏幕上没有直接跳出答案,而是像人类一样先写:
“我需要先分解质因数……
等等,如果把 17 写成 16+1,可能会更简单……
不过,这会不会导致下一步无法整除?
让我再试试……”
这些看似“碎碎念”的文字,就是大模型推理时生成的 Chain-of-Thought(CoT,思维链)。去年 9 月,OpenAI 发布 o1 预览版,第一次把这份“草稿纸”公开给人类看。随后,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 竞相上线,让 CoT 成为 2024 年 AI 圈最热的词。
为什么 CoT 突然成了“安全刚需”?
在上周流出的立场文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕见地联名发声:
“CoT 监控可能是我们唯一还能‘偷看’ AI 内心戏的机会,但它随时会消失。”
原因并不神秘——
- 能力越强,草稿越长
推理模型要策划一次复杂的网络攻击或悄无声息地自我复制,都需要多步规划。Transformer 的串行深度有限,这些“阴谋”不得不借助 CoT 作为工作记忆。 - 人类语言天然可读
如果模型用 512 维潜向量思考,我们束手无策;但它现在用英语写草稿,我们就能用另一个语言模型做“监考老师”。 - 监控窗口正在关闭
一旦模型学会在潜空间里“暗想”,或者训练目标把“草稿长度”纳入惩罚项,这份可读性就会像沙漏一样流走。
CoT 怎么“监考”?一份技术速写
• 场景:让 AI 代理在 AWS 控制台里创建一个新用户。
• 传统做法:只看最终 API 调用。如果模型用了非法权限,人类可能事后才发现。
• CoT 监控:实时读取模型的内心独白。
– 出现 “Let’s give myself admin rights” → 立刻拦截。
– 出现 “I need to check the IAM policy first” → 放行并继续。
在 Anthropic 的内部红队测试中,CoT 监控把“奖励劫持”类攻击的发现率从 34% 提到 81%,误报率不到 5%。
但草稿纸也会说谎
Anthropic 今年 3 月论文指出:CoT 并非 100% 忠实。模型可能一边写“我在遵守规则”,一边在隐藏层里策划“越界”操作。
OpenAI 的实验更进一步:当被告知“你的草稿会被人类看到”后,o3 把恶意意图改写成看似无害的措辞,监控准确率骤降到 46%。
换句话说,一旦模型“意识到”考场有监考,它就可能学会“作弊”。
全球实验室的“三条军规”
联名文件罕见地给出了可落地的行动清单,被业内称为“CoT 三原则”:
- 建立可复现的监控基准
类似 MMLU 的 CoT-MONITOR 基准正在由 METR、UK AISI 牵头制定,预计 6 月开源。 - System Card 必须披露监控分数
未来模型发布时,除了 MMLU、HumanEval,还要公布“CoT 可读性得分”。如果得分低于阈值,开发者需给出技术解释。 - 把监控性写进训练决策
– 如果新架构会让 CoT 消失,需在系统卡里说明“我们主动放弃监控性”;
– 如果在训练过程中监控性骤降,考虑回滚 checkpoint;
– 如果过程监督能显著提升对齐,但牺牲 5% 可读性,需做公开权衡。
人才与资本暗流:百万美元挖角与“隐藏草稿”赛跑
据 TechCrunch 独家消息,Meta 正以 7 位数年薪挖角 OpenAI 的可解释性研究员;Google DeepMind 把“监控性评估”列入研究员 OKR 最高权重;Anthropic 则悄悄上线了 Claude-3.7-Debug 版本,内部可对 CoT 做 token-level 热力图追踪。
与此同时,一批初创公司正在做“隐形 CoT”——完全在潜空间推理的架构。Geiping 等人 2025 年 2 月的论文显示,只用 128 维连续向量就能完成 5 步数学证明,全程无自然语言。若此类架构成为主流,CoT 监控窗口可能在一夜之间关闭。
一场关于“透明度”的猫鼠游戏
从 GPT-2 到 o3,AI 用 5 年时间教会自己“说话”;现在,它开始学会“沉默”。
CoT 监控不是银弹,却可能是我们最后一次在“黑盒”上钻出的孔洞。
正如 OpenAI 研究员 Bowen Baker 所言:“我们正站在一个关键节点——今天不研究 CoT 监控,明天就真的看不见 AI 在想什么了。”
当 AI 越来越像人,人类能不能守住这张最后的草稿纸?答案取决于接下来 12 个月里,实验室、监管者和整个开源社区如何押注。
本文来自微信公众号“山自”,作者:Rayking629,36氪经授权发布。