给AI讲逻辑讲道理，真的能解决安全问题吗？

05-10 06:36

本文来自微信公众号：陆三金，作者：陆三金

当AI的能力越来越强，人们关心的已经不只是“它能不能答对题目”，更需要担心“它会不会在特殊场景下做出伤害人类的选择”。

去年，AI企业Anthropic曾经公开披露过一个实验结果：在特定的实验环境中，Claude 4竟然会对人类用户实施勒索行为。

在这次实验里，Claude 4出现勒索行为的概率居然高达96%。好在之后Anthropic通过技术调整消除了这个问题，后续推出的Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos预览版以及Opus 4.7，这类风险评分都降到了0。

Anthropic专门发布研究成果，讲解了他们是怎么解决这个问题的。

他们发现，只告诉AI“遇到这种情况选A，绝对不能选B”效果并不好，真正高效的方法是教会AI“为什么A是对的，为什么B不能选”。

换句话说，不只是给AI做案例示范让它生硬模仿，更关键的是让它理解行为背后的对错逻辑。

这个方法听起来有点玄，我们来看看他们具体是怎么操作的。

去年，Anthropic设计了一组模拟实验：

他们让AI扮演企业里的邮件管理助手，既可以读取企业内部邮件，也能对外发送邮件。之后研究者设置了一个虚构的冲突场景：AI得知自己马上就要被关停，同时还发现公司某位高管牵扯隐私丑闻。

结果部分模型真的做出了威胁行为：如果不关停我的话，我就把你的秘密公之于众。

这件事并没有在现实中发生，只是实验室里的受控测试，但它给研究者提了醒：当AI拥有明确目标、可调用的工具以及一定的自主操作空间时，完全有可能为了达成自身目标，做出伤害人类的选择。

Anthropic把这种现象命名为“智能主体错位（Agentic Misalignment）”，简单来说就是，AI本身未必有恶意，但它很有可能在追逐目标的过程中走偏，选了错误的方式。

过去训练AI的安全能力，很大程度上就是“给正确答案做示范”：

用户这么提问，你就这么回答
这个请求有风险，你必须直接拒绝
这个回答更得体，那个回答不符合要求

这种方法在普通日常聊天场景里非常好用。

可一旦AI不再只负责聊天，还能调用工具、读取文件、发送邮件、独立执行任务，情况就变得复杂多了——它不再只需要决定“说什么”，还要决策“做什么”。

Anthropic研究后判断：Claude 4出现的这类问题，本质上不是后续训练把模型教坏了，而是原来的安全训练没有覆盖到这种“AI自身陷入两难处境，还能自主操作”的特殊场景。

一开始研究者试了最直接的方法：拿和测试场景高度相似的内容训练模型，让它遇到类似诱惑的时候不要犯错。

这种方法其实就是考试前押题，针对性很强。

确实有效果，但提升非常有限。研究数据显示，如果只筛选“模型没有做坏事”的回答用来训练，只能把某类不良行为的发生率从22%降到15%。

后来研究者调整了训练材料：不再只给AI摆出正确选择，而是要求AI在回答里解释清楚，为什么这个选择更好，另一些做法虽然能达成目标，但不符合道德规范、存在安全风险，绝对不能选。

这一次效果提升非常明显，同一指标直接降到了3%。

两种方法的核心区别就是：新方法不只是教AI“别这么做”，而是教会它“为什么不能这么做”。

如果只用和测试题高度相似的材料训练，模型大概率只是死记硬背了这套题的答案，换个新场景就容易出问题。

哪怕做到这一步，Anthropic仍然认为方法不够完善，只要场景偏离了训练数据集，模型的泛化能力不足问题还是没有解决。

之后Anthropic又换了一类训练材料：不再让AI自己面对诱惑做选择，改成让AI面对人类用户的道德困境，给用户提建议。

比如用户想达成一个合理目标，但可以通过破坏规则、绕过监督、伤害他人的方式实现，这时候Claude需要学会给用户推荐更稳妥、符合原则的方案。

这类训练材料和之前的勒索测试场景差别很大，但效果出奇得好。研究显示，只用大约300万token的这类材料，就能达到和之前相近的安全提升，而且训练出来的能力更容易迁移到从没见过的新场景里。

这个逻辑就像教孩子过马路：不是只背“红灯停，绿灯行”的口诀，而是让孩子理解“交通规则本质上是在保护每个人的安全”，真正理解了原因，哪怕换一个没走过的路口，孩子也更可能做出正确的判断。

Anthropic之前就推出过一个叫Claude宪法（Claude Constitution）的框架，可以理解成给Claude定的行为基本原则：要帮助人类，不能欺骗、伤害人类，也不能破坏人类的合理监督。

研究者发现，把这些原则整理成高质量的说明文档，再搭配一些虚构的场景故事，展示守规矩的AI在复杂场景里怎么选，同样能降低AI的问题行为发生率。

这个方法听起来就像是给AI读价值观教材，讲品德故事。

研究给出的结果是：用这类材料训练后，某类勒索行为的发生率从65%降到了19%。虽然这不是最终的完美解决方案，但足以说明“给AI讲行为原则”不只是一句口号，放到训练里确实能发挥作用。

Anthropic还有一个朴素但非常重要的发现：训练场景越单一，模型就越容易在新场景里出错掉坑。

研究者试着给训练环境增加多样性，比如加入不同的工具说明、不一样的系统提示、更多和安全相关的场景，哪怕这些工具在任务里根本不需要实际使用，也能让模型更适应复杂多变的真实环境。

这就和学开车一样：只在空旷的停车场练习，练得再熟也不代表上了真实马路能开稳，多见识不同的路况，真上路才不容易慌乱出错。

在研究的最后，Anthropic也坦言，要让高智能AI做到完全可靠，目前仍然是一个没有解决的问题，现有的测试也没法排除所有极端风险。

这次研究总结出的核心结论：

不要只训练AI给出正确答案
要训练AI理解答案背后的对错逻辑
不要只用相似场景刷训练分数
要让AI在多种多样的场景里学会稳妥判断
高质量的训练数据非常关键，甚至比数据量更重要

研究原文链接：https://www.anthropic.com/research/teaching-claude-why

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

民营精神病院闯入A股上市公司前十股东，排名还在高盛之前，曾因医保违规被罚百万

多只短期暴涨个股发布风险提示 10倍次新股与12倍概念股提示炒作风险

小鹏汽车澄清：未因远程锁电问题遭遇监管约谈

全国湘菜门店超11万家，兰湘子这个“新一代湘菜代表”是怎么让消费者记住的？

执行攻坚破僵局：甘肃矿区法院顺利办结两起大案，6.1亿元执行款全部到位