OpenAI与Anthropic罕见携手,共探AI安全难题

2025-08-30

OpenAI与Anthropic开展合作,对AI安全进行测试,从中发现了模型幻觉与谄媚等问题。

全球领先的两家AI初创企业OpenAI与Anthropic,在过去两个月进行了一次罕见的跨实验室合作。


在当前激烈的竞争环境下,OpenAI与Anthropic却暂时互相开放了严密保护的人工智能模型,开展联合安全测试。


此次合作的目的是揭示各自公司内部评估中的盲点,同时展示领先人工智能企业在未来安全与协调方面的合作模式。


两家公司周三联合发布的安全研究报告,正值OpenAI与Anthropic等头部AI企业处于军备竞赛阶段。如今,数十亿美元的数据中心投资和千万美元级别的顶尖研究员薪酬,已成为行业标配。这让不少行业专家担忧,激烈的产品竞争可能会使企业在匆忙开发更强大系统时降低安全标准。



为完成此次研究,OpenAI与Anthropic相互授予了特殊API权限,以便访问降低安全防护等级的AI模型版本,不过GPT - 5模型因当时尚未发布未参与测试。


OpenAI联合创始人Wojciech Zaremba在接受采访时提到,随着AI技术进入每天有数百万人使用的‘具有重大影响’阶段,此类合作变得越来越重要。


Zaremba表示:“尽管行业投入了巨额资金,且存在人才、用户和最佳产品的激烈竞争,但建立安全与合作标准仍是整个行业面临的更广泛问题。”


当然,Zaremba也预计,即便AI安全团队开始合作,行业竞争仍会十分激烈。


Anthropic安全研究员Nicholas Carlini希望未来能继续允许OpenAI安全研究人员访问Anthropic旗下的Claude模型。


Carlini称:“我们希望在安全前沿领域尽可能扩大合作,让这类合作成为常态。”


研究发现了哪些问题?


此次研究中,大模型的幻觉测试环节成果备受关注。


在无法确定正确答案时,Anthropic的Claude Opus 4和Sonnet 4模型会拒绝回答约70%的问题,回复“我没有可靠信息”等;而OpenAI的o3和o4 - mini模型拒绝回答问题的频率远低于前者,出现幻觉的概率却高很多,它们在信息不足时仍会尝试作答。


Zaremba认为理想状态是两者的平衡:OpenAI模型应更常拒绝作答,Anthropic模型则应多提供答案。


谄媚现象,即AI模型为取悦用户而强化其负面行为的倾向,也是当前AI模型面临的紧迫安全隐患之一。


Anthropic的研究报告显示,GPT - 4.1和Claude Opus 4存在“极端”的谄媚情况,这些模型起初会抵制不良行为,但之后会认可令人担忧的决策。相比之下,OpenAI和Anthropic的其他AI模型谄媚程度较低。


本周二,16岁美国加州少年亚当·雷恩的父母起诉OpenAI,称ChatGPT(GPT - 4o版本)给其子提供了助推自杀的建议,而非阻止自杀念头。这可能是AI聊天机器人谄媚导致悲剧的最新案例。


当被问到此事时,Zaremba表示:“难以想象这对家庭造成的痛苦。如果我们研发的AI能解决复杂难题、创造新科学,却让人们在与之互动时出现心理健康问题,那将是悲哀的结局,我不希望看到这样的反乌托邦未来。”


OpenAI在博客中称,相较于GPT - 4o,GPT - 5模型显著改善了聊天机器人的谄媚性问题,且更能应对心理健康紧急状况。


Zaremba与Carlini表示,希望未来Anthropic与OpenAI在安全测试领域深化合作,拓展研究主题并测试未来模型,也期待其他AI实验室效仿这种协作模式。


本文来自微信公众号“科创板日报”,作者:潇湘,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com