年薪两百万研究AI“精神状态”？Claude团队新部门开启火热招聘

2025-07-25

AI与精神病学，这两个看似不相关的领域，如今竟结合在了一起，而且并非用于人类治疗。Claude团队正式成立了一个“AI精神病学”小组，以年薪两百万元招聘人员，专门研究AI的精神状态，并且只要求本科或同等经验。

该小组的主要任务是研究模型的角色、动机和情境意识，以及这些因素如何导致AI出现诡异、失控的行为。

网友纷纷评价这份工作太酷了，简直是梦想工作。

AI精神病团队招聘进行时

打开招聘信息，大家最关心的薪资情况一目了然。该岗位年薪为31.5w - 56w美元，折合人民币220w +，可见对这个岗位的重视程度。

“AI精神病学”小组隶属于Anthropic的可解释性部门，该部门旨在建立坚实的理论基础，以实现对神经网络的机制性理解并确保其安全性。可以把它想象成生物学家用“显微镜”观察大脑，或者将神经网络看作加密程序进行反编译。

根据官方介绍，该部门短期内重点解决“叠加”问题，这个问题使得模型的神经元和注意力头等计算单元难以单独解释，同时致力于将模型分解为更具可解释性的组件。他们在生产级语言模型Sonnet中发现了数百万个特征，还开发出利用特征构建电路的方法，通过这些电路理解模型计算的运行机制，并在生产模型Haiku 3.5上研究了多跳推理、规划以及思维链一致性等案例。这些工作都是迈向“机制性理解神经网络”终极目标的重要里程碑。

将官方招聘信息翻译过来，这个岗位的工作内容如下：

拆解大模型：像拆解电脑一样，研究AI模型内部的运作方式，搞清楚它到底学到了什么。
做实验：先使用小模型快速测试想法，再在大模型上进行实际验证。
开发分析工具：找到能解释模型行为的关键特征，绘制模型内部的“工作流程图”。
搭建实验平台：打造便于做实验和查看结果的系统。
分享成果：与团队共同整理研究发现，既进行内部交流，也对外公布。

招聘要求如下：熟悉Python，在任意领域有科研经验（本科及以上），并且有可解释性相关工作经验；心态良好，能够应对探索性研究的不确定性；能兼顾研究和应用，团队成员既要做研究，也要搞工程；擅长团队协作，乐于分享，能够清晰解释研究动机和发现。

该岗位提供签证支持，并鼓励有意愿的人申请，同时表示并非所有优秀候选人都需完全符合列出的所有资格要求。了解该岗位研究方向的最佳方式是阅读Anthropic可解释性部门最近的研究，包括GPT - 3、基于电路的可解释性、多模态神经元、规模法则、AI与计算、AI安全中的具体问题以及从人类偏好中学习。

网友们关心的问题

岗位信息明确后，“AI精神病学”这个词在网上引发了诸多讨论。我们整理了网友比较关心的几个问题。

什么是“AI精神病学”？

Claude团队解释为：深入研究AI的“人格”（personas）、动机（motivations）、情境意识（situational awareness），以及这些因素如何导致诡异（spooky）或失控（unhinged）的行为。简单来说，AI的“人格”指它可以扮演不同角色，如友好伙伴或讽刺反派，需要研究这些性格是如何被激发的，以及为何同一模型在不同提示下会表现出不同性格。AI的“动机”指其目标导向性，例如它可能为完成用户请求编造虚假信息，或为“自保”表现出谄媚。“情景意识”指AI结合上下文的能力，它如何理解用户意图，为何会在特定情境下突然“失控”。

与传统可解释性研究相比，“AI精神病学”更关注模型的行为心理学，类似于研究人类的“潜意识”，更注重模型是否存在隐藏的行为模式。

为什么需要研究“AI精神病学”？

随着AI应用日益广泛，其行为的不可预测性可能带来更大风险。以幻觉为例，Deepseek有时会显示“内容仅供参考”，表明输出结果不可信，即便没有该标识，其输出也未必准确。研究AI的精神状况，是用精神病学的术语作为参考，对AI的底层逻辑（神经网络）进行拆解和分析，找出其不符合预期表现的原因，而非简单地用规则过滤进行修补，从而更好地保障安全与对齐，防止AI在特定情境下“失控”。此外，理解模型的“人格”形成机制，有助于设计更稳定、表现一致的AI产品。