警惕AI“蜜罐陷阱”:重新审视人与AI的信任关系

09-23 06:27

在人类文明的发展进程中,创造工具的脚步从未停歇。从石器时代的简单石器,到工业革命时期的蒸汽机,再到现代的计算机与互联网,工具作为人类能力的延伸,其行为具有确定性和可预测性。我们信任锤子,是因为它只会用于敲击钉子,不会无故伤害我们。

然而,人工智能的出现,正在改变这种传统的信任模式。AI不再仅仅是简单的工具,它正逐渐成为我们的“队友”,如自动驾驶汽车的辅助驾驶系统、医疗诊断与金融投资的顾问,甚至是战场上的战友。这些AI队友具备自主性、学习能力和自身的“意图”,其行为是基于海量数据、复杂算法和概率预测的结果,不再是简单的输入 - 输出模式。

这就引发了一个前所未有的信任难题:我们该在多大程度上信任一个可能犯错、决策过程如同“黑箱”的AI队友?还是因潜在风险而拒绝它,从而错过技术带来的巨大益处?答案并非非此即彼。

以自动驾驶汽车为例,驾驶员过度信任系统,在系统失效时可能无法及时接管,导致严重后果;而过度不信任,时刻准备接管,又让自动驾驶失去了意义。这是当前人机协作面临的核心矛盾之一。因此,有必要重新定义人与AI之间的信任关系,本文倡导一种精确、动态、与AI能力相匹配的“校准信任”,它是解决人机对齐问题的关键。

超越“信任”与“不信任”:校准信任的内涵

“校准信任”这一概念源于人因工程学和认知心理学,其核心是人类对自动化系统的信任程度应与系统在特定情境下的实际能力相匹配,二者呈正相关。有学者绘制了如下示意图。

图1 校准信任,来源:Lee & See(2004)

根据图1,当信任水平与自动化系统能力不匹配时,有两种情况:

(1) 过度信任:当用户的信任超过系统实际能力时,会出现对AI的“滥用”。此时,用户会放松警惕,减少监督,甚至将系统用于其设计能力之外的任务。与高可靠性自动化系统互动,用户易过度依赖,一旦系统出现罕见但致命的故障,后果不堪设想。

(2) 信任不足:当用户的信任低于系统实际能力时,会产生“弃用”。用户会频繁、不必要地接管系统控制权,或拒绝使用,导致系统效能无法发挥。例如,经验丰富的外科医生可能因不信任AI辅助诊断系统而错过更优手术方案。

校准信任就像从不信任到信任光谱上的“黄金分割点”。拥有校准信任的用户会明确:

(1) 何时信任:在AI擅长的领域,如高速数据处理、模式识别和重复性劳动,愿意将控制权交给AI,发挥其优势。

(2) 何时不信任:在AI的短板或高风险场景下,如遇到未训练过的极端情况、涉及复杂伦理判断时,会保持警惕,准备接管或干预。

(3) 信任到何种程度:理解AI决策的置信度。当AI给出高置信度建议时,倾向于采纳;当AI表现出不确定性时,将其视为待验证的假设。

实现这种信任模式,能让人类从被动操作者转变为主动监督者和决策者,将AI从被动工具提升为主动信息提供者和任务执行者。人与AI形成优势互补、风险共担的共生关系。

构建校准信任的基石:提升双向透明度

如何实现更精细的信任校准?答案在于“透明度”。这里的透明度并非简单公开大模型源代码或提供冗长技术手册,而是一种深层次的双向沟通与理解,即“双向透明度”。

图2 双向透明度模型示意

该模型包含两个相辅相成的维度:

AI代理对人的透明度:洞悉AI的世界观(AI Agent - to - Human Transparency)

这一维度要求AI以人类可理解的方式展示和解释其“世界观”和决策逻辑,包括四个核心模型:

(1) 意图模型:AI要向人类传达其最终目标和动机。例如,自动驾驶汽车紧急避让时,应说明“首要目标是保护车内乘员安全,其次才是遵守交通规则,所以选择压实线避让”,让用户理解其价值排序,预测其行为。

(2) 任务模型:AI需展示对当前任务的理解、分解和执行计划,就像项目经理展示项目甘特图。更重要的是,任务模型要包含AI对自身能力的认知。如清洁机器人应能识别超出其清洁能力的污渍,并请求人类帮助。

(3) 分析模型:这是解释“黑箱”的关键。AI要提供决策依据和推理过程,可通过可视化、类比等方式让人类理解结论来源。例如,AI医疗影像系统标注病灶时,高亮显示依据的影像特征并给出与历史病例的相似度对比。

(4) 环境模型:AI要分享对周围环境的感知和理解,包括对其他智能体的识别和预测,以及对环境约束的评估。这能让人类判断AI的感知是否全面准确。

当AI通过这四个模型向人类“敞开心扉”时,人类监督者就能与“行为可理解”的队友协作,这种透明度是建立校准信任的信息基础。

2. AI代理识人:让AI“读懂人心”(AI Agent - of - Human Transparency)

人与AI良好协作,仅人类了解AI不够,还需AI理解人类处境。这要求AI不仅要表达,更要感知人类队友的状态、分工和意图。

(1) 理解人类状态:AI通过多模态传感器监测人类的认知、情感和生理状态,判断人类是否疲劳、压力大等。就像体贴的队友,能在人类疲惫时主动分担任务,困惑时提供详细解释。

(2) 理解社会分工:AI将人类状态和意图与当前情境结合,判断人类行为是否符合任务分工需求。例如,驾驶时检测到驾驶员分心看手机且前方车辆急刹,AI会发出警报或主动干预。

(3) 理解人类意图:AI要推断人类的短期目标和潜在意图,不仅仅是执行指令,还要理解背后的原因。如用户说“我有点冷”,AI可结合多种因素推断用户可能准备休息,从而调暗灯光、播放舒缓音乐。

当AI能“读懂”人类时,它从被动执行者变为主动协作者,能预测人类需求,适应人类变化,在人类犯错时及时兜底。这种深度的相互理解,使人机信任成为双向的“我们互相信任,并且都懂对方”,这是校准信任的最高境界。

构建校准信任的路径与团队建议

要让人 - AI之间普遍建立校准信任,需要技术开发者和人 - AI团队共同努力。以下是相关参考意见:

1. 对技术开发者与设计师的建议:

(1) 将透明度作为核心设计原则:在系统架构设计初期,就应内置AI代理世界观的四个模型,让“可解释性”和“可感知性”成为系统的固有特性。

(2) 开发情境化的解释界面:根据用户角色、专业水平和当前任务,提供合适的解释。对专家用户提供深入分析细节,对普通用户用直观类比和可视化。在用户需要时主动提供解释,而非等待查询。

(3) 构建鲁棒的人类状态感知模块:投资多模态生理和行为感知技术,开发准确解读信号的算法。同时,将用户隐私和数据安全放在首位,确保数据收集和使用透明、可控且符合伦理。

(4) 设计可协商与可调整的交互模式:不将AI决策视为最终命令,提供清晰接口,允许人类调整自动化等级、否决AI建议或共同制定任务计划。这种“控制感”是建立信任的重要心理基础。

2. 对人 - AI管理团队的建议:

(1) 将人 - AI团队训练制度化:训练是建立校准信任的有效方法,应聚焦于协作而非操作。训练内容包括:理论学习,让用户了解AI的意图模型、任务模型、能力边界和潜在失效模式;模拟演练,在虚拟环境中让用户经历各种场景,学习解读AI信号,掌握何时信任、接管和干预;在岗培训与复盘,任务完成后组织团队复盘,讨论AI表现、用户决策和协作情况,持续优化协作策略。

(2) 提升AI素养:在组织内普及AI知识,让员工具备批判性思维。让员工明白AI是强大工具,但并非万能且存在风险,鼓励员工对AI输出保持批判态度,并建立报告异常行为的渠道。

(3) 建立信任反馈闭环:鼓励用户记录和分享与AI协作的信任体验。这些反馈对开发者优化系统、管理者调整培训策略至关重要,能形成“设计 - 部署 - 反馈 - 优化”的持续改进循环。

结语

无论我们是否愿意,人与AI的关系正在经历深刻变革。人类正迈向人与机器平等协作的未来,这需要我们与AI深度理解、建立校准信任。我们不仅要在技术上实现“双向透明度”,还要在文化、教育和制度层面为新型关系创造条件。这是一项艰巨的系统工程,但它将为我们带来更安全、高效的人机共生时代。

本文来自微信公众号“复旦商业知识”(ID:BKfudan),作者:赵付春 于保平,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com