面对AI价值对齐挑战

2024-07-03


在过去的一年里,以ChatGPT为代表的大语言模型(LLM)集中爆发,并衍生出文生图、文生视频、文生音乐等多模式应用,让人感受到人工智能所蕴含的无限潜力和概率。


预计到2032年,生成型人工智能市场规模将增长至1.3亿美元,复合年增长率将达到43%。


然而,随着各行各业大型模型应用的深入,“AI威胁论”的声音不断扩大。面对AI的强大实力,人工智能的“价值对齐”已经成为一个受欢迎的领域。


简单来说,“价值对齐”就是让人工智能的“价值观”与人类的价值观保持一致,从而保证人工智能以对人类和社会无害的方式做事,防止干扰和伤害人类的权利。随着OpenAI、以谷歌为代表的众多科技企业进入,价值对齐也逐渐从一个学术概念转变为一个受到人工智能产业关注的发展理念。


符合人类价值观


2023年7月,OpenAI宣布成立了一家名为“非常对齐”的公司,在这场生成式人工智能浪潮中发挥关键作用。(Superalignment)该部门的目标是在4年内找到一条让超智能AI系统实现价值对齐和安全的道路。OpenAI还承诺将投入20%的计算资源专门用于对齐超级智能。不仅OpenAI,谷歌、微软等知名科技公司也建立了相似的价值对齐部门或团队。


随着深度学习创造新阶段,人工智能变得越来越强大和复杂。此外,它的操作逻辑中还有一个“算法黑盒”,这使得人类从技术层面了解AI的决策过程更具挑战性。为了规避风险,人类试图在人工智能建立之初,通过技术干预来保证人工智能系统与人类价值观的一致性,即使人工智能与人类“价值对齐”。


就目前人工智能的发展进展而言,价值对齐并非危言耸听。伴随着生成型人工智能参与人类工作和生活领域的广度和深度不断扩大,其潜在风险的影响也越大。特别是当AI应用于司法系统、医疗行业、社会福利和教育等公共领域时,AI的安全问题可能会进一步演变为社会问题。尽可能避免AI的有害导出或滥用行为,也就是当前价值对齐的核心任务。


价值对齐的基本目标是确保即使人工智能发展成为通用人工智能,(AGI)即使是超人工智能,其道德原则、伦理规范和思想也必须与人类保持一致,拥有堪比或超越人类的能力,可以执行任何任务。


价值对齐的难度


人工智能价值对齐的前提是人类有一套相对稳定统一的价值标准。从安全的角度来看,在推动人工智能的价值对齐之前,我们应该首先协调和统一对齐的价值观。然而,从生死观到对美丑的认知,很难推动全球多元文化背景和价值体系对齐的标准统一进程。


即使人类准备了一套流行的“人类价值观”,能否将价值观与AI“对齐”?换句话说,AI能否真正理解人类价值观并将其纳入自己的运行机制?


就技术层面而言,当今流行的价值对齐方法主要从技术和规范入手。标准化调整,即开设人工智能应遵循的道德和道德原则,如透明性、安全性、可追溯性和可解释性,以指导相应系统的开发。技术方法主要包括“人类反馈强化学习”(RLHF)""合作逆强化学习(CIRL)”“精调监管(Supervised Fine-Tuning)“内部方法,将通用的伦理原则转化为实际可操作的技术路径,防止AI执行路线扭曲。


然而,即使是基本的“有利”、“诚实”、“公平”等概念,人类复杂的伦理原则和价值基础也很难仅仅通过技术路径抽象、简化和对齐。此外,我们无法预测目前的价值观是否适用于未来,如果不适用,技术应该如何调整。


牛津大学人类未来研究院院长尼克·波斯特洛姆认为,创造一个能够理解人类价值观的人工智能尤为重要。然而,人类情感的复杂性和文化的多样性促使机器人人类通过输入几行代码来教他们关心什么几乎是一项不可能完成的任务。


随着人工智能开始承担更复杂的任务,人类对齐甚至简单的评价都会变得难以想象的复杂。业内对齐人工智能系统的额外成本称为“对齐税”,基础模型能力可能会增加额外的开发时间,导致额外的计算或性能下降,以实现对齐。


这些成本问题也是实施价值对齐的障碍之一。即使不考虑训练过程中碳排放带来的环境问题,与价值对齐相关的人工智能再训练也需要高成本。数据显示,GPT-4原训练费用已达1亿多美元,再训练费用更是不可估量。


目前,OpenAI试图通过“AI自动对齐研究人员”来控制成本,即训练一个大致达到人类水平的AI研究人员,然后快速迭代计算率,实现自动对齐。虽然这种思维可以在一定程度上兼顾发展和安全,但也可能导致新一轮的信任和监督问题:如果人类要求系统接管甚至所有的研究,系统会试图欺骗人类吗?该如何保证系统的价值安全?


当人工智能的发展速度超过人类价值观的对齐速度时,价值对齐的过程可能会演变成谁掌握了最先进的人工智能技术,谁就有权决定对齐价值观,从而有权定义人工智能甚至人类价值观。



如何解决“价值对齐”?


价值对齐是人工智能伦理领域最根本、最具挑战性的概念之一。这是推动人工智能向符合人类权益的方向发展的必要机制保障,也关系到未来更强大的人工智能安全管理。


就像人类不能清楚地解决人工智能概念的产生问题一样,实现价值对齐也非常复杂。这需要广泛的学科和社会参与,需要持续而长期的讨论,在“价值”的概念和推动“对齐”的方法上达成共识。同时,价值对齐工作关系到人类未来的共同利益,更广泛、更密切的国际合作有利于对齐工作的推进。


另一个想法是,与其努力扩大价值对齐,不如先致力于AI能力的发展,探索更多应用的概率。毕竟,在人工智能发展水平在一定程度上决定未来人类价值“定义权”的背景下,一个能力落后但对齐程度高的AI无法满足国家竞争力培养的需要,释放出足够的潜力。


所以,从发展的角度看价值对齐问题,聚焦实际问题和实际困难,或许也是一种解决方案。


这篇文章最早出版于《望望》新闻周刊,原题为《面对“价值对齐”的挑战》。


本文来自微信微信官方账号“腾讯研究院”(ID:cyberlawrc),作者:王焕超,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com