AI是否开始失控?全球首个AI安全共识由100名科学家联合发布

05-14 10:35

人工智能为中心(AI)讨论风险和危害通常集中在政府能够或应该采取的行动上。然而,AI研究人员自己的选择也同样重要。


这个星期,新加坡,来自世界各地的100多位科学家就如何让AI更“值得信赖、可靠、安全提出了指导方针。


当这些建议提出时,生成式AI领域的巨头,如OpenAI和谷歌,越来越少披露他们的AI模型,以至于公众对这些模型的工作原理知之甚少。


这些指导方针源于上个月新加坡学者之间的交流。这次交流与AI领域最著名的会议之一国际表征学习会同时举行,这也是亚洲第一次举行大型AI会议。


新加坡AI会议平台上发布了一份名为《关于全球AI安全研究重点的新加坡共识》的文件。


帮助制定《新加坡共识》的优秀人士中,Yoshuaa是加拿大AI研究所MILA的创始人。 Bengio;加州大学伯克利分校的计算机科学教授,以人为本的AI专家Stuart Russell;Max总部位于英国智库“生命未来研究所”负责人 Tegmark;以及麻省理工学院、谷歌DeepMind部门,Microsoft、代表新加坡国立大学、中国清华大学和美国国家科学院。


新加坡负责数字发展和信息事项的部长Josephinephine,以澄清研究必须有指导方针的观点。 在介绍这项工作时,Teo指出,每个人都不能投票决定自己想要什么样的AI。


Josephine Teo说:“在民主国家,大选是公民选择建立政府的政党,并代表他们做出决定的一种方式。然而,在AI发展方面,公民无法做出类似的选择。无论我们说这项技术有多民主,公民都会接受AI带来的机遇和挑战,但没有太多的话语权去塑造谁来塑造AI的发展轨迹。”



本文列出了科研人员应该考虑的三个类别:如何识别风险,如何通过防范风险来构建AI系统,以及如何保持对AI系统的控制?。换言之,在担心这些AI系统的情况下,如何实时监控和干预。


报告的序言中,作者写道:“我们的目标是实施更受欢迎的R&D工作,快速开发安全和评估机制,培养可靠的生态系统。在这个系统中,AI被用来造福公众。动机很明确:当AI事件发生或恶意行为人使用AI时,任何组织或中国都不会受益,由此产生的危害会对所有人造成伤害。”


在第一个方面,即评估潜在风险时,学者建议开发“计量学”来衡量潜在危害。他们写道,为了减少不确定性和大量安全边际的需要,有必要对AI系统进行定量风险评估。


学者指出,在保护企业知识产权方面,有必要让外界各方对AI的研发进行风险监测,实现平衡。它包括开发“安全基础设施,在保护知识产权的同时进行全面评估,包括避免模型盗窃”。


开发部分涉及如何“通过设计”使AI值得信赖、可靠和安全。因此,需要开发“技术方法”,可以指定AI程序的目的,并简要描述不应该发生的事情和不希望的副作用。


他们认为,神经网络的实际训练需要通过这种方式来推广,以确保最终的AI程序“符合其规格”。这包括一些训练,比如专注于“减少虚构”(通常称为幻觉)和“提高篡改的稳定性”,比如使用恶意提醒来破解LLM。



最后,文章中关于“控制”的部分包括如何扩大当前的计算机安全措施,以及如何开发新技术以防止AI失控。


例如,常规的计算机控制方法,如关闭开关和优先控制协议,需要扩展以处理AI程序。科学家还应该设计“新技术来控制强大的AI系统,这些系统可能会主动破坏控制企图”。


这篇论文很有斗志。考虑到人工智能与越来越多的计算机软件(如智能代理人工智能)的连接,人们对人工智能风险的焦虑越来越大,这种野心恰恰需要。


正如科学家在介绍中所说,关于安全方面的研究将跟不上AI的快速发展,除非增加投资,否则就跟不上AI的快速发展。


作者写道:“鉴于目前建立值得信赖的人工智能的科学现状并不能完全覆盖所有风险,为了跟上商业驱动的系统能力增长的步伐,有必要加快探索的投入。”


在《时代》杂志上,Bengio发表了一篇文章,表达了对AI系统失控的担忧。


Bengio还写道:“最近的科学证据也表明,随着高性能系统逐渐演变为越来越独立的AI代理,一些编程不明确、不一定与人类利益一致的目标通常表现出来。不受约束的AI表现出来的行为,尤其是自我保护和欺骗,真的让我感到不安。”


文本来源:


1.https://www.zdnet.com/article/100-leading-ai-scientists-map-route-to-more-trustworthy-reliable-secure-ai/


本文来自微信公众号“元宇宙之心MetaverseHub”,作者:元宇宙之心,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com