AlphaGo对弈李世石十周年:首尔五日传奇对决的幕后细节
2016年的首尔,AlphaGo与李世石的人机大战牵动着全球目光。第二局中,AlphaGo落下的第37手,完全跳出了人类棋手的认知边界:现场解说员直言“无法理解”;李世石更是沉思了12分钟,才艰难落子回应。
鲜为人知的是,这手震惊世界的棋背后,是DeepMind创始人哈萨比斯的坚持。备战时,研究员为避免系统出错,建议降低随机走法概率,哈萨比斯却力排众议:“我们研发AI,不是为了复制人类思维,而是要探索智能的未知领域。”
这段持续五天的传奇对决,在哈萨比斯首部官方授权传记《哈萨比斯:谷歌AI之脑》中得到完整还原。我们从书中摘录这段故事,与读者分享。

2016年1月,《自然》杂志发表了DeepMind关于围棋的论文并将其登上封面。论文发表前一天,杂志向记者分发禁刊副本,一位记者联系Facebook寻求评论,消息很快传到扎克伯格耳中。扎克伯格展现出竞争锋芒,在论文公开前仓促发布声明,宣扬Facebook远不如DeepMind亮眼的围棋项目。记者凯德·梅茨评论这是“古怪且不幸的抢先公关”,也预示了AI竞赛的正式展开。
媒体对Facebook的声明不屑一顾,转而聚焦DeepMind。击败樊麾后,DeepMind的智能体(已命名为AlphaGo)首次战胜人类围棋冠军,比专家预期提前约10年。哈萨比斯在《自然》封面文章发布时宣布,3月AlphaGo将与韩国传奇棋手、18次国际锦标赛冠军李世石对决,DeepMind还设立了100万美元奖金。
哈萨比斯选择对手时经过深思熟虑。最初想与日本冠军比赛,但当时日本无顶尖选手——韩国和中国是围棋强国。考虑后,他选定李世石,不仅因其职业成就,还因其体现的精神。这场比赛如同卡斯帕罗夫与“深蓝”的对决,会让痴迷围棋的韩国人陷入狂热。“李世石是民族英雄,韩国人热爱围棋,也热爱AI。”哈萨比斯后来表示。
比赛时间的选择需谨慎判断。西尔弗估计AlphaGo3月能准备就绪,但团队部分成员希望有缓冲时间,因为系统偶尔会产生“幻觉”,出现看似随机的走法。但因其他AI实验室的威胁,哈萨比斯否决了怀疑者的意见。Facebook已紧追不舍,《自然》论文也揭示了AlphaGo的工作原理,包括策略网络、价值网络和蒙特卡洛树搜索的组合模式,中国互联网巨头也可能借此迎头赶上。
DeepMind母公司的支持促成了全速推进的决定。2015年底,黄士杰和同事开始在谷歌自研的“张量处理单元”(TPU)上运行AlphaGo,这种芯片比英伟达GPU运算更快,通过牺牲少量精度执行更多乘法运算。测试时,配备TPU的AlphaGo对阵GPU版胜率超80%。已加入团队的樊麾表示,升级后的AlphaGo棋风不同,走法极富创造性且精妙。
赴韩参赛几周前,谷歌董事长埃里克·施密特拜访哈萨比斯,希望确保胜利。“进展如何?”他问。“指标不错,但仍有担忧。”哈萨比斯回答。“很好,别搞砸了。”施密特半开玩笑地说。
2016年3月,哈萨比斯、西尔弗和团队抵达首尔,施密特从加州飞来,TPU芯片功臣杰夫·迪恩同行,联合创始人谢尔盖·布林三天后也加入。赛事盛况超出预期,街上有大批媒体和大屏幕,超过2亿人观看,是“深蓝”击败卡斯帕罗夫时的两倍多,甚至超过超级碗观众数。
西尔弗感到胆怯:“我低估了这件事的影响,差了两个数量级。”
李世石信心满满,研究了AlphaGo与樊麾比赛的每一步,预测自己会5∶0或4∶1获胜,因他比樊麾强得多。多数职业棋手也认同,认为击败DeepMind是轻松赚百万美元的机会。“我将尽全力捍卫人类智能的尊严。”李世石承诺。
3月9日比赛当天,黄士杰坐在黑色皮椅上,面前是棋盘,左侧电脑屏幕显示AlphaGo的行棋(由太平洋彼岸服务器生成),对面是李世石,他的走法由肾上腺素和咖啡驱动。
第一场比赛开始几分钟,李世石就陷入困境。他走出常规第三步并挑起冲突,试图用训练数据外的策略迷惑AlphaGo,但AlphaGo不为所动。他低估了AlphaGo自10月与樊麾比赛后的进步。
李世石表情时而震惊、时而好笑、时而无奈,靠在椅上笑,按摩脖子。他通过研究与樊麾比赛做出的预期都毫无意义,这套系统当时虽可能被击败,但5个月后已不可战胜。最终他认输:“我没预料到AlphaGo会下得如此完美。”
第二场比赛,李世石尝试不同策略,小心翼翼落子等待AlphaGo出错。走了36步后,他起身抽烟休息,回来研究局势。离开期间,AlphaGo下出第37步:一颗黑子落在几乎空旷的区域,突袭李世石右侧。
李世石花了12分钟才回应,他从未见过这样的走法。世界顶尖西方棋手迈克尔·雷德蒙德在另一个房间直播解说,看到这步棋后,在棋盘上放了黑子又拿起:“不,这不可能正确。”但这确实正确,他放回棋子试图理解:“我真的不知道这步棋是好是坏。”
事实证明这是绝妙好棋,100多步后被证明是决定性的。“看到这步棋时,我认为AlphaGo肯定有创造力。”李世石赛后说,“我真的无话可说。”
第三天是休息日,DeepMind科学家们逛街、品尝韩国烤肉。每家报纸都报道AlphaGo,一位年轻女子在街上认出哈萨比斯,作晕倒状,仿佛他是流行偶像。“这种事经常发生。”哈萨比斯对身边记者说。对全球AI研究人员来说,一切都变了,AlphaGo的出现终结了AI领域默默无闻的纯真时代。
第四天,AI第三次击败李世石。李世石展现了职业生涯中精彩的技艺,但AlphaGo表现更胜一筹。新闻发布会上,他向人类道歉:“我感到有点无能为力。”
面对机器超级智能,一种回应是“打不过就加入”。0∶5失利后,樊麾加入DeepMind,称失败让他看到人生无限可能:“我发现世界比想象的大得多,很喜欢这种感觉。”这是谦逊的情感,但掩盖了人类失利的现实。机器拓展了可能性,也以不安的方式威胁人类,意味着人类直觉和想法可能不再重要。
另一种回应是继续抗争。第四场比赛中,李世石凭借第78步“神之一手”击败AlphaGo。这步精妙的棋让计算机陷入被动,算法出现类似人类的慌乱,走出无章法的棋步,最终认输。李世石庆祝胜利,称感受到无上温暖,棋迷高呼他的名字,一位程序员甚至将第37步和第78步棋形文在手臂上。但3年后,当围棋系统空前强大时,李世石黯然退役,称再也无法从下棋中感受到快乐。
DeepMind团队也不确定如何看待胜利。AlphaGo是人类创造的,是人类行动力和好奇心的体现,但他们也共情李世石的绝望。“我无法庆祝。”哈萨比斯回忆李世石1∶4失利时说,他知道竞争失利的滋味。
几年后,托雷·格雷佩尔被问及机器超越人类的感受时说:“初代围棋系统棋路与人类相似,摸索出人类千年策略让我们开心;后来它发现人类策略可反制,就放弃了;再后来系统变强,下法变得陌生,棋子看似随机散布,但30步、50步、100步后,所有棋子都联系在一起……”“就像绞索勒紧脖颈?”我紧张地问。“没错,就是这样!堪称魔法。”格雷佩尔说,这不是魔法,是算法的先见之明,只是在低等智能看来像魔法。“这就是我们必须想象的未来。围棋领域已实现超级智能,我们能体验与它互动的感受。一开始它看似无威胁,然后用途完全主导,我们不理解它的运作机制、战术和策略,只知道控制权在它手中……”
本文来自微信公众号“红杉汇”(ID:Sequoiacap),作者:洪衫,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



