姚顺雨主导的腾讯混元新研究:破解AI上下文难题,成红包大战后决战关键
春节未至,各大厂商已摩拳擦掌:先有元宝派发红包,紧接着千问豪赠奶茶——不过三十亿预算,不足挂齿。

前端烧钱做推广,后端默默搭基建,毕竟推广预算耗尽后,用户留存率高低全看产品本身实力。如此看来,腾讯下半年挖来前OpenAI研究员、清华姚班天才姚顺雨,实属深谋远虑。
执掌腾讯AI业务后,姚顺雨近日终于推出首项署名研究成果。这是腾讯混元团队联合复旦大学开展的研究,聚焦于AI的上下文理解问题。虽看似冷门技术点,但其发现却让日常使用AI的用户心惊:若将大模型从“背书模式”切换至“现学现卖模式”,即便是全球顶尖AI,得分率也仅23.7%。
这项研究绝非技术圈八卦,它直接解释了普通用户为何常觉得AI“听不懂人话”“死脑筋”或“胡说八道”。若说AI有致命弱点,那非上下文莫属。
上下文:AI的核心能力
要理解该研究价值,需先明晰大模型运作的两个基础阶段。
第一阶段是预训练。模型通过学习互联网海量数据,掌握大量知识与模式,这是AI知识储备的来源,也是其能回答通用问题的基础,如今已广为人知。
但问题在于,预训练数据是静态的,仅反映训练截止前的世界。一旦超出此范围,模型便会“失明”——而现实世界是动态变化的。
于是进入第二阶段:情境学习,即上下文处理。当用户向AI提供全新、内部或复杂规则文本时,实则要求它跳出预训练记忆,依据眼前信息实时推理判断。
比如公司刚开完会的纪要、游戏新活动规则等,这些知识未在互联网公开,只能由用户将规则、信息(即“上下文”)提供给AI,让其据此回答问题。
这才是现实:互联网并非无所不包,模型的上下文学习能力至关重要,甚至可称:上下文是AI的核心能力。

若AI记不住或理解错上下文,就会开始“编造”(即幻觉),可能依据预训练的通用规则回答——比如会议纪要明明说行政部负责下午茶,它却说是产品经理负责。
这正是混元团队构建CL - bench的目的。他们打造了近2000个未在互联网公开、由专家精心设计的“全新情境”,涵盖虚构法律体系、新编程语言语法等。

根据CL - bench排行榜,当前最先进的GPT - 5.1 (High)模型正确率仅23.7%,Claude Opus 4.5约21.1%,其他模型多在10% - 18%之间。
这意味着,当要求AI“忘掉旧知识,只看我发的内容”时,它们大概率会出错。就像固执的学生,即便老师在黑板写“今天1 + 1 = 3”,仍会喊出“1 + 1 = 2”——因为新知识对它们而言“超纲”了。

CL - bench研究揭示了模型情境学习失败的深层原因,解释了AI为何时聪明时“愚蠢”。
最常见的失败原因是:模型预训练知识过于“根深蒂固”。当接收新上下文时,往往无法抑制预训练数据中的固有模式。
例如CL - bench的一个测试案例:研究人员构建虚构软件开发包Skynet SDK。虽为虚构名,但“Skynet(天网)”在AI预训练数据中知名度高,模型可能下意识带入《终结者》电影设定,无视说明文档的代码规则。

此外,复杂逻辑推演仍是技术瓶颈——这多少令人意外,2026年了,AI处理长文本早该熟练?但事实是,模型虽能处理几万字文本,却未必能从海量信息中精准找到关键。研究发现,当上下文过长、逻辑复杂(如复杂推理链、多轮交互依赖)时,模型表现会骤降。
若上下文仅为“知识检索”(如从文档找名字),现有模型还能应付;但一旦涉及“逻辑推理”,解决率便会暴跌。
为何腾讯要做这项研究?
CL - bench是姚顺雨加入腾讯后的首项署名研究。将其置于腾讯庞大产品矩阵中审视,便会发现“上下文学习”与腾讯业务逻辑的紧密关联。

与侧重搜索或通用生产力工具的科技公司不同,腾讯根基深植于“社交”与“内容”领域,而这两个领域对AI上下文能力要求极高。
以微信或QQ为例,其产生的数据并非孤立问答,而是连续、高度碎片化的对话流——近期的元宝派发活动便是例证。当用户让AI总结数百条消息的群聊重点,或在数月私聊记录中找某个约定细节时,AI面临的正是CL - bench测试的极限:必须在不依赖外部通用知识的前提下,精准理解封闭对话中的特有语境、人际关系与隐含逻辑。

若AI无法妥善处理高密度上下文,便无法真正融入十亿用户的社交场景,只能成为打断对话流畅度的“累赘”。
此外,腾讯在游戏与企业服务领域的布局,也使其亟需“情境学习”能力。游戏方面,各家都在探索AI如何依据即时操作与游戏局势(即游戏上下文)反应,而非机械背诵预训练台词。
在企业微信和腾讯会议场景中,用户需要的是基于特定会议纪要或私有文档的精准分析。这些场景下,通用预训练知识不仅无效,甚至可能因“幻觉”造成严重误导。
“考试满分的学生,未必能胜任实际工作”——混元团队意识到这一点,这也是对当下AI的精准评价。对于拥有海量应用场景的腾讯而言,一个能在复杂上下文中保持清晰逻辑的模型,比博学却只会死记硬背的模型,具有更大商业价值与落地潜力。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

