AI智能体颠覆科研“七步马拉松”,知识生产方式迎来新变革

1天前
若将整个科研流程交由智能体执行,会产生怎样的变化?

科研长期以来被赋予了浪漫色彩。


它并非单一的行为,而是一条被精细拆分的流水线。检索、筛选、阅读、整理、假设、实验、验证,再到写作与发表——这七个环节几乎构成了所有学术工作的基本路径。


问题在于,这条路径的每个环节都在消耗时间,却并非都能创造价值。


文献检索往往需要在成千上万篇论文中筛选出几十篇真正相关的内容。阅读阶段要逐篇理解方法与结论,再在脑中构建一个尚不稳定的认知结构。直到问题定义时,研究者才进入“创造”环节,而此时已消耗了大量时间。



这些环节本质上都属于“确定性劳动”,可被拆解、描述和重复执行,却仍需人工完成。这形成了典型的错配:最宝贵的认知资源,被大量消耗在最易被替代的部分。


过去十年,AI虽进入科研领域,但多停留在边缘。它能帮人更快找论文、更顺畅翻译文本,甚至写出结构完整的综述,却未改变科研的基本形态。科研仍是一场“七步马拉松”,只是速度稍有提升。


一个更激进的命题摆在眼前:若将科研流程整体交给智能体执行,会发生什么?


近期升级的AI学术智能体切问学术(WisPaper中文版)给出了新可能。将确定性劳动交给算力,把不确定的灵感还给人。这句话背后,是科研生产方式的全面重新分配。



AI不直接生产论文,却加速科研进程


传统科研的“七步马拉松”,需要人在不同环节间反复切换与衔接。


切问学术的出现,并非意味着它能直接生成论文,而是嵌入科研推进过程,成为贯穿式能力。给定研究任务,系统可从文献检索出发,完成阅读、分析与信息结构化,识别潜在问题,进而进入实验设计与执行,最终输出结果与报告


AI在科研中的角色由此改变。过去的AI更像“助手”,提供建议或完成局部工作,如翻译论文、总结内容或补全代码,研究者需不断接管流程,在任务间切换以推进整体。


无法避免的机器幻觉,让这些工作需复审以规避学术欺诈、造假风险。切问学术作为AI智能体,更接近“执行者”,可在无持续人工介入下自主完成部分内容,科研流程首次出现“被托管”的可能。


直观类比,它类似自动驾驶:人类设定目标,系统负责路径与执行。


同样逻辑引入科研后,分工模式改变:研究者定义问题,切问学术作为智能体负责推进过程。


科研流程的变化由此显现。


首先是流程归属重新划分。原本需人逐步完成的任务,被整合为系统可整体接管的过程。检索、阅读、整理等高度依赖人工的环节,无需逐一介入,而是在同一逻辑中连续处理。


其次,科研工作方式从串行转向并行。AI智能体介入后,科研不再仅沿单一路径推进,多个假设可同时展开,多个方向可并行验证。研究者的工作方式从完成单个问题,转向管理一组问题。


流程重组后,科研节奏也随之改变。


100倍速引擎,科研效率现“代差”


从产品能力看,切问学术首先将传统科研路径的链条“解耦”。传统路径中,各环节间存在等待与切换成本,而切问学术带来指数级效率提升。


这种变化具体可感。据公开资料,对比传统人工,切问学术的AI4S模式在文献检索方面预估提效10至100倍,原本数周的文献筛选压缩至分钟级;论文阅读提效20倍,数月的阅读整理压缩至小时级结构化提取;问题识别可在全域数据中系统扫描定位,50倍速锁定。效率飞升几乎重塑科研生命周期。


同时,切问学术的提效建立在有效可靠基础上。公布数据显示,其文献搜索准确率达93.78%,主流模型约70%;文档版式、公式与表格解析准确率均超90%,整体高于行业水平。



这些能力不直接产生结论,却决定信息进入后续处理的形态。变量关系、实验结构、数据分布被提前拆解,阅读从逐篇处理转为结构化接收。


尤其切问学术测试中的综述一致性达22.26%,引用真实性接近99.8%。前者确保不同来源信息纳入同一逻辑框架,后者在杜绝生成式模型机器幻觉上迈出关键一步。


正是基于此,其嵌入科研流程的价值才得以成立。


本次升级的亮点之一是实验环节的深入。上传论文后,系统自动阅读理解,拆解核心任务与算法逻辑;解析实验方法,生成可执行方案;自动搭建计算环境(含算力配置与依赖项);生成代码并执行实验,最终输出结果与完整报告。


整个过程无需人工逐步介入。切问学术可基于已有文献或识别出的研究空白,自动生成实验路径,自主匹配或寻找数据,完成环境搭建、实验执行与结果输出。


传统科研中“认知”与“执行”分离,理解可加速,但验证仍依赖人。如今,原本需人反复切换、试错的整段流程被整体提速。科研流程从“人驱动”变为“智能驱动”。


从这个意义上,它或许代表科研效率的代际更替。


这并非通用大模型可实现。例如学习能力,传统大模型或许擅长考试,但对新知识存在学习障碍。在CL-bench测试中,大模型需理解陌生规则并立即应用,多数模型失效,平均成功率仅17.2%。


科研场景恰恰依赖这种能力,每个问题都是新的。模型只有能在上下文中快速建立规则理解,才具备进入科研流程的基础。


因此,切问学术针对真实环境推进任务做了针对性优化。其AgentGym-RL训练方式更接近真实科研环境,模型需在网页操作、实验流程等任务中不断调整路径,执行不依赖预设答案,而是在反馈中修正。


相关论文显示,仅70亿参数的小模型(Llama-3.1-8B)经AgentGym-RL训练后,在多个场景中表现与GPT-4o、Claude 3.5-Sonnet相当甚至更优。


训练中,其对推理、代码等关键能力相关Token赋予更高权重,让能力提升与训练指标对齐。


但即便具备真实环境任务推进能力,仍面临挑战:训练稳定性。


RLHF是大模型对齐能力的核心路径,但PPO训练极不稳定,导致很多模型短任务表现好,复杂流程易失控偏移。


切问学术通过PPO-max的细粒度约束与奖励机制,让训练过程稳定,不再依赖运气。


稳定后是执行。调用工具、编写代码、处理环境依赖充满不确定性,传统模型常依赖模板或停留在“生成代码”层面,进入真实执行环境易偏差。


科研环境中信息并非总是一致,不同论文结论可能冲突,数据来源也可能有偏差。模型若简单整合,易在多源信息中失真。


切问学术面对“已有记忆”与“当前输入”不一致时,会形成两条内部处理路径,最终根据信号强度选择,使模型在复杂文献环境中具备基本判断能力,而非被动接受信息。


这些能力聚合后,变化不再是局部提升,更代表科研生产方式的范式转变。


科研回归“人”的核心,加速突破临界点


这场变革中,改变的不只是效率。


科研工作方式从亲自完成每一步,转向在关键节点做判断。执行被系统接管后,研究者无需反复进入确定性流程,逐渐退出具体操作,转而站在更上层理解问题、选择路径、审视结果。


这种微妙变化悄悄重写科研角色分工。最聪明的大脑不再需在流程中奔波,从执行者转向架构者或领导者。


同时,一道隐形门槛正在消失。很多领域中,想法与结果之间隔着代码、算力与实验环境。一旦切问学术这类智能体解决了这部分需求,科研进入门槛将被重新定义。


结果是,科研竞争开始前移,从“谁能做出来”变成“谁能更早发现问题”,回归到定义问题的“人”。原本受技术条件限制的研究者,也能更直接参与问题本身。



科研本质是知识生产。知识生产周期压缩,影响整个技术体系节奏。除时间成本下降,知识库更新频率同步加快。如新材料、靶向药、清洁能源等受验证成本限制的领域,验证压缩后路径筛选加快,错误方向更早淘汰,可行路径更快浮现。


这意味着研究在更高密度试探中不断逼近答案,原本需多年积累的试错过程被压缩到更短周期反复发生。


技术突破的出现方式也随之改变,从依赖个体经验的偶然发现,转向高频验证中的逐步收敛。


这种节奏持续叠加后,科研进入新分工结构:AI负责推进已知路径,持续压缩确定性部分;人则聚焦未知区域,判断哪些问题值得继续追问。


本文来自微信公众号“智能涌现”,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com