MiniMax M2.5：龙虾Agent的优选模型，实现永不停机运行

1天前

本文来自微信公众号： AGENT橘，作者：AGENT橘

2026年春节前夕的这一周，堪称中国AI领域全年成果的集中展示期。

各类成果接连发布，让人应接不暇。

日前，MiniMax推出了M2.5模型，其激活参数与M2.1相同，仅为10B。

M2.1曾是小龙虾工具作者Peter最推崇的开源模型。

M2.5相较于M2.1实现了快速迭代，在编程领域具有代表性的SWE-Bench Verified评测中，M2系列的进步速度在所有模型系列里位居首位，超越了Claude、GPT和Gemini。

Peter将Opus作为主力模型，而MiniMax则作为备用选择，当Opus的token耗尽时，系统会自动切换到MiniMax继续运行。

并且他不只是通过云端调用模型。他还在自己的两台Mac Studio上运行MiniMax进行本地推理，无需依赖模型厂商的套餐服务，完全实现本地化部署，确保龙虾Agent始终保持在线状态。

能够在本地顺利运行，得益于M2.5在众多旗舰模型中拥有最小的激活参数。

M2.5的激活参数仅为10B。相比之下，GLM-5激活参数为40B，Kimi K2.5约为50B，DeepSeek V3.2约为30B。

尽管该模型的激活参数较小，但其Agent能力却不容小觑。经过Peter及众多小龙虾用户的实际测试，MiniMax是小龙虾工具中表现最佳的开源模型。

参数小带来的优势是连锁性的：推理速度达到100 TPS，几乎是主流旗舰模型的两倍。以这样的速度连续工作一小时，成本仅需1美金；若将速度降至50 TPS，成本则只需0.3美金。

这意味着让一个复杂的Agent持续运行下去，在经济层面变得完全可行。

Agent与工具调用能力

M2.5的工具调用能力十分出色，在多项工具调用指标中均处于领先水平。搜索是Agent最常用的工具之一，为此MiniMax专门构建了评测集RISE（Realistic Interactive Search Evaluation），用于测试模型在真实专业任务中的搜索能力。

与M2.1相比，M2.5的提升也很显著。在BrowseComp、Wide Search、RISE等多项任务中，M2.5用更少的搜索轮次就取得了更优的结果，轮次消耗减少了约20%，模型学会了用更短的路径获取答案。

海外开发者Tom Osman借助Clawdbot×MiniMax重构了日常工作流程。他在Telegram、Slack、WhatsApp、iMessage等平台都部署了龙虾Agent，可通过语音或文字随时下达指令。在一个典型的工作日里，他会让龙虾Agent分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件等，所有任务并行处理，他只需在不同的Agent之间切换对话即可。

他对MiniMax的评价是：在工具调用方面表现出色且准确性高。他使用的是每月10美金的Coding Plan，用量远未达到上限。

10B的模型尺寸天生适合这类场景。Agent需要全天候不间断运行，模型越小，持续运行的成本就越低，可行性也就越高。龙虾工具作者Peter选择MiniMax作为Opus的备用模型，本质上就是看中了这一点：

当你需要一个Agent持续运行时，10B的模型能让你真正负担得起运行成本。

在我的实际测试中，我让Minimax M2.5执行了一项测试任务：监控每天热度最高的小龙虾工具技能，它完成得非常出色。

编程与泛用性表现

在编程方面，M2.5相较于M2.1有了巨大进步，在SWE-bench Verified评测中达到80.2%，在Multi-SWE-Bench评测中以51.3%的成绩位居全行业第一。

在提升能力的同时，M2.5的推理速度也得到了提升。端到端完成SWE-bench任务的时间从M2.1的31.3分钟缩短至22.8分钟，速度提升了37%，与Opus 4.6的22.9分钟几乎持平。每个任务的token消耗也从3.72M降至3.52M，实现了提速又降耗。

还有一个有趣的点是M2.5在不同编程客户端中的泛用性很强。在Droid上运行SWE-Bench任务时，M2.5的得分是79.7（Opus 4.6为78.9）；在OpenCode上的得分是76.1（Opus 4.6为75.9），这使得它不再过度依赖Claude Code这类闭源工具。

提升对OpenCode的支持确实是一件好事。OpenCode是Claude Code的开源替代工具，安装简单，易于上手。

而且在OpenCode中，MiniMax M2.5是限时免费的，无需额外配置。

我曾让它编写一个2026年春运实时监控程序，该程序能每小时自动监控并更新网页内容，最终效果良好。

从工具到同事：Agent的发展方向

MiniMax为M2.5的定位是“真实世界的好同事”。

这是因为Agent是未来软件的使用者，会成为每个团队中新增的成员。

一旦这种转变发生，对模型的要求就会彻底改变。

在自主Agent时代，Agent需要全天候不间断运行，每天进行数百次推理调用。此时，人们关注的是：模型能力是否够用、运行速度是否够快、成本是否能承受。

那么，雇佣一个Agent一年大概需要多少成本呢？

M2.5有两个版本：快速版本在每秒输出100个token的情况下，连续工作一小时仅需1美金；慢速版本在每秒输出50个token的情况下，连续工作一小时仅需0.3美金。

据此计算，雇佣Agent让其全天候工作，每个Agent的月薪仅为200美金。只需花费一万美金，就能拥有四个永不休息的“同事”。

未来几年，算力供给呈线性增长，而需求却呈指数增长，Token资源会越来越稀缺。

在这样的大背景下，自主Agent时代能否实现全天候持续运转至关重要。

因为只有这样，Agent才能走进真实世界，成为人们真正的工作伙伴。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

信誉楼百货滨州、定州新店签约 2026年秋将开业

第28届上海国际电影节6月12日启幕柏林推广活动盛邀全球影人共赴光影之约

从小说到博物馆再到纪录片，帕慕克《纯真博物馆》剧集版登陆Netflix

300585控制权转让突发终止，受让方未付首期款致协议解除

高薪仍缺人！节前这类服务订单激增

项目推荐

迪瓜租机

爱亲母婴连锁品牌

水灵珑