性能追平旗舰,成本直降五分之四——Anthropic Sonnet 4.6重塑AI定价逻辑

1天前
Sonnet 4.6:中档模型的性能革命,让AI成本不再高不可攀


距离Claude Opus 4.6发布仅12天,Anthropic便推出了全新中档模型Claude Sonnet 4.6。此次发布的核心并非技术突破,而是以极低价格实现了与竞品持平的性能表现。


Sonnet 4.6延续前代Sonnet 4.5的定价:每百万token输入3美元、输出15美元。但在多项基准测试中,它的表现接近甚至超越了价格高出五倍的Opus 4.6。Anthropic用实际行动证明,性价比与高性能并非不可兼得。当然,在部分高复杂度任务中,Opus 4.6仍保持领先优势。


01 Sonnet 4.6的性能究竟有多亮眼?


在衡量真实软件编码能力的SWE-bench Verified测试中,Sonnet 4.6得分79.6%,几乎追平Opus 4.6的80.8%,略超OpenAI GPT-5.2;代理式金融分析任务中,它以63.3%的成绩领先所有对手,包括Opus 4.6的60.1%和GPT-5.2的59.0%;办公任务GDPval-AA Elo评分达1633分,超越Opus 4.6的1606分和GPT-5.2的1462分。过去需旗舰模型完成的任务,如今用Sonnet 4.6即可胜任,这对日均处理数百万token的企业而言,意味着成本大幅降低。


不过Opus 4.6在终端编码(Terminal-Bench 2.0得分65.4% vs Sonnet 4.6的59.1%)、代理式搜索(BrowseComp 84.0% vs 74.7%)、新颖问题解决(ARC-AGI-2 68.8% vs 58.3%)等领域仍保持领先。这些差距表明,前沿研究与顶级精度场景仍需Opus 4.6,但多数生产环境下,Sonnet 4.6已能满足需求。



Sonnet 4.6最显著的进步在于计算机使用能力:OSWorld-Verified基准测试得分72.5%,远超前代Sonnet 4.5的61.4%和GPT-5.2的38.2%。这一能力指AI无需API接口,通过鼠标点击、键盘输入直接与软件交互的能力。此前引发热议的豆包手机助手,其UI-TARS模型在该基准测试中得47.5%,已能完成除支付外的所有操作。以此推测,Sonnet 4.6的实际表现将更为惊艳。


这项能力的重要性在于,它为企业打开了更广泛的应用场景——无需定制连接器,模型即可直接操作所有可交互系统。Anthropic透露,早期用户已观察到接近人类水平的表现,能完成复杂电子表格任务与多步骤网页表单。保险科技公司Pace的CEO贾米·考夫表示,Sonnet 4.6在其复杂保险计算机使用基准测试中得分94%,是所有测试过的Claude模型中最高的,“它能以从未见过的方式推理失败原因并自我纠正”。


此外,Sonnet 4.6在抵御提示注入攻击方面较前代有重大改进,这对部署网页浏览与外部系统交互代理的企业至关重要。


02 价格仅为旗舰的五分之一,成本大降


Sonnet 4.6的价格优势十分显著:早期用户反馈,原本需花五倍成本才能获得的能力,如今用Sonnet 4.6即可实现相近效果,运营成本或直接降至原来的五分之一,工作质量却几乎不受影响。


数据分析平台Hex Technologies的CTO、Anthropic联合创始人兼首席产品官凯特琳-科尔格罗夫称,公司正将大部分流量迁移至Sonnet 4.6。通过自适应思考与高努力模式,“除最困难的分析任务外,所有任务都达到了Opus级性能,且配置更高效灵活。以Sonnet的价格,这将大幅降低工作成本”。云存储公司Box的CTO本·喀什表示,Sonnet 4.6在真实企业文档重度推理问答中,比Sonnet 4.5提升了15个百分点。


Sonnet 4.6配备100万token超长上下文窗口,可容纳整个代码库、法律文件或数十篇研究论文。Anthropic通过Vending-Bench Arena基准测试证明其有效推理能力——该测试模拟企业运营,AI模型需竞争获取最大利润。测试中,Sonnet 4.6在无人类提示的情况下,前十个模拟月大量投资产能(支出远超对手),最后阶段转向盈利,365天模拟结束时余额约5700美元,远超Sonnet 4.5的2100美元。



03 借新模型扩张市场,开启印度业务


正值上市前关键阶段的Anthropic,借Sonnet 4.6发布之机积极扩张业务:发布当天,印度IT巨头Infosys宣布与Anthropic合作,将Claude模型集成到其Topaz AI平台,服务银行、电信与制造业;同时,Anthropic在印度班加罗尔开设首个办事处,目前印度占全球Claude使用量约6%,仅次于美国。


Anthropic的进步还引发了软件股的大规模抛售,连业绩大涨的微软也经历股价暴跌——投资者愈发担忧AI对现有业务的潜在颠覆,Sonnet 4.6可能加剧这种不安氛围。此外,Anthropic还将免费层级默认升级至Sonnet 4.6,开发者可通过Claude API直接调用。


本文来自微信公众号“字母AI”,作者:苗正,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com