Token工业化竞争:成本账本重构下的新战局

2天前

本文来自微信公众号: 未尽研究 ,作者:未尽研究



硅谷现在突然开始嫌Token太贵了。



有很长一段时间,整个AI行业都沉浸在智能体会递归进化到通用人工智能(AGI)的乐观情绪里。在Anthropic打造的行业叙事中,性能更强的高价Token永远有它的存在价值。但就在过去一周,三个几乎同时出现的行业信号,撕开了表层乐观叙事下,另一个完全不同的行业现实。



第一个信号,微软内部开始大规模限制Claude Code的使用。原因很简单:它用起来太贵了。微软旗下负责Windows、Microsoft 365、Outlook、Teams和Surface的“体验+设备”部门,要求必须在6月底之前停用Claude Code,把所有开发工作流迁移到微软自家的GitHub Copilot CLI上。



但这件事很难简单归结为内部产品和外部产品的竞争。据业内消息,这次停用决策里,财务部门起到了关键作用。虽然开发团队用得顺手,一致反馈Claude Code能大幅提升开发生产力;但管预算的高管们,并没有看到代码规模增长,给对应软件带来收入暴涨——你到处都能看到AI的影子,唯独在公司的营收报表上看不到。



更值得玩味的是,就在上个月,微软面向外部客户的GitHub Copilot,刚刚宣布全面改成按量计费模式。智能体在持续不断消耗Token,哪怕是微软面对自己的外部客户,也不想白白被“薅羊毛”。对内“停用”是节流,对客户“调价”是开源,本质上都是为了重新对齐成本和价值的账本。在智能体主导的Token消耗浪潮面前,哪怕是微软这样资金雄厚的科技巨头,也已经感受到了压力,AI成本已经正式进入企业的预算约束范围。



现在行业里有两个明确趋势:一方面,前沿大模型的单位Token价格正在持续上涨。硅谷三大巨头都在试探API客户的价格承受力。谷歌最新发布的Gemini-3.5-Flash,价格明显上涨,是同类产品Gemini-3.1-Flash-Lite的6倍,已经接近Gemini-3.1-Pro的价格;OpenAI的GPT-5.5价格是GPT-5.4的两倍;如果考虑新分词器的影响,Claude-Opus-4.7的价格大约是Opus-4.6的1.46倍。



另一方面,智能体及其配套框架正在重塑Token经济学。智能体追求更高性能、更快响应速度,这本身就意味着更高的单位Token成本;而且Token越来越多地承担系统控制功能,代价就是额外的调度复杂度、Token消耗和延迟累积,显著推高了整体消耗。在用户开始输入提示词之前,智能体就会提前预加载很多内容,现在智能体单次任务的Token负载中位数,已经来到了10万Token的量级。





现在,所有大模型厂商都在向智能体厂商转型。OpenAI联合创始人Greg Brockman就认为,单单一个模型,已经不能构成完整的产品了。未来的Token经济学,就会在这个转型趋势下展开。



第二个信号,是DeepSeek宣布V4-Pro永久降价75%。这不是短期促销,不是新用户补贴,也不是互联网行业常见的烧钱换规模。这次降价意味着DeepSeek已经跑通了某种结构性的成本优势。硅谷风投YCombinator的合伙人非常好奇,模型优化和芯片协同,在这个成本优势里起到了多大作用。



根据Artficial Intellgence的统计,运行指定测评任务时,DeepSeek V4 Pro的成本仅约为Gemini-3.1-Pro-Preview的三分之一,GPT-5.5的十二分之一,Claude-Opus-4.7的十九分之一。



今年年初,DeepSeek在DualPath论文中披露,在Agentic AI场景下,它的KV缓存命中率可以高达95%。压缩和管理KV缓存,不只是降低单位Token成本的关键,还把AI的成本函数从“和上下文长度线性相关”重构为“仅和新增决策相关”。这就让智能体可以在长时间、多轮交互中持续运行,不会因为历史上下文膨胀导致成本失控,也把AI从“被调用的工具”变成了“持续运行的进程”。



DeepSeek的深度推理创新,用DualPath为智能体压榨带宽|笔记



2026/02/27完整阅读>




这也会影响模型下游的产品设计。虽然DeepSeek的模型性能,仍然比硅谷顶尖模型落后半年左右,但它依然在快速抢占市场。在OpenRouter平台上,调用V4-Flash模型的请求一直在增长,甚至已经出现了基于V4的“原生”智能体产品。Reasonix就专门针对DeepSeek的缓存机制,打造了一套智能体框架,核心目标就是“节省Token成本”。现在DeepSeek还在招募框架工程师,未来它很可能成为这个新领域的“价格屠夫”。





第三个信号,是华为对“韬(τ)定律”的探索和落地。在这个技术框架下,当晶体管密度提升遇到瓶颈时,华为开始从底层器件、电路、芯片到系统层面,同步压缩数据传输的时间和能耗。华为已经围绕超节点,同步推进统一总线UB-Mesh、Hi-ONE近封装光学、背面供电以及近存计算等技术,还在尝试把鲲鹏和昇腾做“逻辑折叠”,在单位算力的Token吞吐量上实现“时间扩展”。



如何理解华为的韬定律与时间扩展定律



2026/05/26完整阅读>




是逻辑折叠,而不是简单堆叠。这意味着它和当前行业常见的2.5D封装不同,是在Z轴方向、单元层面完成逻辑和计算拓扑的重构。不管是半导体专家还是金融分析师,美国都非常关注华为这次战略方向选择。Bernstein直接评价这是又一个“DeepSeek时刻”。





在近期IEEE中国的直播活动中,华为进一步介绍,鲲鹏950是第一代折叠技术打造的“超级CPU”。在其他条件基本不变的情况下,鲲鹏950通过重新组织CPU核和互联结构,让关键路径长度明显缩短。垂直折叠之后,微架构投影面积减少了大约40%,平均线延迟下降约8%,仅这一项就带来了约468MHz的频率增益;而时钟树缩短和时钟偏差优化,又进一步贡献了接近100MHz的额外提升。最终,这颗原本运行在2.6GHz的CPU核,被直接提升到了3.2GHz,同时能效提升超过10%。华为已经在规划鲲鹏960,升级会更加激进,CPU内核会直接参与逻辑折叠。



除此之外,最近华为还展示了基于自研板上裸片封装(DoB)技术的大容量SSD系列,目前已经量产61.44TB和122.88TB两款产品,245TB版本也在规划当中。华为还有自研的高带宽内存HiBL 1.0。



这不由得让人联想,DeepSeek已经深度适配了昇腾950,未来也会受益于整个超节点体系的“时间扩展”效应。DeepSeek的降价,或许已经暗示了中国本土AI算力生态的推进进度。在这次的V4版本里,DeepSeek还没有把Engram等技术融入模型,融入后就能更高效地把“记忆”按照访问频次依次卸载到对应存储层级。外界甚至传言V4.1很快就会推出。



从DSA到Engram,一年来DeepSeek层层勾勒V4架构创新



2026/01/14完整阅读>




三条线索汇总到一起,指向了一场更深层次的行业竞争:Token正在从一个“技术单元”转变为“生产要素”,它的成本逻辑,正在被纳入工业化的竞争框架。



在这场竞争中,本质上有两条同步推进的效率边界。一条在AI算力工厂内部,围绕吞吐量、延迟和成本的三角寻找最优解;另一条在工厂之外,在“更贵但更强”和“够用但廉价”之间争夺市场的最优点。



第一条,是AI工厂自身的效率边界。在黄仁勋的框架里,推理阶段的Token经济学,是一条在吞吐量(TPS/兆瓦)和交互性(TPS/用户)之间展开的价值曲线。吞吐量越高,能响应的用户越多,单位Token价格就越低,但响应速度也就越慢;而对延迟要求极高的高价值场景,硬件成本就需要分摊给更少的并发用户,单价自然更高。



在固定算力和能源约束下,同时实现更大的Token吞吐量、更低的推理延迟和更低的单位成本,是一个“不可能三角”。整个行业都在努力拓展帕累托最优的边界,也就是把整体瓶颈往上推,然后再在三者之间做新一轮权衡。这也是为什么,在财报电话会议上,黄仁勋越来越多地谈论Groq LPU与Vera CPU;他也非常担心华为这个拥有完整垂直整合能力的竞争对手。



第二条边界,存在于AI供给和市场需求之间。更高智能、更高成本的模型,和“足够智能、足够便宜”的模型之间,存在一个不断移动的市场最优点。虽然高价值Token对应着更快的产品迭代速度,但能承受这个预算的客户,规模并非没有上限;而大量低价Token服务于更广泛的市场,反而会创造出总量更大的市场空间。



昂贵的Token,仍然需要在AI应用的最后一环证明自己的价值。如果AI真的能创造规模增量市场,那么科技巨头更可能在保持原有员工规模大致不变的基础上,借助AI大幅扩张市场,而不是大规模裁员,或是为AI转型腾挪预算和编制。用AI替代员工,在很大程度上只能说明,整个需求市场并没有对应Token成本的大幅扩张。



AI三巨头的万亿IPO前夜,应用与技术债务



2026/05/22完整阅读>




DeepSeek真正的市场竞争力,在于它在中国建立起了一套可复制、可扩展的“AI工厂”路线图,把“有效智能”拉到了工业化产品的价格区间里。编码软件公司Replit的首席执行官也说,中国研究者实际上公开分享了真正的人工智能突破,让所有人都受益,包括美国的小型甚至大型实验室。几十年来,很多“低技术”实体经济没办法完成有意义的数字化,不是不想做,而是行业利润率承受不住对应的AI成本。



杰文斯悖论成立的前提,是成本不断下降。但硅谷现在发生的一切,并不是这样。行业价值主要沿着前沿模型厂商、云巨头、芯片巨头、能源巨头集中,也向和监管深度绑定的平台集中;现在全球万亿美元市值上市公司已经有12家,其中9家都是在2023年之后跻身这个俱乐部的。它们几乎都受益于这一轮AI浪潮,但AI之外的其他行业,都被挤到了这场盛宴之外。



黄仁勋在电话会议上,把ACIE业务的市场锚定在全球工业和企业经济活动约50-80万亿美元的宏观底盘上;马斯克在SpaceX招股书中,把AI企业服务的可触达市场空间锁定在约22.7万亿美元;中国在“人工智能+”行动中,把2030年新一代智能终端、智能体等应用的普及率目标设定在90%以上。这些数字指向的,正是Token经济学工业化竞争的未来。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com