Token工业化竞争：成本账本重构下的新战局

05-28 06:15

本文来自微信公众号：未尽研究，作者：未尽研究

硅谷现在突然开始嫌Token太贵了。

有很长一段时间，整个AI行业都沉浸在智能体会递归进化到通用人工智能（AGI）的乐观情绪里。在Anthropic打造的行业叙事中，性能更强的高价Token永远有它的存在价值。但就在过去一周，三个几乎同时出现的行业信号，撕开了表层乐观叙事下，另一个完全不同的行业现实。

第一个信号，微软内部开始大规模限制Claude Code的使用。原因很简单：它用起来太贵了。微软旗下负责Windows、Microsoft 365、Outlook、Teams和Surface的“体验+设备”部门，要求必须在6月底之前停用Claude Code，把所有开发工作流迁移到微软自家的GitHub Copilot CLI上。

但这件事很难简单归结为内部产品和外部产品的竞争。据业内消息，这次停用决策里，财务部门起到了关键作用。虽然开发团队用得顺手，一致反馈Claude Code能大幅提升开发生产力；但管预算的高管们，并没有看到代码规模增长，给对应软件带来收入暴涨——你到处都能看到AI的影子，唯独在公司的营收报表上看不到。

更值得玩味的是，就在上个月，微软面向外部客户的GitHub Copilot，刚刚宣布全面改成按量计费模式。智能体在持续不断消耗Token，哪怕是微软面对自己的外部客户，也不想白白被“薅羊毛”。对内“停用”是节流，对客户“调价”是开源，本质上都是为了重新对齐成本和价值的账本。在智能体主导的Token消耗浪潮面前，哪怕是微软这样资金雄厚的科技巨头，也已经感受到了压力，AI成本已经正式进入企业的预算约束范围。

现在行业里有两个明确趋势：一方面，前沿大模型的单位Token价格正在持续上涨。硅谷三大巨头都在试探API客户的价格承受力。谷歌最新发布的Gemini-3.5-Flash，价格明显上涨，是同类产品Gemini-3.1-Flash-Lite的6倍，已经接近Gemini-3.1-Pro的价格；OpenAI的GPT-5.5价格是GPT-5.4的两倍；如果考虑新分词器的影响，Claude-Opus-4.7的价格大约是Opus-4.6的1.46倍。

另一方面，智能体及其配套框架正在重塑Token经济学。智能体追求更高性能、更快响应速度，这本身就意味着更高的单位Token成本；而且Token越来越多地承担系统控制功能，代价就是额外的调度复杂度、Token消耗和延迟累积，显著推高了整体消耗。在用户开始输入提示词之前，智能体就会提前预加载很多内容，现在智能体单次任务的Token负载中位数，已经来到了10万Token的量级。

现在，所有大模型厂商都在向智能体厂商转型。OpenAI联合创始人Greg Brockman就认为，单单一个模型，已经不能构成完整的产品了。未来的Token经济学，就会在这个转型趋势下展开。

第二个信号，是DeepSeek宣布V4-Pro永久降价75%。这不是短期促销，不是新用户补贴，也不是互联网行业常见的烧钱换规模。这次降价意味着DeepSeek已经跑通了某种结构性的成本优势。硅谷风投YCombinator的合伙人非常好奇，模型优化和芯片协同，在这个成本优势里起到了多大作用。

根据Artficial Intellgence的统计，运行指定测评任务时，DeepSeek V4 Pro的成本仅约为Gemini-3.1-Pro-Preview的三分之一，GPT-5.5的十二分之一，Claude-Opus-4.7的十九分之一。

今年年初，DeepSeek在DualPath论文中披露，在Agentic AI场景下，它的KV缓存命中率可以高达95%。压缩和管理KV缓存，不只是降低单位Token成本的关键，还把AI的成本函数从“和上下文长度线性相关”重构为“仅和新增决策相关”。这就让智能体可以在长时间、多轮交互中持续运行，不会因为历史上下文膨胀导致成本失控，也把AI从“被调用的工具”变成了“持续运行的进程”。

DeepSeek的深度推理创新，用DualPath为智能体压榨带宽|笔记

2026/02/27完整阅读>

这也会影响模型下游的产品设计。虽然DeepSeek的模型性能，仍然比硅谷顶尖模型落后半年左右，但它依然在快速抢占市场。在OpenRouter平台上，调用V4-Flash模型的请求一直在增长，甚至已经出现了基于V4的“原生”智能体产品。Reasonix就专门针对DeepSeek的缓存机制，打造了一套智能体框架，核心目标就是“节省Token成本”。现在DeepSeek还在招募框架工程师，未来它很可能成为这个新领域的“价格屠夫”。

第三个信号，是华为对“韬（τ）定律”的探索和落地。在这个技术框架下，当晶体管密度提升遇到瓶颈时，华为开始从底层器件、电路、芯片到系统层面，同步压缩数据传输的时间和能耗。华为已经围绕超节点，同步推进统一总线UB-Mesh、Hi-ONE近封装光学、背面供电以及近存计算等技术，还在尝试把鲲鹏和昇腾做“逻辑折叠”，在单位算力的Token吞吐量上实现“时间扩展”。

如何理解华为的韬定律与时间扩展定律

2026/05/26完整阅读>

是逻辑折叠，而不是简单堆叠。这意味着它和当前行业常见的2.5D封装不同，是在Z轴方向、单元层面完成逻辑和计算拓扑的重构。不管是半导体专家还是金融分析师，美国都非常关注华为这次战略方向选择。Bernstein直接评价这是又一个“DeepSeek时刻”。

在近期IEEE中国的直播活动中，华为进一步介绍，鲲鹏950是第一代折叠技术打造的“超级CPU”。在其他条件基本不变的情况下，鲲鹏950通过重新组织CPU核和互联结构，让关键路径长度明显缩短。垂直折叠之后，微架构投影面积减少了大约40%，平均线延迟下降约8%，仅这一项就带来了约468MHz的频率增益；而时钟树缩短和时钟偏差优化，又进一步贡献了接近100MHz的额外提升。最终，这颗原本运行在2.6GHz的CPU核，被直接提升到了3.2GHz，同时能效提升超过10%。华为已经在规划鲲鹏960，升级会更加激进，CPU内核会直接参与逻辑折叠。

除此之外，最近华为还展示了基于自研板上裸片封装（DoB）技术的大容量SSD系列，目前已经量产61.44TB和122.88TB两款产品，245TB版本也在规划当中。华为还有自研的高带宽内存HiBL 1.0。

这不由得让人联想，DeepSeek已经深度适配了昇腾950，未来也会受益于整个超节点体系的“时间扩展”效应。DeepSeek的降价，或许已经暗示了中国本土AI算力生态的推进进度。在这次的V4版本里，DeepSeek还没有把Engram等技术融入模型，融入后就能更高效地把“记忆”按照访问频次依次卸载到对应存储层级。外界甚至传言V4.1很快就会推出。

从DSA到Engram，一年来DeepSeek层层勾勒V4架构创新

2026/01/14完整阅读>

三条线索汇总到一起，指向了一场更深层次的行业竞争：Token正在从一个“技术单元”转变为“生产要素”，它的成本逻辑，正在被纳入工业化的竞争框架。

在这场竞争中，本质上有两条同步推进的效率边界。一条在AI算力工厂内部，围绕吞吐量、延迟和成本的三角寻找最优解；另一条在工厂之外，在“更贵但更强”和“够用但廉价”之间争夺市场的最优点。

第一条，是AI工厂自身的效率边界。在黄仁勋的框架里，推理阶段的Token经济学，是一条在吞吐量（TPS/兆瓦）和交互性（TPS/用户）之间展开的价值曲线。吞吐量越高，能响应的用户越多，单位Token价格就越低，但响应速度也就越慢；而对延迟要求极高的高价值场景，硬件成本就需要分摊给更少的并发用户，单价自然更高。

在固定算力和能源约束下，同时实现更大的Token吞吐量、更低的推理延迟和更低的单位成本，是一个“不可能三角”。整个行业都在努力拓展帕累托最优的边界，也就是把整体瓶颈往上推，然后再在三者之间做新一轮权衡。这也是为什么，在财报电话会议上，黄仁勋越来越多地谈论Groq LPU与Vera CPU；他也非常担心华为这个拥有完整垂直整合能力的竞争对手。

第二条边界，存在于AI供给和市场需求之间。更高智能、更高成本的模型，和“足够智能、足够便宜”的模型之间，存在一个不断移动的市场最优点。虽然高价值Token对应着更快的产品迭代速度，但能承受这个预算的客户，规模并非没有上限；而大量低价Token服务于更广泛的市场，反而会创造出总量更大的市场空间。

昂贵的Token，仍然需要在AI应用的最后一环证明自己的价值。如果AI真的能创造规模增量市场，那么科技巨头更可能在保持原有员工规模大致不变的基础上，借助AI大幅扩张市场，而不是大规模裁员，或是为AI转型腾挪预算和编制。用AI替代员工，在很大程度上只能说明，整个需求市场并没有对应Token成本的大幅扩张。

AI三巨头的万亿IPO前夜，应用与技术债务

2026/05/22完整阅读>

DeepSeek真正的市场竞争力，在于它在中国建立起了一套可复制、可扩展的“AI工厂”路线图，把“有效智能”拉到了工业化产品的价格区间里。编码软件公司Replit的首席执行官也说，中国研究者实际上公开分享了真正的人工智能突破，让所有人都受益，包括美国的小型甚至大型实验室。几十年来，很多“低技术”实体经济没办法完成有意义的数字化，不是不想做，而是行业利润率承受不住对应的AI成本。

杰文斯悖论成立的前提，是成本不断下降。但硅谷现在发生的一切，并不是这样。行业价值主要沿着前沿模型厂商、云巨头、芯片巨头、能源巨头集中，也向和监管深度绑定的平台集中；现在全球万亿美元市值上市公司已经有12家，其中9家都是在2023年之后跻身这个俱乐部的。它们几乎都受益于这一轮AI浪潮，但AI之外的其他行业，都被挤到了这场盛宴之外。

黄仁勋在电话会议上，把ACIE业务的市场锚定在全球工业和企业经济活动约50-80万亿美元的宏观底盘上；马斯克在SpaceX招股书中，把AI企业服务的可触达市场空间锁定在约22.7万亿美元；中国在“人工智能+”行动中，把2030年新一代智能终端、智能体等应用的普及率目标设定在90%以上。这些数字指向的，正是Token经济学工业化竞争的未来。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

网传高考将禁用AI相关功能引讨论多家主流AI平台给出最新回应

电子板块成交额突破万亿，A股主力资金整体大幅净流出

韬定律的诞生：华为以系统论重构半导体行业逻辑

OPPO Reno16系列新品登场，京东MALL现已开启预订通道

刘强东持续加码线下商业：京东天地比京东MALL更趋近于真正的购物中心

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统