Claude缓存策略引发争议：关闭遥测致性能骤降，开发者集体声讨

1天前

从缓存时长大幅缩短到使用成本飙升，Claude的性能表现接连下滑。Anthropic解释称这并非刻意惩罚，而是架构设计耦合所致，但实际数据显示：2月高效缓存让用户体验良好，3月策略回退后用户成本显著增加。这场隐私保护与性能体验的博弈中，用户是否成了最终的受损方？

4月13日，一条推文在开发者群体中迅速发酵。

开发者Can Vardar发文质疑：

Claude Code会因为关闭遥测而“惩罚”用户吗？

关闭遥测后，Anthropic将缓存时长从1小时缩减至5分钟，隐私保护竟要付出12倍的性能代价……这是真的吗？

该推文转发量很快突破万次。

这并非技术漏洞，而是Anthropic以隐私换取性能的隐性规则。

你以为关闭数据收集只是保护个人信息？

事实是，Claude Code会直接影响长上下文会话体验。Pro用户原本5小时的使用时长仅剩2条提示词额度，月付200美元的Max订阅者1.5小时就会耗尽额度。

这种情况令人匪夷所思。

Claude性能持续下滑！

从缓存缩短到成本激增

实际情况清晰可见。

开发者发现，只要在环境变量中添加DISABLE_TELEMETRY=1，Claude Code的提示词缓存生存时间（TTL）就会从1小时骤减至5分钟。

数据显示，缓存时长直接缩短了12倍。

在GitHub上，Claude Code用户分享的日志显示：开启遥测时，ephemeral_1h_input_tokens轻松超过3万；关闭遥测后，1小时缓存数据直接归零，全部使用5分钟缓存。同一段代码的缓存未命中率飙升12倍。

缓存对长上下文会话至关重要。

当启用提示词缓存发送请求时，系统会先检查：从指定缓存分隔点往前的提示词开头部分，是否在最近请求中已被存储。

如果命中缓存，直接调用现成版本，时间和成本大幅降低。

未命中的话，就需要完整处理整个提示词，在生成回复时将开头部分存入缓存。

缓存一旦过期，系统就得重新处理，写入成本是读取成本的12.5倍。5分钟的TTL意味着用户稍作停顿（比如思考思路、泡咖啡），回来就需要重新处理，成本骤增。

更严重的问题还在后面。

另一位开发者Sean Swanson提供了更详实的证据。

他分析了2026年1月11日至4月11日的119,866次API调用日志，清晰展示了缓存策略的变化：

2月，1小时TTL全面应用，缓存浪费率仅1.1%；

3月6日左右，系统悄然回退到5分钟TTL，浪费率飙升至25.9%。

结果是，同一会话中cache_create操作频率暴增5-12倍。

cache_create写入成本更高，5分钟缓存写入成本是基础输入的1.25倍，1小时缓存是2倍，但频繁重建导致总token消耗大幅增加。

Pro用户抱怨：以前一天能轻松用完额度，现在1.5小时就耗尽了。Max计划每月200美元，修两个bug、写个计划就把额度用完了。

企业团队面临的问题更严重。

Hacker News上有用户表示，3月底后Claude性能“肉眼可见地下降”，长会话频繁卡顿，token额度消耗极快。

4月13日，国外科技媒体直接发文《Anthropic在削弱Claude吗？》。

Anthropic的回应

并非惩罚，而是技术架构问题

面对大量质疑，Anthropic的两位关键人物作出回应。

Claude Code的创造者Boris Cherny在回帖中承认，关闭遥测会导致实验性优化失效，使缓存回退到5分钟默认值。

简单来说，机制是这样的：

1小时缓存是“实验性”优化，通过客户端实验网关推送。只有开启遥测，网关才能获取最新策略。

但他强调这并非刻意惩罚，而是架构设计中的耦合问题。

Cherny同时解释了缓存策略的设计逻辑：Anthropic在后台持续测试不同缓存策略组合，目标是优化整体缓存命中率、Token消耗和延迟表现。

关闭遥测后，客户端会直接读取默认值——5分钟。

这不是恶意行为，而是“技术副作用”。

5分钟缓存在某些场景下更经济，比如子智能体调用，这类请求通常是一次性的，缓存很少被重复读取，用1小时TTL反而会浪费2倍写入成本。

不过，他也承认：“大量技能、多个智能体或后台自动化任务同时运行时，Token消耗确实很大，尤其是使用大量插件时。”

受影响的用户数量不少，Anthropic正在改进：

(a) 优化用户体验，让用户更清楚了解情况；

(b) 更智能地截断、精简和调度非主任务，避免意外的Token消耗。

Anthropic另一位工程师、Bun运行时的创造者Jarred Sumner回应了3月的TTL回退问题。

他认为5分钟TTL对整体而言“更便宜而非更贵”，因为“相当一部分Claude Code请求是一次性调用，缓存上下文只用一次就不再访问”。

从技术层面看，这个解释有一定道理，但用户并不买账。

问题在于，Swanson的数据直接反驳了这一点：2月份1小时TTL下的浪费率仅1.1%，如果大多数请求真的是一次性的，2月应该出现大量写入浪费才对。

行业深层问题

AI的Token计价缺乏透明度

从更宏观的角度看，这不仅仅是Anthropic一家公司的问题。

目前，AI编码工具的按使用量计费完全依赖用户信任。

开发者看不到计费的具体过程，无法审计每个请求的Token用量，无法验证缓存状态，无法确认应用的定价层级，也无法检查高峰期倍数因子是否生效。

与其他开发者付费使用的基础设施相比：

AWS EC2：按秒计费，提供完整的实例可见性、CloudWatch指标、账单警报和成本分析工具
Stripe：按交易计费，每笔费用都有日志记录且可审计，提供实时仪表盘
Vercel：按调用计费，提供函数级指标、支出限额和自动警报
Claude Code：按Token计费，无单次请求用量明细，无缓存命中可见性，无支出警报，无实时成本跟踪

这种信息不对称令人震惊。同价位的其他开发者工具都能让用户详细了解费用构成，而AI编程助手只给用户一个限额进度条，全凭信任。

这种不对称平时对服务提供商有利，一旦出现问题，就会给用户带来严重损失。

AI计费没有第三方审计，没有Token用量报告的开源标准，也没有针对提示词成本的云端分析工具。

这不是合理的计费模式，更像是让用户盲目信任的冒险。

参考资料：

https://x.com/icanvardar/status/2043652025339023845

https://github.com/anthropics/claude-code/issues/45381

https://x.com/bcherny/status/2043715713551212834

https://platform.claude.com/docs/en/build-with-claude/prompt-caching#pricing

https://www.theregister.com/2026/04/13/claude_code_cache_confusion/

本文来自微信公众号“新智元”，作者：新智元，编辑：KingHZ，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

市县动态｜中越青少年共护生态携手守护生物多样性

中国信通院启动首批云端OpenClaw基线评估工作

广州SKP落地：商业地产高端化与轻资产下沉并行

香江展风采！黄浦科创企业携前沿成果亮相2026香港国际创科展

中国信通院首批企业级类Claw智能体安全能力评估工作正式启动