过去一个月,Claude Code的prompt cache读取率仅为4-17%,远低于正常水平97-99%。这意味着每次恢复会话时,系统并未复用历史上下文,而是从头处理全部内容,导致token消耗达到正常情况的10到20倍。你以为在延续对话,实际上每次都在支付全价重启。
这一数据来自独立开发者ArkNill通过透明代理对Anthropic API请求的监控记录。他发现至少存在两个客户端缓存缺陷,导致API服务器无法正确匹配已缓存的对话前缀,从而触发完整token重建。
图表显示,v2.1.69至v2.1.89版本期间(即漏洞存在期),standalone版缓存读取率持续低迷于4-17%。自v2.1.90修复关键问题后,冷启动阶段缓存命中率回升至47-99.7%;至v2.1.91,稳定运行下恢复至97-99%。
值得注意的是,v2.1.90初期波动大,源于新会话需“预热”缓存。而在漏洞版本中,这种预热从未发生——系统始终停留在初始提示词的14,500 token上,所有历史对话均按全额计费。
该漏洞并非一次更新引入、一次修复解决。npm registry记录显示,引入问题的v2.1.69发布于3月4日,修复版本v2.1.90则在4月1日上线,中间横跨28天,共经历20次版本迭代。
时间线揭示一个关键细节:3月4日漏洞出现后,用户并未立即大规模投诉。直到3月23日才集中爆发。原因在于3月13日至28日,Anthropic推出了2倍额度促销(off-peak时段翻倍),客观掩盖了真实消耗水平。促销结束后,额度耗尽速度迅速回归基线,用户感知到“额度凭空蒸发”。
Anthropic的反应滞后。3月26日,工程师Thariq Shihipar在个人X账号宣布高峰时段限额收紧;3月30日,Reddit上承认“用户触达限额速度远超预期”,称已列为最高优先级。直至4月1日,团队成员Lydia Hallie才发布正式调查结论。
整个过程,无博客文章、无邮件通知、无状态页更新。所有信息仅通过工程师社交媒体和少数Reddit评论传播,缺乏透明度与权威性。
GitHub issue #41930汇集数百条用户反馈。极端案例显示,一位Max 20x订阅者($200/月)的5小时滚动窗口在19分钟内耗尽;Max 5x用户($100/月)报告5小时窗口90分钟内告罄。据The Letter Two报道,一条简单“hello”竟消耗13%会话配额。一位Pro用户($20/月)在Discord称:“每周一额度就用完,周六才重置,每月只有12天可用。”
ArkNill基准测试显示,在漏洞版本v2.1.89下,Max 20x计划的100%配额约70分钟内耗尽。他还测算,单次--resume操作对50万token上下文会话的额度成本约为$0.15,因系统需完整重放全部历史。
Lydia Hallie的调查确认两点:一是高峰时段限额已收紧,二是100万token上下文会话消耗增大。她称已修复部分bug,但强调“没有一个导致多收费”。
随后她提出四条“省量建议”:
未提及任何额度重置或补偿措施。
AI播客主持人Alex Volkov将此回应概括为“你拿的方式不对”,指出Anthropic自身设定100万token为默认上下文、推广旗舰模型Opus、宣传extended thinking功能,如今却建议用户放弃这些核心优势。
更显矛盾的是,就在其回应前一天,v2.1.90修复了一个自v2.1.69起存在的缓存回归漏洞:使用--resume恢复会话时,本应命中缓存的请求却触发完整miss,按全价计费。而该问题在官方声明中未被提及。
对比OpenAI此前对Codex额度异常的处理:重置用户配额、补发credits,并于3月宣布移除使用上限。Anthropic则采取相反路径:建议降级模型、关闭功能、限制上下文,责任归因于用户使用方式。
作为一款售价20至200美元/月、主打“最强模型+最大上下文+最高推理能力”的服务,一个横跨28天的缓存漏洞让付费用户额度以10-20倍速度蒸发,官方回应却是“省着点用”。这场信任危机,正在考验Anthropic的产品信誉与用户忠诚度。