据[动察 Beating](https://t.me/OneMillion_AI)监测,Anthropic 工程团队近日发文确认:近一个多月内 Claude Code 的质量下降,并非来自 API 或底层模型变化,而是由**三个相互独立的产品层改动**触发。相关问题分别在 **4 月 7 日、4 月 10 日、4 月 20 日**完成修复,最终版本为 **v2.1.116**。
—
## 1)默认推理力度下调:用户反馈变“变笨”
**时间点:3 月 4 日上线**
为降低 Opus 4.6 在高推理力度下偶发的**极长延迟**(UI 看似卡死),团队将 Claude Code 默认推理力度从 **high** 调整为 **medium**。
**结果:用户普遍反映变慢、变“笨”**
因此在 **4 月 7 日回滚**:
– **Opus 4.7** 默认恢复为 **xhigh**
– 其他模型默认恢复为 **high**
—
## 2)闲置清理逻辑 bug:越聊越健忘、额度消耗加速
**时间点:3 月 26 日引入**
原本设计为:当会话闲置超过 **1 小时**后,清除旧的推理记录,以降低恢复会话成本。
但实现缺陷导致“清理”并非只执行一次,而是**之后每一轮都继续执行**。模型因此逐步丢失既有推理上下文,表现为:
– 越聊越健忘
– 重复操作增多
– 工具调用异常
– 每次请求更容易出现缓存未命中,导致**用户额度消耗加速**
团队表示:由于该问题被两个“不相关”的内部实验条件掩盖,复现与排查耗时**一周多**,最终在 **4 月 10 日修复**。
另外,团队还提到回测结果:
– 用 **Opus 4.7** 对出问题 PR 进行代码审查回归,能发现该 bug
– **Opus 4.6** 则未能发现
—
## 3)系统 Prompt 减少冗余输出:上线后与其他 prompt 叠加伤害编码质量
**时间点:4 月 16 日上线(随 Opus 4.7)**
团队在系统 prompt 中加入了减少冗余输出的指令。内部测试数周内未见明显回归。
但上线后发现:该指令与其他 prompt **叠加**后,会损害编码质量。
扩大评测后确认:
– Opus **4.6** 也下降约 **3%**
– Opus **4.7** 也下降约 **3%**
因此在 **4 月 20 日回滚**。
—
## 为什么看起来“广泛且不一致”?
三个改动分别:
– 影响不同用户群
– 在不同时间段生效
叠加后呈现为**广泛但表现不统一的质量下降**,自然也进一步增加了排查难度。
—
## 后续措施与用户补偿
Anthropic 表示,后续将要求更多内部员工使用并验证**与用户完全相同的公开构建版本**;同时对系统 prompt 的每次修改:
– 跑完整的模型评测套件
– 设置灰度期
作为补偿,Anthropic 已重置所有订阅用户的用量额度。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/174145/


