Anthropic 近日宣布调整旗下新模型 Claude Fable 5 的开发安全策略,正式取消此前备受争议的“静默降级”机制,不再通过暗中降低模型性能来限制特定用户的使用。相关做法此前被人工智能研究社区批评为“暗中破坏”,并引发了强烈反弹。
正文解读
根据 Anthropic 的服务条款,用户不得使用 Claude 训练竞争模型。Anthropic 此前计划对涉嫌训练竞品的账号,在不通知用户的前提下直接降低 Claude Fable 5 的响应性能。多名人工智能研究人员警告,这种静默降级方式会干扰第三方安全评估机构的测试流程,也会阻碍开源社区在模型安全领域的正常协作,影响行业信任基础。
面对舆论压力,Anthropic 发布公开声明并致歉,承认在安全策略的权衡中做出了错误决定。公司表示,将把开发阶段的防护机制调整为公开提示策略:一旦系统检测到用户试图构建高能力 AI 系统,将明确拒绝请求,或将请求重定向至能力受限的模型版本,避免再以“无形降级”的方式处理争议性使用场景。
要点:静默降级机制已被取消,Anthropic 改用更透明的拒绝或重定向策略;新机制意味着部分边缘场景的判定会前移到请求阶段。Anthropic 同时警告,由于公开防护更容易被针对性绕过,未来将扩大安全拦截的覆盖范围,正常的无害请求被误判的概率也可能上升,开发者在调用 API 时需留意相关限制。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/188656/



