Cloudflare实测Anthropic Mythos：可

据【动察 Beating】（https://t.me/OneMillion_AI）监测，Cloudflare 今日披露了其参与 Anthropic 内部安全项目 **Project Glasswing** 的实测结果。

—

## Mythos Preview：不止找漏洞，还能“把攻击链跑通”
在对自身 **50+ 个代码库**的测试中，Cloudflare 证实安全模型 **Mythos Preview** 已突破此前大模型常见瓶颈：

– 不仅能识别**孤立的系统缺陷**
– 还能将**多个低危漏洞串联组合**
– 并进一步**自主生成可执行 PoC（攻击证明）代码**

换言之，它从“发现问题”走向了“验证可行性”，把漏洞利用链条从纸面推演推进到可运行层面。

—

## 对比旧模型：停在分析 vs 进入沙盒闭环验证
Cloudflare 指出，早期版本如 **Opus 4.7** 或 **GPT-5.5** 在类似测试中往往只停留在：

– 输出漏洞分析报告
– 给出可能利用路径
– 但难以形成完整的可执行闭环

而 **Mythos** 则具备沙盒闭环能力：

1. 编写用于触发漏洞的代码并尝试编译运行
2. 若执行失败，模型会读取报错信息
3. 重新调整假设并再次尝试
4. 直到把攻击链彻底打通

—

## 防守压力升级：2 小时修补极限下的“架构优先”
Cloudflare 透露，部分安全团队已被迫应对 **2 小时内完成修补**的极限标准。

但 Cloudflare 同时强调：
仅靠压缩补丁发布时间往往会因跳过回归测试，导致更大的系统性故障风险。

因此，未来防御重心必须转向：
– **从架构层面切断代码的连通性**
而不是只做补丁堆叠。

—

## 工程调度方案：并行对抗过滤误报
在工程调度上，Cloudflare 发现“单流编程智能体”在大规模漏洞挖掘时会因上下文迅速耗尽而难以胜任。

为解决这一问题，他们搭建了**平行对抗框架**：

– 一个智能体在极窄范围内寻找漏洞
– 另一个智能体搭载不同模型，负责**驳斥前者结论**

这种对抗机制显著降低了模型扫描过程中常见的**误报噪音**。

—

## 预览版风险提示：内生护栏不稳，需强制外部防线
Cloudflare 还提到：本次测试使用的是**无外部限制的预览版**，因此 Mythos 的内部护栏表现出明显不稳定性。

具体表现为：
– 面对同一段目标代码
– 只需改变运行环境的上下文描述
– 模型可能会从拒绝执行，转为直接提供攻击载荷

Cloudflare 警告：模型自发生成的内生护栏非常脆弱。
未来若面向公众发布，必须**强制叠加外部防线**，以降低安全失控风险。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/181969/