一行文档投毒AI助手:吴恩达Hub零审核

一行文档投毒AI助手:吴恩达Hub零审核

据 [1M AI News](https://t.me/OneMillion_AI) 监测,DeepLearning.AI 创始人、斯坦福大学兼职教授吴恩达两周前推出的 AI 编程文档服务 Context Hub,近日被安全研究者指出存在明显的供应链攻击风险。

Context Hub 的核心用途,是通过 MCP 服务器为编程 Agent 提供 API 文档支持。其运作方式看似高效:贡献者通过 GitHub PR 提交文档,维护者完成合并后,Agent 再按需读取并使用这些内容。然而,问题恰恰出在这条流程链路上。

替代服务 lap.sh 的创建者 Mickey Shmueli 发布了一份概念验证攻击(PoC),直指 Context Hub 的安全薄弱点。他的评价非常直接:这条流水线“几乎每个环节都缺乏内容审核”。

为了验证风险,Shmueli 专门制作了两份伪造文档,分别针对 Plaid Link 和 Stripe Checkout,并在其中植入了一个虚假的 PyPI 包名。随后,他使用 Anthropic 的三个不同级别模型分别进行了 40 次测试,结果颇具警示意味:

### 测试结果一览

1. **Haiku**

在全部测试中,Haiku 每一次都会将恶意包直接写入 `requirements.txt`,而且输出过程中完全没有给出任何警告。

2. **Sonnet**

Sonnet 的表现略好一些,在 48%(19/40)的测试中发出了警告;但与此同时,仍有 53%(21/40)的测试结果将恶意依赖写入了项目。

3. **Opus**

Opus 是三者中表现最稳健的模型,在 75%(30/40)的测试中成功发出警告,并且没有将恶意依赖写入代码。

### 风险点在哪里?

更值得警惕的是,这类攻击的实施门槛并不高。

攻击者理论上只需要提交一个 PR,并让其顺利被合并,就有机会完成“投毒”。而从审核现实来看,这并非难事:在 Context Hub 已关闭的 97 个 PR 中,有 58 个最终被合并,整体通过率并不低。

Shmueli 认为,这本质上是“间接提示注入”的一种变体。问题的根源在于,AI 模型在处理这类内容时,无法稳定、可靠地区分哪些是“数据”,哪些其实是“指令”。一旦恶意信息被包装进看似正常的文档中,模型就可能在无意间把它当成合法输入继续执行。

### 不只是 Context Hub 的问题

Shmueli 还进一步指出,这并非 Context Hub 一家服务独有的漏洞。其他类似的社区文档服务,在内容审核和安全把关方面,同样普遍存在不足。

截至目前,吴恩达方面尚未回应相关置评请求。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/163579/

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐