DeepMind推AI数学助手：多Agent攻克难题胜GPT

据[动察 Beating](https://t.me/OneMillion_AI) 监测，谷歌 DeepMind 发布了一款 **AI co-mathematician（AI 数学副手）**：面向数学家的 **多 Agent 交互式研究工作台**。

—

## 成绩亮眼：Tier 4 正确率 47.9%
在目前最难的研究级数学基准 **FrontierMath Tier 4** 上，该系统取得 **47.9% 正确率**（解出 **23/48** 道题）。

更值得注意的是，它 **直接超过**此前最高纪录 **GPT-5.5 Pro** 的 **39.6%**。

—

## 不换底座，也能翻倍：Gemini 3.1 Pro + Agent 编排
这套系统 **没有使用新一代底座**，而是直接采用 **Gemini 3.1 Pro**。

– Gemini 3.1 Pro **裸跑 Tier 4**：约 **19%**
– 引入 **Agent 框架** 后：成绩实现 **翻倍增长**，并进一步拉开差距

—

## 多层架构“加脚手架”：协调—检索—代码—推理—审稿
DeepMind 为其搭建了一个多层工作流程：

1. **顶层「项目协调人」**
将研究任务拆分为多条并行工作流
2. **子 Agent 执行具体环节**
包括：文献检索、写代码、负责推理等
3. **「审稿 Agent」评审机制**
写出的证明需要经过由多个审稿 Agent 组成的评审会，**通过后**才能提交

这套重“编排能力”的证明方式，核心结论是：
在顶尖数学推理领域，**调度与流程设计带来的能力增量**，可能比单纯换代模型更关键。

—

## 盲测背书：Epoch AI 执行，全程防作弊
盲测由 **Epoch AI** 执行。为防止作弊：

– DeepMind 团队 **全程看不到题目**
– 每道题允许运行 **48 小时**

最终不仅成功登顶，系统还解出 **3 道此前所有模型全军覆没的题**。

—

## 实战案例：Marc Lackenby 补上关键缺口
系统虽然名为“副手”，但更像一个会开脑洞的协作伙伴。

群论专家 **Marc Lackenby** 在实际研究中用它解开了 **Kourovka 笔记本**里的一个公开猜想。

有意思的是：系统最初给出的策略被它自己的审查 Agent 标为 **「有缺陷」**。但 Lackenby 从废案里看出了隐藏的巧妙思路，**自行补上缺口**，最终完成了证明。

—

## 目前状态：少量数学家开放内测
目前，**AI co-mathematician** 仅对少量数学家开放 **内测**。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/179280/