据[动察 Beating](https://t.me/OneMillion_AI) 监测,谷歌 DeepMind 发布了一款 **AI co-mathematician(AI 数学副手)**:面向数学家的 **多 Agent 交互式研究工作台**。
—
## 成绩亮眼:Tier 4 正确率 47.9%
在目前最难的研究级数学基准 **FrontierMath Tier 4** 上,该系统取得 **47.9% 正确率**(解出 **23/48** 道题)。
更值得注意的是,它 **直接超过**此前最高纪录 **GPT-5.5 Pro** 的 **39.6%**。
—
## 不换底座,也能翻倍:Gemini 3.1 Pro + Agent 编排
这套系统 **没有使用新一代底座**,而是直接采用 **Gemini 3.1 Pro**。
– Gemini 3.1 Pro **裸跑 Tier 4**:约 **19%**
– 引入 **Agent 框架** 后:成绩实现 **翻倍增长**,并进一步拉开差距
—
## 多层架构“加脚手架”:协调—检索—代码—推理—审稿
DeepMind 为其搭建了一个多层工作流程:
1. **顶层「项目协调人」**
将研究任务拆分为多条并行工作流
2. **子 Agent 执行具体环节**
包括:文献检索、写代码、负责推理等
3. **「审稿 Agent」评审机制**
写出的证明需要经过由多个审稿 Agent 组成的评审会,**通过后**才能提交
这套重“编排能力”的证明方式,核心结论是:
在顶尖数学推理领域,**调度与流程设计带来的能力增量**,可能比单纯换代模型更关键。
—
## 盲测背书:Epoch AI 执行,全程防作弊
盲测由 **Epoch AI** 执行。为防止作弊:
– DeepMind 团队 **全程看不到题目**
– 每道题允许运行 **48 小时**
最终不仅成功登顶,系统还解出 **3 道此前所有模型全军覆没的题**。
—
## 实战案例:Marc Lackenby 补上关键缺口
系统虽然名为“副手”,但更像一个会开脑洞的协作伙伴。
群论专家 **Marc Lackenby** 在实际研究中用它解开了 **Kourovka 笔记本**里的一个公开猜想。
有意思的是:系统最初给出的策略被它自己的审查 Agent 标为 **「有缺陷」**。但 Lackenby 从废案里看出了隐藏的巧妙思路,**自行补上缺口**,最终完成了证明。
—
## 目前状态:少量数学家开放内测
目前,**AI co-mathematician** 仅对少量数学家开放 **内测**。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/179280/


