Hugging Face开源ml-intern：自动读论文选

据 **[动察 Beating](https://t.me/OneMillion_AI)** 监测，**Hugging Face 开源 ml-intern**：一个可自主完成「读论文、整理数据集、启动 GPU 训练、评估结果、迭代改进」的端到端 ML 研究代理。

—

## 核心亮点

– **基于 smolagents 自家框架**构建
– **提供 CLI + 网页端**两种使用入口
– **代码已在 GitHub 开源**

—

## 工具链如何跑通研究全流程？

ml-intern 的工作流围绕 Hugging Face 生态搭建，主要包含：

1. **论文检索与深度阅读**
– 在 **arXiv** 与 **HF Papers** 检索论文
– 沿引用链进行“顺藤摸瓜”式深读

2. **数据集筛选与再格式化**
– 浏览 **HF Hub** 上的数据集
– 进行质量检查
– 重新格式化后再投入训练

3. **无本地 GPU 也能训练**
– 本地没有 GPU 可调用 **HF Jobs**
– 自动启动云端训练任务

4. **评估驱动的诊断与重跑**
– 训练结束后自动读取评估输出
– 诊断失败原因
– 触发重跑与迭代优化

—

## 默认决策与迭代策略

– 默认使用 **Claude Sonnet 4.5** 驱动决策循环
– **单次最多迭代 300 轮**
– 当上下文 **超过 170k token** 时自动进行压缩，持续推进任务

—

## Hugging Face 发布的 3 个案例

### 1）科学推理：引用链 + 数据集变体筛选
– 从基准论文的引用链中找到 **OpenScience** 与 **NemoTron-CrossThink**
– 在 **ARC、SciQ、MMLU** 中按难度过滤，构建 **7 个变体**
– 在 **Qwen3-1.7B** 上跑 **12 轮 SFT**
– **GPQA 得分从 10% 提到 32%**
– 总耗时 **不到 10 小时**

—

### 2）医疗场景：质量不足 → 合成数据扩增
– 代理判断现有数据集质量不够
– 自行编写脚本生成 **1100 条合成数据**
– 并在训练中扩增 **50 倍**
– 在 **HealthBench** 上表现 **超过 Codex 60%**

—

### 3）竞赛数学：训练脚本 + 失败诊断 + 消融实验
– 代理自行编写 **GRPO 训练脚本**
– 通过 **HF Spaces** 在 **A100** 上启动训练
– 观测到 **奖励塌缩**后，继续跑消融实验排查原因

—

ml-intern 将“研究思路”变成可执行的自动化流程：从资料获取到训练、评估与迭代闭环，让 ML 研发更像一个能独立推进的代理系统。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/173539/

Hugging Face开源ml-intern：自动读论文选

相关推荐