阿里开源AgenticQwen：双数据飞轮助8B逼近235B

据[动察 Beating](https://t.me/OneMillion_AI)监测，阿里 PAI 团队发布并开源了专为**工业级工具调用**打造的小型智能体语言模型 **AgenticQwen**，提供 **8B** 与 **30B-A3B** 两个版本。

该系列模型依托创新训练框架 **「双数据飞轮」**，在显著降低推理成本的同时，获得了接近千亿参数大模型的**智能体（Agent）能力**。

—

## 「双数据飞轮」：让模型越错越强

AgenticQwen 的核心机制在于「双数据飞轮」训练法。

在传统合成数据方案中，数据容易同质化，模型性能容易触顶。为突破这一瓶颈，AgenticQwen 引入两个飞轮：

### 1）推理飞轮（让错题变难题）
模型会从**自身错题**中自动生成更具挑战性的变体，持续提升推理与纠错能力。

### 2）智能体飞轮（把简单流程扩展成真实决策）
模型会根据**执行轨迹**，将原本较单一的线性工作流（例如单一订票流程），扩展为包含：
– **约束条件**
– **拒绝策略**
– **对抗条件**
的多分支行为树，从而更贴近真实复杂场景中的决策需求。

—

## 评测表现：小模型跑出接近大模型的能力

评测结果显示：

– **AgenticQwen-8B**
– 在真实工具环境基准（如 **TAU-2**、**BFCL-V4**）中平均得分 **47.4**
– 明显超过基础版 **Qwen3-8B**（**23.8**）
– 并逼近 **Qwen3-235B**（**52.0**）

– **AgenticQwen-30B-A3B**
– 在仅激活 **3B 参数**的情况下，得分达到 **50.2**

—

## 落地进展：已在内部生产系统部署，但仍有边界

目前，AgenticQwen 已在阿里内部类似 **Manus** 的生产系统中部署，带来明显收益：在端到端层面，模型能够实现**更短推理时间**，并进一步缩小与 **235B** 大模型之间的差距。

不过论文也指出：由于受限于 **40K** 的原生上下文长度，小模型在需要**深层搜索**的任务上仍存在一定局限。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/175114/