据[动察 Beating](https://t.me/OneMillion_AI)监测,阿里 PAI 团队发布并开源了专为**工业级工具调用**打造的小型智能体语言模型 **AgenticQwen**,提供 **8B** 与 **30B-A3B** 两个版本。
该系列模型依托创新训练框架 **「双数据飞轮」**,在显著降低推理成本的同时,获得了接近千亿参数大模型的**智能体(Agent)能力**。
—
## 「双数据飞轮」:让模型越错越强
AgenticQwen 的核心机制在于「双数据飞轮」训练法。
在传统合成数据方案中,数据容易同质化,模型性能容易触顶。为突破这一瓶颈,AgenticQwen 引入两个飞轮:
### 1)推理飞轮(让错题变难题)
模型会从**自身错题**中自动生成更具挑战性的变体,持续提升推理与纠错能力。
### 2)智能体飞轮(把简单流程扩展成真实决策)
模型会根据**执行轨迹**,将原本较单一的线性工作流(例如单一订票流程),扩展为包含:
– **约束条件**
– **拒绝策略**
– **对抗条件**
的多分支行为树,从而更贴近真实复杂场景中的决策需求。
—
## 评测表现:小模型跑出接近大模型的能力
评测结果显示:
– **AgenticQwen-8B**
– 在真实工具环境基准(如 **TAU-2**、**BFCL-V4**)中平均得分 **47.4**
– 明显超过基础版 **Qwen3-8B**(**23.8**)
– 并逼近 **Qwen3-235B**(**52.0**)
– **AgenticQwen-30B-A3B**
– 在仅激活 **3B 参数**的情况下,得分达到 **50.2**
—
## 落地进展:已在内部生产系统部署,但仍有边界
目前,AgenticQwen 已在阿里内部类似 **Manus** 的生产系统中部署,带来明显收益:在端到端层面,模型能够实现**更短推理时间**,并进一步缩小与 **235B** 大模型之间的差距。
不过论文也指出:由于受限于 **40K** 的原生上下文长度,小模型在需要**深层搜索**的任务上仍存在一定局限。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/175114/


