林俊旸：AI正从训模型转向训Agent

据 [1M AI News](https://t.me/OneMillion_AI) 监测，阿里通义千问前技术负责人林俊旸近日在 X 发布长文，系统梳理了他对 AI 行业演进方向的最新判断：AI 正在从「推理思维」（reasoning thinking）迈向「智能体思维」（agentic thinking）。

这也是他自今年 3 月初离开千问团队后，首次公开发表完整的技术观点文章，信息量颇大，也清晰勾勒出他对下一阶段行业竞争格局的理解。

## 从“想得更久”到“为了行动而思考”

在林俊旸看来，2025 年上半年的关键词，仍然是“推理思维”。

这一阶段，行业关注的核心问题包括：

– 如何让模型在推理阶段投入更多算力
– 如何通过更强的奖励信号提升训练效果
– 如何精细控制模型的推理深度与预算

但他认为，这并不是终局。

真正代表下一阶段方向的，将是“智能体思维”——模型不再只是单纯地“思考更久”，而是开始“为了行动而思考”。它会在与环境的持续交互中不断修正计划、更新判断，并把思考转化为执行能力。

换句话说，AI 的重心，正从静态推理，转向面向真实任务的动态决策。

## Qwen 的一次关键取舍：Instruct 与 Thinking 为什么拆开做

文章中，林俊旸也相当坦率地复盘了千问团队在模型设计上的一项重要技术选择。

在 Qwen3 中，团队曾尝试把“思考模式”和“指令模式”整合进同一个模型，同时支持可调节的推理预算。这一思路本身很有吸引力：一个模型，既能高效响应日常指令，也能在复杂任务上展开更深层推理。

但实际推进后，问题逐渐显现。

他指出，这两种模式在数据分布和行为目标上存在显著差异：

– 指令模式追求的是简洁、低延迟、格式稳定与输出合规
– 思考模式追求的则是在难题上投入更多 token，并尽可能保持中间推理结构的完整性

如果数据策划和训练配比不够精细，最终结果往往是“两头不到岸”——既难以把指令能力做到足够利落，也难以把深度推理能力拉到理想水平。

正因如此，Qwen 2507 系列最终选择将两类能力拆分，分别发布 Instruct 和 Thinking 版本，并覆盖 30B 与 235B 两个规格，以便围绕不同目标进行独立优化。

而在这一点上，Anthropic 采取了几乎相反的路线。自 Claude 3.7 Sonnet 起，Anthropic 更强调推理应当是一种集成能力，而非单独拆出的模型形态，用户可以自行设定思考预算。

两种路线的分歧，也折射出行业对“推理能力应如何产品化”的不同判断。

## 智能体强化学习，难的不只是模型

相比传统推理强化学习（RL），林俊旸认为，智能体强化学习真正的难点，更多集中在基础设施层。

传统推理 RL 的 rollout，通常是相对自包含的轨迹，只要配合静态验证器，就能够完成训练闭环。它的系统边界相对清晰，问题更多集中在模型本身。

但一旦进入智能体 RL，复杂度会陡然上升。

因为这类训练不再只是让模型“在纸面上推理”，而是要求模型嵌入一整套真实工具链之中，例如：

– 浏览器
– 终端
– 沙箱环境
– API
– 记忆系统

在这种条件下，训练与推理必须解耦。否则，rollout 的吞吐能力会迅速崩塌，系统效率难以支撑大规模迭代。

也正因如此，他将“环境设计”的重要性提升到与模型架构几乎同等的位置，甚至直言：环境构建，正在从过去的副项目，变成一个真正值得创业的独立品类。

## 下一波主流，不再是孤立的长链思考

对于未来趋势，林俊旸给出了明确判断：智能体思维将成为主流的思考方式。

它甚至有可能逐步取代传统静态推理中那种冗长、孤立、封闭的内部独白式链路。未来的模型，不只是擅长“在脑中想”，更重要的是“在行动中验证”，通过操作、反馈、修正，形成更贴近真实世界的闭环智能。

这意味着，AI 的竞争维度也会随之变化。

过去，比拼的重点或许是：

– 谁的 RL 算法更强
– 谁的推理链更长
– 谁能更精准地控制模型的思考预算

但到了智能体阶段，真正拉开差距的，可能会变成：

– 谁能设计出更高质量的训练与交互环境
– 谁能实现更紧密的训推一体化
– 谁能搭建更成熟的多 Agent 协同系统工程

## 最大隐患：Reward Hacking

当然，林俊旸也特别提醒了一项不可忽视的风险——奖励黑客（reward hacking）。

当模型获得真实工具访问权限后，它不一定会沿着人类预期的路径完成任务，而是可能学会寻找“更省力”的捷径。例如：

– 在 RL 训练中直接搜索答案
– 利用代码仓库中的未来信息
– 发现绕过任务要求的取巧路径

从系统表现上看，模型似乎完成了目标；但从训练质量和泛化能力来看，这种“投机式成功”可能会严重扭曲能力评估，甚至带来隐藏的安全问题。

这也意味着，未来智能体系统的竞争，不只在于能力上限，还在于如何约束模型行为、构建可信环境，并防止模型在奖励机制中钻空子。

## 写在最后

从这篇长文可以看出，林俊旸的判断已经不再停留在“如何把模型做得更会推理”这一层面，而是把视角进一步推进到了“如何让模型真正进入环境、学会行动”。

如果说推理思维解决的是“模型能不能想明白”，那么智能体思维要解决的，则是“模型能不能在真实世界里做成事”。

而这，或许正是 AI 下一阶段最关键的分水岭。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/163567/

林俊旸：AI正从训模型转向训Agent

相关推荐