Agent性能媲美Opus4.6,价格仅4%:Arcee开源

Agent性能媲美Opus4.6,价格仅4%:Arcee开源

重磅开源!Arcee发布Trinity-Large-Thinking:专为长程Agent任务打造的推理巨兽

1M AI News 监测,美国AI模型公司Arcee近日正式发布了Trinity-Large-Thinking。这是一款专门面向长时间、复杂Agent任务而设计的开源推理模型,现已以Apache 2.0许可证在Hugging Face平台开放权重下载。

🚀 核心架构与设计理念

模型采用先进的稀疏混合专家(MoE)架构,总参数量高达4000亿(400B),但每次推理激活的参数仅为130亿(13B),在保持强大能力的同时实现了极高的计算效率。

与前代产品Trinity-Large-Preview(纯指令微调)不同,Trinity-Large-Thinking的核心创新在于其“先思考,后回答”的推理机制。这一设计使其在以下关键能力上获得显著提升:

  • 多轮工具调用
  • 长上下文连贯性
  • 复杂指令遵循

其核心设计目标明确:在长时间的Agent任务循环中,保持输出的一致性与稳定性。

🏆 基准测试表现:Agent任务王者,通用推理待提升

在权威的Agent能力基准测试中,Trinity-Large-Thinking展现了顶尖实力:

  • PinchBench(由Kilo开发):得分91.9,排名第二,仅次于Opus 4.6(93.3)。
  • Tau2-Airline(Agent任务基准):得分88.0,为所有对比模型中最高

然而,在通用推理基准上,其表现相对一般:

  • GPQA-D:得分76.3,低于Kimi-K2.5(86.9)和Opus 4.6(89.2)。
  • MMLU-Pro:得分83.4,在对比模型中排名末位。

尽管如此,Arcee官方自信地表示,该模型在“许多维度上是中国以外最强的开源模型”

💰 极具竞争力的定价与生态部署

Arcee为该模型提供了极具吸引力的商业化方案:

  • API定价:输出token价格为$0.90 / 百万token。据Arcee称,这比Opus 4.6便宜约96%
  • 平台上线:模型已同步上线AI模型路由平台OpenRouter
  • 免费福利:用户可在OpenClaw中免费使用前5天

📈 前代模型的成功与延续

Arcee的前代模型Trinity-Large-Preview自今年1月底发布以来,已在OpenRouter上服务了超过3.37万亿token,成为OpenClaw收录的美国使用量第一、全球第四的开源模型,市场表现极为亮眼。

好消息是,Preview版本将继续在OpenRouter上免费提供,为用户提供了从免费体验到高性能商业应用的平滑路径。


本文信息监测自 1M AI News

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/166104/

(0)
上一篇 5天前
下一篇 5天前

相关推荐