Claude比DeepSeek贵44倍

23BTC 资讯速递自动整理 · 结构化解读

核心摘要

评测机构 Artificial Analysis 近期调整了其 AI 智能指数的评测标准，不再局限于让 AI 完成单项选择题，而是转向全面考察 AI 在自主规划、使用工具和解决复杂任务方面的能力。新标准取消了仅考验听懂简单指令的旧项目，引入了模拟银行客服真实对话等高难度场景，并首次将完成一次任务的费用与耗时作为核心考核指标。

正文解读

在最新评测结果中，已因美国政府管制而下线的 Claude Fable 5 以 60 分位居榜首。而在目前市场上可购买的 AI 模型中，最贵的 Claude Opus 4.8 获得 56 分，以微弱优势领先于 55 分的 GPT-5.5。国产模型表现同样抢眼，开源的 DeepSeek V4 Pro 与 MiniMax M3 均获得 44 分，紧随其后的是 43 分的 Kimi K2.6。

模型间的费用差距十分显著。运行一次任务，使用 Claude Opus 4.8 需要 1.78 美元（约 13元），而国产开源的 DeepSeek V4 Pro 仅需 0.04 美元（约 0.3 元），后者成本仅为前者的 1/44。完成任务的等待时长大相径庭，最快的 xAI Grok 4.3 仅需 1.5 分钟，而最慢的 Claude Sonnet 4.6 则需 13.5 分钟。

作为本次改制中权重最高的单项测试，模拟真实世界知识工作的 GDPval-AA 已升级至第二版，占比提升至 20%。新版测试将人类表现基准设为 1000 分基准，引入多个前沿模型轮换担任裁判，并将单次对话回合上限放宽至 250 至 250 次。

对于 AI 应用而言，评测标准的转向意味着“能用”变“好用”将成为新的竞争焦点，但也需警惕评测成本与场景设置可能带来的偏见。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/190625/