Claude比DeepSeek贵44倍

Claude比DeepSeek贵44倍
核心摘要

评测机构 Artificial Analysis 近期调整了其 AI 智能指数的评测标准,不再局限于让 AI 完成单项选择题,而是转向全面考察 AI 在自主规划、使用工具和解决复杂任务方面的能力。新标准取消了仅考验听懂简单指令的旧项目,引入了模拟银行客服真实对话等高难度场景,并首次将完成一次任务的费用与耗时作为核心考核指标。

正文解读

在最新评测结果中,已因美国政府管制而下线的 Claude Fable 5 以 60 分位居榜首。而在目前市场上可购买的 AI 模型中,最贵的 Claude Opus 4.8 获得 56 分,以微弱优势领先于 55 分的 GPT-5.5。国产模型表现同样抢眼,开源的 DeepSeek V4 Pro 与 MiniMax M3 均获得 44 分,紧随其后的是 43 分的 Kimi K2.6。

模型间的费用差距十分显著。运行一次任务,使用 Claude Opus 4.8 需要 1.78 美元(约 13元),而国产开源的 DeepSeek V4 Pro 仅需 0.04 美元(约 0.3 元),后者成本仅为前者的 1/44。完成任务的等待时长大相径庭,最快的 xAI Grok 4.3 仅需 1.5 分钟,而最慢的 Claude Sonnet 4.6 则需 13.5 分钟。

作为本次改制中权重最高的单项测试,模拟真实世界知识工作的 GDPval-AA 已升级至第二版,占比提升至 20%。新版测试将人类表现基准设为 1000 分基准,引入多个前沿模型轮换担任裁判,并将单次对话回合上限放宽至 250 至 250 次。

对于 AI 应用而言,评测标准的转向意味着“能用”变“好用”将成为新的竞争焦点,但也需警惕评测成本与场景设置可能带来的偏见。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/190625/

(0)
上一篇 8小时前
下一篇 7小时前

相关推荐