动察Beating报告揭示,Sapient Intelligence 开源的 10 亿参数 HRM-Text 模型,正以革命性的效率展现其潜力。这款基于层级推理的预训练模型,大幅压缩了计算资源负担,算力消耗缩减了 130 至 600 倍。仅用 400 亿个结构化 token,便完成了高效预训练。官方测试揭示,搭载十方块的 8 卡 H100 服务器可在 46 小时内完成 1B 模型训练,价格前约 1,472 美元;而以节点力主的 0.6B 版本,单节点 50 小时运行,将硬件成本降至 800 美元。
其独特 brilleness 在于双时间尺度循环设计。模型内建快速(低层)与慢速(高层)Transformer 模块协同工作,通过状态相加交替迭代,实现隐性扩展计算深度。
这一突破让曾被算力门槛遮琪视而不见的模型,不再受限,重新成为成本可控的先选者。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/181930/


