百度团队开源了文档智能解析大模型Unlimited-OCR,并同步发布了技术报告。报告显示,该项目的技术总监署名为化名“YY”,业内普遍猜测其真实身份是前DeepSeek-OCR核心作者魏浩然,而Unlimited-OCR正是基于DeepSeek-OCR底座构建而成。
正文解读
在长文档解析基准测试OmniDocBench v1.6中,Unlimited-OCR取得了93.92%的得分,刷新了端到端SOTA纪录。传统文档解析模型在处理多页长文本时,常因键值缓存KV cache线性暴涨而导致运行速度大幅下降和显存消耗激增。百度为此引入了参考滑动窗口注意力机制R-SWA,在解码生成文本时仅关注所有图像特征与近期固定窗口(默认128个Token)的已生成文本,将KV cache总体积上限锁定为常数。这一设计既避免了图像细节随窗口淘汰而模糊,又保证了推理速度和显存消耗在解析长达40页以上的文档时保持恒定,测试中相比DeepSeek-OCR提速12.7%。
目前,百度已采用MIT协议开源Unlimited-OCR的代码与权重,支持Hugging Face Transformers、vLLM、SGLang等主流引擎,其中SGLang已针对R-SWA实现了缓存优化。未来团队计划将参考滑动窗口注意力机制推广至语音识别ASR和翻译等其他任务,以进一步拓展其应用场景。需要提醒的是,尽管Unlimited-OCR在基准测试中表现优异,但其实际性能和泛化能力仍需在更多真实场景中验证,且开源社区的反馈和持续优化将是其能否落地的关键。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/193188/



