百度开源3B文档解析模型

23BTC 资讯速递自动整理 · 结构化解读

核心摘要

百度团队开源了文档智能解析大模型Unlimited-OCR，并同步发布了技术报告。报告显示，该项目的技术总监署名为化名“YY”，业内普遍猜测其真实身份是前DeepSeek-OCR核心作者魏浩然，而Unlimited-OCR正是基于DeepSeek-OCR底座构建而成。

正文解读

在长文档解析基准测试OmniDocBench v1.6中，Unlimited-OCR取得了93.92%的得分，刷新了端到端SOTA纪录。传统文档解析模型在处理多页长文本时，常因键值缓存KV cache线性暴涨而导致运行速度大幅下降和显存消耗激增。百度为此引入了参考滑动窗口注意力机制R-SWA，在解码生成文本时仅关注所有图像特征与近期固定窗口（默认128个Token）的已生成文本，将KV cache总体积上限锁定为常数。这一设计既避免了图像细节随窗口淘汰而模糊，又保证了推理速度和显存消耗在解析长达40页以上的文档时保持恒定，测试中相比DeepSeek-OCR提速12.7%。

目前，百度已采用MIT协议开源Unlimited-OCR的代码与权重，支持Hugging Face Transformers、vLLM、SGLang等主流引擎，其中SGLang已针对R-SWA实现了缓存优化。未来团队计划将参考滑动窗口注意力机制推广至语音识别ASR和翻译等其他任务，以进一步拓展其应用场景。需要提醒的是，尽管Unlimited-OCR在基准测试中表现优异，但其实际性能和泛化能力仍需在更多真实场景中验证，且开源社区的反馈和持续优化将是其能否落地的关键。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/193188/

百度开源3B文档解析模型

正文解读

相关推荐