>
正文
百度开源 Unlimited-OCR 文档解析模型
2026-06-23 18:45

据午方 AI 消息,百度正式开源 Unlimited-OCR 文档智能解析大模型及相关技术报告。该项目由疑似 DeepSeek-OCR 前核心开发者魏浩然(别名 'YY')担任首席技术官,模型架构基于 DeepSeek-OCR 深度优化。针对传统模型在处理多页长文本时面临的键值缓存线性增长及 GPU 内存激增瓶颈,Unlimited-OCR 引入参考滑动窗口注意力机制(R-SWA),通过仅关注最近处理的图像特征与文本片段(默认长度 128 字符),实现键值缓存容量恒定。该机制在确保图像细节不模糊的前提下,使超过 40 页文档的推理速度与内存消耗保持稳定,整体性能较 DeepSeek-OCR 提升 12.7%,并在 OmniDocBench v1.6 长文档解析基准测试中以 93.92% 的得分刷新端到端性能记录。目前,Unlimited-OCR 源代码及权重已依据 MIT 许可证开源,全面兼容 Hugging Face Transformers、vLLM 及 SGLang 等主流框架,其中 SGLang 已完成对 R-SWA 机制的缓存优化适配。开发团队后续计划将该注意力机制拓展至自动语音识别及翻译等基于参考信息的任务场景。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
YY
Wei Haoran
DeepSeek
Unlimited OCR
Unlimited-OCR
DeepSeek-OCR
OmniDocBench v1.6
Reference Sliding Window Attention
R-SWA
Hugging Face Transformers
vLLM
SGLang
Baidu
分享:
back