登录
注册
据午方 AI 消息,百度正式开源 Unlimited-OCR 文档智能解析大模型及相关技术报告。该项目由疑似 DeepSeek-OCR 前核心开发者魏浩然(别名 'YY')担任首席技术官,模型架构基于 DeepSeek-OCR 深度优化。针对传统模型在处理多页长文本时面临的键值缓存线性增长及 GPU 内存激增瓶颈,Unlimited-OCR 引入参考滑动窗口注意力机制(R-SWA),通过仅关注最近处理的图像特征与文本片段(默认长度 128 字符),实现键值缓存容量恒定。该机制在确保图像细节不模糊的前提下,使超过 40 页文档的推理速度与内存消耗保持稳定,整体性能较 DeepSeek-OCR 提升 12.7%,并在 OmniDocBench v1.6 长文档解析基准测试中以 93.92% 的得分刷新端到端性能记录。目前,Unlimited-OCR 源代码及权重已依据 MIT 许可证开源,全面兼容 Hugging Face Transformers、vLLM 及 SGLang 等主流框架,其中 SGLang 已完成对 R-SWA 机制的缓存优化适配。开发团队后续计划将该注意力机制拓展至自动语音识别及翻译等基于参考信息的任务场景。