登錄
註冊
據午方 AI 消息,百度正式開源 Unlimited-OCR 文檔智能解析大模型及相關技術報告。該項目由疑似 DeepSeek-OCR 前核心開發者魏浩然(別名 'YY')擔任首席技術官,模型架構基於 DeepSeek-OCR 深度優化。針對傳統模型在處理多頁長文本時面臨的鍵值緩存線性增長及 GPU 內存激增瓶頸,Unlimited-OCR 引入參考滑動窗口注意力機制(R-SWA),通過僅關注最近處理的圖像特徵與文本片段(默認長度 128 字符),實現鍵值緩存容量恆定。該機制在確保圖像細節不模糊的前提下,使超過 40 頁文檔的推理速度與內存消耗保持穩定,整體性能較 DeepSeek-OCR 提升 12.7%,並在 OmniDocBench v1.6 長文檔解析基準測試中以 93.92% 的得分刷新端到端性能記錄。目前,Unlimited-OCR 源代碼及權重已依據 MIT 許可證開源,全面兼容 Hugging Face Transformers、vLLM 及 SGLang 等主流框架,其中 SGLang 已完成對 R-SWA 機制的緩存優化適配。開發團隊後續計劃將該注意力機制拓展至自動語音識別及翻譯等基於參考信息的任務場景。