百度開源 Unlimited-OCR 文檔解析模型

2026-06-23 18:45

據午方 AI 消息，百度正式開源 Unlimited-OCR 文檔智能解析大模型及相關技術報告。該項目由疑似 DeepSeek-OCR 前核心開發者魏浩然（別名 'YY'）擔任首席技術官，模型架構基於 DeepSeek-OCR 深度優化。針對傳統模型在處理多頁長文本時面臨的鍵值緩存線性增長及 GPU 內存激增瓶頸，Unlimited-OCR 引入參考滑動窗口注意力機制（R-SWA），通過僅關注最近處理的圖像特徵與文本片段（默認長度 128 字符），實現鍵值緩存容量恆定。該機制在確保圖像細節不模糊的前提下，使超過 40 頁文檔的推理速度與內存消耗保持穩定，整體性能較 DeepSeek-OCR 提升 12.7%，並在 OmniDocBench v1.6 長文檔解析基準測試中以 93.92% 的得分刷新端到端性能記錄。目前，Unlimited-OCR 源代碼及權重已依據 MIT 許可證開源，全面兼容 Hugging Face Transformers、vLLM 及 SGLang 等主流框架，其中 SGLang 已完成對 R-SWA 機制的緩存優化適配。開發團隊後續計劃將該注意力機制拓展至自動語音識別及翻譯等基於參考信息的任務場景。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包