登錄
註冊
午方 AI 監測數據顯示,DeepSeek 網頁版與 APP 端已正式上線 '視覺模式',該功能與 '快速模式' 及 '專家模式' 並列於聊天輸入框上方。此次更新並非侷限於基礎文本識別,而是聚焦於深度場景解析、空間邏輯推演,以及將 UI 截圖直接轉化爲結構化 HTML 代碼的能力。在處理複雜幾何推導或圖表分析任務時,系統將自動觸發深度思考模型,輸出完整的推理鏈路。
該 '視覺模式' 的技術底座源於 DeepSeek 團隊公開的 '用視覺基本元素進行思考' 研究框架。針對現有視覺語言模型在精細定位與空間推理上的侷限,北京大學與清華大學聯合發表的研究指出,利用模糊自然語言描述複雜視覺座標存在顯著困難。爲此,研究團隊將座標點與邊界框確立爲最小思考單元,把空間基本元素直接嵌入視覺推理模型的思維鏈中,實現了思維過程中的同步空間參照。
值得注意的是,作爲該功能基礎的學術論文與開源項目曾於 4 月 30 日首次公開,但在 5 月 1 日被 DeepSeek 方面迅速撤下,此舉引發了業界關於技術細節泄露風險及模型後續優化策略的廣泛討論。目前正式部署的 '視覺模式' 僅支持圖像輸入,尚未開放視頻、音頻等多模態格式支持,且不具備圖像生成能力。