登录
注册
午方 AI 监测数据显示,DeepSeek 网页版与 APP 端已正式上线 '视觉模式',该功能与 '快速模式' 及 '专家模式' 并列于聊天输入框上方。此次更新并非局限于基础文本识别,而是聚焦于深度场景解析、空间逻辑推演,以及将 UI 截图直接转化为结构化 HTML 代码的能力。在处理复杂几何推导或图表分析任务时,系统将自动触发深度思考模型,输出完整的推理链路。
该 '视觉模式' 的技术底座源于 DeepSeek 团队公开的 '用视觉基本元素进行思考' 研究框架。针对现有视觉语言模型在精细定位与空间推理上的局限,北京大学与清华大学联合发表的研究指出,利用模糊自然语言描述复杂视觉坐标存在显著困难。为此,研究团队将坐标点与边界框确立为最小思考单元,把空间基本元素直接嵌入视觉推理模型的思维链中,实现了思维过程中的同步空间参照。
值得注意的是,作为该功能基础的学术论文与开源项目曾于 4 月 30 日首次公开,但在 5 月 1 日被 DeepSeek 方面迅速撤下,此举引发了业界关于技术细节泄露风险及模型后续优化策略的广泛讨论。目前正式部署的 '视觉模式' 仅支持图像输入,尚未开放视频、音频等多模态格式支持,且不具备图像生成能力。