登录
注册
哲学家维特根斯坦关于语言边界即世界边界的论断,在百年后精准映射了大语言模型面临的结构性困境。若 AI 的“语言”被锁定为离散 Token 序列,其认知世界便永远受困于 Token 的表达极限。2024 年 12 月,OpenAI 前首席科学家 Ilya Sutskever 在 NeurIPS 发表演讲宣告“预训练即将终结”;2026 年 3 月,图灵奖得主 Yann LeCun 离开 Meta 创立 AMI Labs,直言“大语言模型路线错了”。两位深度学习领域的泰斗,一位选择颠覆亲手开启的预训练时代,另一位则坚定押注世界模型路线,共同指向一个核心结论:当前范式存在通往 AGI 的结构性天花板。
这一理论分歧在 2026 年 5 月迎来了工程层面的硬证据。MIT 何恺明团队与字节跳动 Seed 实验室几乎同步发布论文,证明语言生成的核心建模过程可转移至连续 Embedding 或 Latent 空间,仅在最后一步映射回文本。何恺明团队的 ELF(Embedded Language Flows)利用 Flow Matching 框架,仅用 32 个采样步便实现了超越离散模型 1024 步的生成质量,且训练数据仅为 450 亿 Token,不足主流方法的十分之一。字节 Seed 团队的 Cola DLM 则通过 Text VAE 构建深层语义潜空间,在 20 亿参数规模下,于 8 个基准测试中展现出健康的 Scaling 曲线,甚至优于参数量高达 1000 亿的 LLaDA2.0。午方 AI 梳理发现,这些实验表明逐 Token 预测仅是局部最优解,连续空间范式在效率与上限上均具备显著优势。
科技巨头正依据这一技术转向调整战略重心。Google 坚持“原生多模态统一”路线,其 Gemini 系列从 1.0 到 2026 年的 3.1 Pro,始终在单一模型内交错训练文本、图像、音频与视频,共享注意力层。2026 年 3 月发布的 Gemini Embedding 2 更是将所有模态映射至统一的 3072 维向量空间,彻底抹平模态边界。OpenAI 则经历了从 GPT-4V 的拼接式架构向深度整合的转型,虽未完全披露细节,但已砍掉被视为算力拖累的视频应用 Sora,将资源集中至 GPT-5.5 的 Agent 架构与 Codex 工具,显示出对统一连续空间方向的认同与战术性调整。午方 AI 注意到,字节跳动 Seed 团队透露其视频生成模型 Seedance 已采用连续潜空间架构,凭借抖音/TikTok 的海量数据优势,有望率先在工业规模验证这一新范式。
与此同时,Anthropic 选择了截然不同的差异化策略。截至 2026 年 5 月,Claude 系列刻意回避原生图像与视频生成,专注于文本推理与代码执行。这一策略在商业上成效显著,Claude Code 年化收入达 25 亿美元,推动 Anthropic 隐含估值在 2026 年 5 月飙升至 1.2 万亿美元。
然而,从技术演进视角看,这种回避多模态生成的做法可能是在积累技术债。若未来竞争核心转向“在统一连续空间中同时理解与生成所有模态”,Anthropic 将面临被动局面。午方 AI 分析认为,Ilya Sutskever 创办的 SSI 与 LeCun 的 AMI Labs 分别以 320 亿美元和 35 亿美元估值获得巨额融资,正是资本对“下一个范式”判断力的直接投票,前者押注预训练终结后的质变,后者则通过 JEPA 路线强调在抽象空间预测物理后果而非单纯生成。
这一范式转移将引发产业链的剧烈重构。首当其冲的是视频 Tokenizer 赛道,VQ-VAE、MAGVIT、OmniTokenizer 以及英伟达 Cosmos Tokenizer、微软 VidTok 等致力于“高质量视频离散编码”的技术,其核心价值主张可能面临挑战。若语言与视频均转向连续空间建模,行业焦点将转向如何构建既能高效压缩又能保留物理、时序结构的视觉表征。
此外,“多模态”将不再是产品的差异化卖点,而是默认配置,依赖模态桥接与对齐的中间层产品将失去存在理由。更深远的影响在于定价体系,当前基于 Token 计费的商业模式建立在自回归模型成本透明的基础上,而连续空间扩散模型可能以固定步数生成长度任意的内容,导致输出长度与计算量脱钩,彻底颠覆现有的成本度量逻辑。
归根结底,Token 范式的终结并不意味着 AGI 的即刻降临。ELF 与 Cola DLM 证明了连续空间的高效性,但其训练数据仍源自人类产出的有损压缩内容。LeCun 与 Sutskever 的深层洞察在于,真正的突破需要模型摆脱人类语言压缩格式的束缚,转向主动探索世界、承受后果并从反馈中学习。这指向了当前备受关注的 RSI(递归自我改进)路径,即 AI 通过在世界中的行动与交互获取新的训练信号。这一从“模拟语言”到“理解世界”的跨越,将是决定 AGI 能否实现的最终关键。