登录
注册
2023 年,Sequoia 的 David Cahn 曾指出人工智能领域存在'2 万亿美元的资金缺口',即每投入 1 美元购买 GPU,还需额外消耗 1 美元用于数据中心运营,导致芯片必须创造约 2 万亿美元的营收才能回本。即便在乐观预期下,投资金额与最终用户支付金额之间仍存在超过 1.25 万亿美元的差距。一年后,随着大型供应商资本支出激增,Cahn 将这一缺口重新定义为'6 万亿美元',悲观论调认为过度建设将导致供应过剩和资本损失。
然而,市场近期走势表明,真正的瓶颈已从训练环节转移至推理环节,价值流向正在发生根本性逆转。
Cerebras 周四的成功上市成为这一趋势的标志性事件,其 IPO 认购倍数高达 20 倍,发行价格几乎是前一日设定价的两倍。市场热情并非源于将其视为'下一个英伟达',而是意识到推理能力才是当前真正的稀缺资源。Cerebras 的核心优势在于其极快推理速度的芯片架构,而摩根大通估计推理市场规模是训练市场的 10 到 50 倍。午方 AI 梳理发现,随着机器开始执行其他机器分配的任务,推理需求不再与用户数量成正比,而是与计算资源本身成正比,训练仅需一次,推理却持续不断。
英伟达最新的季度财报进一步印证了这一逻辑转变。在财报电话会议上,黄仁勋明确表示人工智能需求呈指数级增长,核心驱动力是以机器人为核心的技术诞生,主流系统已从单一推理阶段进化到自主调用工具并协调任务的阶段。英伟达因此调整财务报告体系,将业务划分为数据中心平台和边缘计算平台。其中,数据中心平台收入约 750 亿美元,同比增长 92%;边缘计算平台收入为 64 亿美元,同比增长 29%,虽占比不足 8%,但已被提升为与数据中心同等重要的第二大业务平台。Hyperbolic 芯片将于第三季度上市,其推理性能是 Blackwell 芯片的 35 倍,黄仁勋预测该专为机器人工作负载设计的 CPU 潜在市场规模达 2000 亿美元。
在云推理领域,Anthropic 的案例极具代表性。由于使用量远超预配容量,Claude 系统曾出现性能下降、速率受限等问题。为解决瓶颈,Anthropic 于 2026 年 5 月从 SpaceX 收购了配备 22 万块英伟达 GPU 和 300 兆瓦运算能力的 Colossus 1 数据中心,全部用于推理任务。随后,Anthropic 取消了 Claude 代码的五小时限制,大幅提高 API 请求速率,并将机器人工作负载等场景从统一订阅中分离,实行每月 20 至 200 美元的单独计费。午方 AI 注意到,这一系列动作揭示了机器人工作负载对推理资源的消耗速度已远超原有套餐承载能力,迫使行业根据实际成本重构定价机制。
在供应链层面,大多数公司仅占据一环,而 Hyperbolic 则构建了独特的三层架构。2025 年 6 月,Hyperbolic 推出按需租赁 GPU 服务,数月内开发者数量突破 20 万。其核心优势在于不拥有任何 GPU 芯片,而是从 CoreWeave、Lambda Labs、Nebius 等数十家数据中心租用资源,整合成标准化资源池。这种多云聚合能力使其能实时掌握供需动态,在供应过剩前察觉风险,在需求激增前做出反应。Hyperbolic 正试图利用数据预测价格走势,未来或将成为物理计算能力的'做市商',目前其核心价值在于通过连接更多平台提升资源流动性和定价准确性。
相比之下,Venice 代表了应用层面的推理经济模式。作为主打隐私保护的推理服务,Venice 提供与 OpenAI 兼容的 API,路由至约 75 个模型,其中三分之二为开源或自托管模型。Venice 本身不拥有计算资源,而是向下游支付费用,其利润来源主要是隐私保护机制带来的附加价值。其代币体系设计反映了这一逻辑:VVV 代币用于质押和访问,DIEM 代币用于支付推理费用,付费订阅触发 VVV 代币回购销毁。尽管媒体报道其年收入达 7000 万美元,但午方 AI 分析认为实际年收入更可能在 600 万至 1500 万美元之间,目前拥有约 13.6 万个活跃钱包地址,月访问量约 990 万次。
最终,当推理能力成为稀缺资源时,市场竞争的胜负手将不再是拥有多少 GPU,而是谁能精准判断资源分布并以最低成本完成路由。Hyperbolic 看好供应过剩趋势,认为这为无自有硬件的公司提供了理想环境:通过软件技术整合分散资源,将任务路由至价格最低处,从而在 GPU 价格下跌时获取利润。随着以机器人为核心的 AI 技术推动需求呈数量级增长,价值将不仅积累在计算资源本身,更体现在资源的整合、路由及成本优化过程中,Hyperbolic 正致力于成为这一新生态中的核心基础设施。