登录
注册
据 Woofun AI 消息,OpenAI 正式展示了与博通联合打造的首款定制人工智能芯片 Jalapeño,标志着该公司在构建全栈基础设施战略上迈出关键一步。博通首席执行官 Hock Tan 透露,这款芯片性能可媲美英伟达 Blackwell 或谷歌 TPU,计划于今年年底前部署,且已在实验室 GPT-5.3-Codex-Spark AI 模型上验证了功耗与性能目标。
这一进展不仅意味着 OpenAI 从模型层向底层硬件的延伸,更预示着 AI 行业正从单纯依赖通用 GPU 转向针对特定场景的专用 ASIC 架构。OpenAI 硬件负责人 Richard Ho 强调,Jalapeño 旨在为大模型推理提供高吞吐、低延迟及高能效的解决方案,其设计周期仅耗时九个月,刷新了高性能先进半导体领域的开发速度纪录。
这一速度背后,是 OpenAI 工程团队与博通的深度协作,以及利用自身 AI 模型辅助芯片设计的创新流程,表明 AI 技术已开始反哺其自身基础设施的构建。在合作分工上,OpenAI 负责基于模型内核与服务需求进行芯片设计,博通承担实现与网络连接技术,加拿大电子制造商 Celestica 提供板卡与系统级工业化能力,最终由台积电负责制造。
这种全链条的协同模式,使得 OpenAI 能够实现对从芯片到服务器系统再到大规模部署的完整控制,从而在激烈的算力竞争中占据主动。网友对此反应强烈,有人感叹行业变化速度之快,几年前难以想象 AI 公司会自研芯片;也有人指出,将芯片命名为 Jalapeño(墨西哥辣椒)本身就暗示了竞争的激烈程度,甚至有人戏称 OpenAI 是史上最糟糕的命名者。
然而,这些讨论背后折射出的是对英伟达等通用 GPU 巨头未来地位的深刻担忧,随着越来越多 AI 实验室转向自研定制硬件,传统芯片巨头的市场格局或将面临重构。Jalapeño 并非一次性项目,而是 OpenAI 与博通共建多代计算平台的第一步,首批芯片预计今年底在微软等合作伙伴处商用,但真正批量生产需等到明年。OpenAI 设定了宏大目标,计划到 2029 年利用定制芯片实现 10 吉瓦的计算能力,这将彻底改变其算力获取方式,从单纯租用转向自主掌控。Richard Ho 表示,这种全栈控制权使得不同层级可以围绕同一目标协同优化,形成围绕算力、模型、产品和商业化的飞轮效应。更好的基础设施提升计算效率,进而支撑更强的训练与推理,推动模型迭代与产品创新,最终通过产品收入反哺下一代基础设施建设。
这种闭环逻辑正是 OpenAI 应对算力短缺与成本压力的核心策略,也是其长期战略的基石。软件层面的利润空间在吉瓦级推理计算规模下难以长期维持,构建定制 ASIC 已成为基础设施转型的必由之路。Jalapeño 架构优化的重点源于 OpenAI 与研究团队的紧密协作,深入理解前沿 AI 模型中最关键的内核、内存移动、网络和服务模式。早期测试表明,该芯片在重要工作负载上能接近硬件理论极限运行,通过减少数据传输并平衡计算、内存和网络资源,使实际利用率更接近理论峰值。相比简单堆叠算力,这种设计更强调大模型推理中的真实效率,散热性能甚至超出预期。这也解释了为何 OpenAI 将其称为'Intelligence Processor'而非简单的'AI 加速器',突显其作为智能核心处理器的定位。从初始设计到制造流片仅用九个月,OpenAI 认为这是高性能先进半导体领域定制 AI 加速器项目中速度最快的 ASIC 开发周期之一。设计周期之所以如此迅速,除了 OpenAI 工程团队与博通的深度合作及博通的资深经验外,OpenAI 还在部分设计和优化流程中使用了自身的 AI 模型。这表明 AI 不只是芯片的使用者,也开始成为芯片设计流程的一部分。OpenAI 认为,如果 AI 能帮助工程师更快设计出更好的芯片,就有可能降低整个行业的计算成本,并推动先进 AI 更广泛可及。此前,Hock Tan 曾透露,Jalapeño 加速器相比典型的 AI 图形处理单元,可以节省约 50% 的成本。
这一成本优势对于大规模交互式 AI 产品至关重要,尤其是在推理调用量将大幅增长并逐渐成为主要算力需求来源的背景下。OpenAI 目前的发力方向正是该领域,训练继续依赖英伟达等外部芯片,先单独把推理芯片做出来内部使用。相比之下,英伟达的核心思路不是'一套训练芯片,一套推理芯片',而是用一套足够通用的 GPU 架构吃掉训练、推理和更广泛的数据中心 AI 工作负载,比如 Hopper、Blackwell 既能训练也能推理。但英伟达会在营销和产品形态上,把某些产品更明确地推向推理,比如现在官方已经把 Blackwell 平台非常明确地包装成大模型推理平台。它宣称 GB300 NVL72 在 agentic inference 场景下可把每 token 成本大幅压低,并强调'AI inference at scale'。同样地,Google TPU 是为矩阵乘、张量计算、Transformer 深度学习工作负载定制的 ASIC,核心目标是把训推里最核心的张量计算做得更高效,并与自己的软件栈、数据中心、模型体系深度耦合,以此在成本、功耗、互联上优于通用 GPU。当然,Google 也有一些面向推理的产品,但基本是在 TPU 体系里做'推理优化',像 TPU v5e 集训练和推理(服务)于一体,而 v6e-8 配置则是为推理优化的,可以让 8 个芯片服务同一个推理工作负载。一旦推理成为最大的成本账单,企业就不再是租用芯片,而是开始自己造芯片了。所有还在出租算力的人,今天可能都该有点紧张了。OpenAI 未来一系列芯片产品是否公开发售,或许会对主打'提供快速、低成本推理,即使在真正重要的情况下也不会出错'的 Groq 等公司产生影响。路透社最早在 2023 年报道称,OpenAI 正在探索自研芯片。OpenAI 曾考虑完全自研,并筹集资金实施一项耗资庞大的计划,建设一个被称为'foundries'的芯片制造工厂网络。但由于建设该网络所需的成本和时间过高,该公司目前已经搁置了这一雄心勃勃的计划,转而专注于内部芯片设计工作。
这一措施背后,是 OpenAI 为代表的 AI 实验室们面临算力短缺问题,难以获得足够计算资源来运行最新、最强大 AI 应用的困境。为此,一些头部公司已经转向自研芯片,希望降低成本,并为当前广泛用于 AI 的 Nvidia GPU 提供替代方案。Meta、Amazon 和 Google 等公司也选择了与博通、Marvell 等企业合作。这些公司能够提供特定的设计服务和知识产权,而这些能力往往很难完全在内部复制。今年 4 月,路透社透露,Anthropic 也在考虑打造自己的 AI 芯片。毫无疑问,生成式 AI 对半导体行业最直接的影响之一,就是对 CPU、GPU 和 AI 加速器的需求急速上升。麦肯锡预计,到 2030 年,非生成式 AI 应用带来的逻辑晶圆需求约为 1500 万片。其中约 700 万片将采用 >3 纳米的工艺节点生产,约 800 万片将采用≤3 纳米的工艺节点生产。在此基础上,生成式 AI 将额外带来 120 万 - 360 万片、采用 ≤3 纳米工艺节点生产的晶圆需求。根据当前逻辑晶圆厂规划,到 2030 年,全球预计可生产约 1500 万片采用 ≤7 纳米工艺节点的晶圆。
这意味着,生成式 AI 可能造成 100 万至约 400 万片先进逻辑晶圆的潜在供应缺口,尤其集中在≤ 3 纳米的先进制程节点。麦肯锡测算,为了弥补这一缺口,到 2030 年可能需要新建 3-9 座逻辑晶圆厂。由于先进逻辑晶圆厂投资规模巨大、建设周期长、设备与供应链复杂,这将成为半导体行业必须提前布局的关键问题。在训练侧,未来架构预计仍将延续当前高性能集群模式,即数据中心内服务器通过高带宽、低延迟网络连接。麦肯锡在报告中表示,当前主流高性能生成式 AI 服务器通常采用两个 CPU 和八个 GPU 的组合。到 2030 年,大多数训练工作负载仍将使用这种 CPU+GPU 架构。
同时,GPU 和 AI 加速器也可能向系统级封装设计演进,并与现有架构长期共存。而在推理侧,情况将明显不同。到 2030 年,更多面向推理的 AI 服务器预计将采用 CPU 与多个定制 AI 加速器的组合。这些 AI 加速器多数将基于 ASIC。由于 ASIC 可以围绕特定 AI 任务进行优化,在大规模推理场景中有望获得更低成本、更高能效和更优性能。
值得注意的是,博通 CEO Hock Tan 在路透社采访中透露,目前受 AI 带动的内存需求激增影响,博通在定制芯片上的利润率并不如其部分其他芯片产品高,例如网络交换芯片。Tan 称,AI 芯片需要大量高带宽内存,这对博通定制 AI 芯片产品的利润率构成挑战。他表示,韩国 SK 海力士和三星电子向博通供应内存芯片。生成式 AI 主要带动了两类 DRAM:一种是连接到 GPU 或 AI 加速器的高带宽内存 HBM,另一种是连接到 CPU 的 DDR 内存。HBM 拥有更高带宽,是当前 AI 训练和高性能推理中不可或缺的关键组件。但与 DDR 相比,HBM 在存储相同数据量时需要更多硅面积,因此也会带来更高制造压力。SK 海力士是 AI 内存短缺的最大受益者之一,但其 HBM 产能高度紧张,核心客户大概率已经提前锁量。SK 海力士此前表示,2026 年所有 DRAM、HBM 和 NAND 闪存产品均已售罄。Micron 最新财报也显示 AI 内存整体供给紧张可能持续到 2027 年以后,这说明行业整体上 HBM 供给不足。
目前,各大公司一直在扩展内存容量。但内存容量增长并不简单,它正在给硬件和软件设计带来挑战。其中最核心的问题是'内存墙':内存容量和带宽正在成为系统级计算性能瓶颈。即使计算芯片本身拥有更高峰值性能,如果数据无法足够快地被读取、传输和处理,整体系统性能仍会受限。
目前,行业正在探索多种解决路径。例如,静态随机存取存储器 SRAM 被用于增加近计算内存,但由于成本较高,广泛采用仍受限制。与此同时,未来算法也可能减少每次推理运行所需内存,从而减缓总内存需求增长。另一个不确定因素来自 AI 加速器架构。相比 CPU+GPU 架构,部分 AI 加速器可能对内存需求更轻。随着推理工作负载增长,到 2030 年 AI 加速器可能更受欢迎,这可能导致内存需求增速低于某些高预期情景。
Woofun AI 整理数据显示,这种结构性转变正在重塑整个半导体供应链的利润分配与竞争格局。OpenAI 的 Jalapeño 项目与 SpaceX 和 Cursor 之间的交易看似不同,实则指向同一个结构性转变:Jalapeño 代表的是对支撑智能运行的底层基础设施的掌控,包括芯片、算力以及网络;而 Cursor 则代表的是对智能真正被使用的'工作流层'的掌控。随着前沿模型能力不断增强,竞争优势正在从模型本身逐渐转移出去。未来十年中赢得 AI 竞争的公司,可能不再只是那些拥有最聪明模型的公司,而是那些能够掌控模型周边最强'技术栈'的公司。世界正在进入由计算驱动的经济。OpenAI 总裁兼联合创始人 Greg Brockman 表示,Jalapeño 是 OpenAI 长期全栈基础设施战略的一部分,目标是让算力更加充足,从而让 AI 对个人和企业而言更快、更可靠、更可负担,并被用于解决更重要的问题。在 OpenAI 看来,全栈能力带来的优势在于,不同层级可以围绕同一个目标进行协同优化:让模型更快、更可靠,也更便宜。更好的基础设施可以提升计算效率,更高的计算效率又能支撑更好的训练和推理,进一步推动更强模型和更好产品。随着产品使用增加,OpenAI 又可以将收入继续投入下一代基础设施,形成围绕算力、模型、产品和商业化的飞轮。OpenAI 的第一款芯片产品,实际上避开了与英伟达、谷歌等直接交锋。
目前,很明显的是,训练和推理基础设施正在走向分化。当前,不少推理工作负载仍运行在与训练相似的基础设施上。但随着其加速普及,推理调用量将大幅增长,并逐渐成为主要算力需求来源。相比训练,推理对成本、能效和响应速度更加敏感,也更容易根据具体使用场景进行硬件优化。因此,推理基础设施将越来越偏向专用硬件。可以看到,OpenAI 目前的发力方向就是该领域。训练继续依赖英伟达等外部芯片,先单独把推理芯片做出来内部使用。相比之下,英伟达的核心思路不是'一套训练芯片,一套推理芯片',而是用一套足够通用的 GPU 架构吃掉训练、推理和更广泛的数据中心 AI 工作负载,比如 Hopper、Blackwell 既能训练也能推理。但英伟达会在营销和产品形态上,把某些产品更明确地推向推理,比如现在官方已经把 Blackwell 平台非常明确地包装成大模型推理平台。它宣称 GB300 NVL72 在 agentic inference 场景下可把每 token 成本大幅压低,并强调'AI inference at scale'。同样地,Google TPU 是为矩阵乘、张量计算、Transformer 深度学习工作负载定制的 ASIC,核心目标是把训推里最核心的张量计算做得更高效,并与自己的软件栈、数据中心、模型体系深度耦合,以此在成本、功耗、互联上优于通用 GPU。当然,Google 也有一些面向推理的产品,但基本是在 TPU 体系里做'推理优化',像 TPU v5e 集训练和推理(服务)于一体,而 v6e-8 配置则是为推理优化的,可以让 8 个芯片服务同一个推理工作负载。一旦推理成为你最大的成本账单,你就不再是租用芯片,而是开始自己造芯片了。所有还在出租算力的人,今天可能都该有点紧张了。OpenAI 未来一系列芯片产品是否公开发售,或许会对主打'提供快速、低成本推理,即使在真正重要的情况下也不会出错'的 Groq 等公司产生影响。路透社最早在 2023 年报道称,OpenAI 正在探索自研芯片。OpenAI 曾考虑完全自研,并筹集资金实施一项耗资庞大的计划,建设一个被称为'foundries'的芯片制造工厂网络。但由于建设该网络所需的成本和时间过高,该公司目前已经搁置了这一雄心勃勃的计划,转而专注于内部芯片设计工作。
这一措施背后,是 OpenAI 为代表的 AI 实验室们面临算力短缺问题,难以获得足够计算资源来运行最新、最强大 AI 应用的困境。为此,一些头部公司已经转向自研芯片,希望降低成本,并为当前广泛用于 AI 的 Nvidia GPU 提供替代方案。Meta、Amazon 和 Google 等公司也选择了与博通、Marvell 等企业合作。这些公司能够提供特定的设计服务和知识产权,而这些能力往往很难完全在内部复制。今年 4 月,路透社透露,Anthropic 也在考虑打造自己的 AI 芯片。毫无疑问,生成式 AI 对半导体行业最直接的影响之一,就是对 CPU、GPU 和 AI 加速器的需求急速上升。麦肯锡预计,到 2030 年,非生成式 AI 应用带来的逻辑晶圆需求约为 1500 万片。其中约 700 万片将采用 >3 纳米的工艺节点生产,约 800 万片将采用≤3 纳米的工艺节点生产。在此基础上,生成式 AI 将额外带来 120 万 - 360 万片、采用 ≤3 纳米工艺节点生产的晶圆需求。根据当前逻辑晶圆厂规划,到 2030 年,全球预计可生产约 1500 万片采用 ≤7 纳米工艺节点的晶圆。
这意味着,生成式 AI 可能造成 100 万至约 400 万片先进逻辑晶圆的潜在供应缺口,尤其集中在≤ 3 纳米的先进制程节点。麦肯锡测算,为了弥补这一缺口,到 2030 年可能需要新建 3-9 座逻辑晶圆厂。由于先进逻辑晶圆厂投资规模巨大、建设周期长、设备与供应链复杂,这将成为半导体行业必须提前布局的关键问题。在训练侧,未来架构预计仍将延续当前高性能集群模式,即数据中心内服务器通过高带宽、低延迟网络连接。麦肯锡在报告中表示,当前主流高性能生成式 AI 服务器通常采用两个 CPU 和八个 GPU 的组合。到 2030 年,大多数训练工作负载仍将使用这种 CPU+GPU 架构。
同时,GPU 和 AI 加速器也可能向系统级封装设计演进,并与现有架构长期共存。而在推理侧,情况将明显不同。到 2030 年,更多面向推理的 AI 服务器预计将采用 CPU 与多个定制 AI 加速器的组合。这些 AI 加速器多数将基于 ASIC。由于 ASIC 可以围绕特定 AI 任务进行优化,在大规模推理场景中有望获得更低成本、更高能效和更优性能。
值得注意的是,博通 CEO Hock Tan 在路透社采访中透露,目前受 AI 带动的内存需求激增影响,博通在定制芯片上的利润率并不如其部分其他芯片产品高,例如网络交换芯片。Tan 称,AI 芯片需要大量高带宽内存,这对博通定制 AI 芯片产品的利润率构成挑战。他表示,韩国 SK 海力士和三星电子向博通供应内存芯片。生成式 AI 主要带动了两类 DRAM:一种是连接到 GPU 或 AI 加速器的高带宽内存 HBM,另一种是连接到 CPU 的 DDR 内存。HBM 拥有更高带宽,是当前 AI 训练和高性能推理中不可或缺的关键组件。但与 DDR 相比,HBM 在存储相同数据量时需要更多硅面积,因此也会带来更高制造压力。SK 海力士是 AI 内存短缺的最大受益者之一,但其 HBM 产能高度紧张,核心客户大概率已经提前锁量。SK 海力士此前表示,2026 年所有 DRAM、HBM 和 NAND 闪存产品均已售罄。Micron 最新财报也显示 AI 内存整体供给紧张可能持续到 2027 年以后,这说明行业整体上 HBM 供给不足。
目前,各大公司一直在扩展内存容量。但内存容量增长并不简单,它正在给硬件和软件设计带来挑战。其中最核心的问题是'内存墙':内存容量和带宽正在成为系统级计算性能瓶颈。即使计算芯片本身拥有更高峰值性能,如果数据无法足够快地被读取、传输和处理,整体系统性能仍会受限。
目前,行业正在探索多种解决路径。例如,静态随机存取存储器 SRAM 被用于增加近计算内存,但由于成本较高,广泛采用仍受限制。与此同时,未来算法也可能减少每次推理运行所需内存,从而减缓总内存需求增长。另一个不确定因素来自 AI 加速器架构。相比 CPU+GPU 架构,部分 AI 加速器可能对内存需求更轻。随着推理工作负载增长,到 2030 年 AI 加速器可能更受欢迎,这可能导致内存需求增速低于某些高预期情景。
这一系列变化表明,AI 行业的竞争焦点正从单纯的模型能力向全栈基础设施能力转移。未来十年中,能够掌控模型周边最强技术栈的公司,才更有可能在激烈的市场竞争中脱颖而出。OpenAI 的 Jalapeño 项目不仅是其自身战略的体现,更是整个行业趋势的缩影。随着推理成本的不断攀升和算力需求的爆发式增长,自研芯片将成为越来越多 AI 公司的必然选择。这不仅是对英伟达等通用 GPU 巨头的挑战,更是对整个半导体产业链的重塑。从芯片设计到制造,从内存供应到系统优化,每一个环节都将成为竞争的关键。在这个由计算驱动的经济新时代,谁能够率先构建起高效、低成本、可扩展的全栈基础设施,谁就能掌握未来的主动权。