9 個月復刻 Blackwell：OpenAI 自研芯片如何重塑算力格局

2026-06-25 21:39

據 Woofun AI 消息，OpenAI 正式展示了與博通聯合打造的首款定製人工智能芯片 Jalapeño，標誌着該公司在構建全棧基礎設施戰略上邁出關鍵一步。博通首席執行官 Hock Tan 透露，這款芯片性能可媲美英偉達 Blackwell 或谷歌 TPU，計劃於今年年底前部署，且已在實驗室 GPT-5.3-Codex-Spark AI 模型上驗證了功耗與性能目標。

這一進展不僅意味着 OpenAI 從模型層向底層硬件的延伸，更預示着 AI 行業正從單純依賴通用 GPU 轉向針對特定場景的專用 ASIC 架構。OpenAI 硬件負責人 Richard Ho 強調，Jalapeño 旨在爲大模型推理提供高吞吐、低延遲及高能效的解決方案，其設計週期僅耗時九個月，刷新了高性能先進半導體領域的開發速度紀錄。

這一速度背後，是 OpenAI 工程團隊與博通的深度協作，以及利用自身 AI 模型輔助芯片設計的創新流程，表明 AI 技術已開始反哺其自身基礎設施的構建。在合作分工上，OpenAI 負責基於模型內核與服務需求進行芯片設計，博通承擔實現與網絡連接技術，加拿大電子製造商 Celestica 提供板卡與系統級工業化能力，最終由臺積電負責製造。

這種全鏈條的協同模式，使得 OpenAI 能夠實現對從芯片到服務器系統再到大規模部署的完整控制，從而在激烈的算力競爭中佔據主動。網友對此反應強烈，有人感嘆行業變化速度之快，幾年前難以想象 AI 公司會自研芯片；也有人指出，將芯片命名爲 Jalapeño（墨西哥辣椒）本身就暗示了競爭的激烈程度，甚至有人戲稱 OpenAI 是史上最糟糕的命名者。

然而，這些討論背後折射出的是對英偉達等通用 GPU 巨頭未來地位的深刻擔憂，隨着越來越多 AI 實驗室轉向自研定製硬件，傳統芯片巨頭的市場格局或將面臨重構。Jalapeño 並非一次性項目，而是 OpenAI 與博通共建多代計算平臺的第一步，首批芯片預計今年底在微軟等合作伙伴處商用，但真正批量生產需等到明年。OpenAI 設定了宏大目標，計劃到 2029 年利用定製芯片實現 10 吉瓦的計算能力，這將徹底改變其算力獲取方式，從單純租用轉向自主掌控。Richard Ho 表示，這種全棧控制權使得不同層級可以圍繞同一目標協同優化，形成圍繞算力、模型、產品和商業化的飛輪效應。更好的基礎設施提升計算效率，進而支撐更強的訓練與推理，推動模型迭代與產品創新，最終通過產品收入反哺下一代基礎設施建設。

這種閉環邏輯正是 OpenAI 應對算力短缺與成本壓力的核心策略，也是其長期戰略的基石。軟件層面的利潤空間在吉瓦級推理計算規模下難以長期維持，構建定製 ASIC 已成爲基礎設施轉型的必由之路。Jalapeño 架構優化的重點源於 OpenAI 與研究團隊的緊密協作，深入理解前沿 AI 模型中最關鍵的內核、內存移動、網絡和服務模式。早期測試表明，該芯片在重要工作負載上能接近硬件理論極限運行，通過減少數據傳輸並平衡計算、內存和網絡資源，使實際利用率更接近理論峯值。相比簡單堆疊算力，這種設計更強調大模型推理中的真實效率，散熱性能甚至超出預期。這也解釋了爲何 OpenAI 將其稱爲'Intelligence Processor'而非簡單的'AI 加速器'，突顯其作爲智能核心處理器的定位。從初始設計到製造流片僅用九個月，OpenAI 認爲這是高性能先進半導體領域定製 AI 加速器項目中速度最快的 ASIC 開發週期之一。設計週期之所以如此迅速，除了 OpenAI 工程團隊與博通的深度合作及博通的資深經驗外，OpenAI 還在部分設計和優化流程中使用了自身的 AI 模型。這表明 AI 不只是芯片的使用者，也開始成爲芯片設計流程的一部分。OpenAI 認爲，如果 AI 能幫助工程師更快設計出更好的芯片，就有可能降低整個行業的計算成本，並推動先進 AI 更廣泛可及。此前，Hock Tan 曾透露，Jalapeño 加速器相比典型的 AI 圖形處理單元，可以節省約 50% 的成本。

這一成本優勢對於大規模交互式 AI 產品至關重要，尤其是在推理調用量將大幅增長並逐漸成爲主要算力需求來源的背景下。OpenAI 目前的發力方向正是該領域，訓練繼續依賴英偉達等外部芯片，先單獨把推理芯片做出來內部使用。相比之下，英偉達的核心思路不是'一套訓練芯片，一套推理芯片'，而是用一套足夠通用的 GPU 架構喫掉訓練、推理和更廣泛的數據中心 AI 工作負載，比如 Hopper、Blackwell 既能訓練也能推理。但英偉達會在營銷和產品形態上，把某些產品更明確地推向推理，比如現在官方已經把 Blackwell 平臺非常明確地包裝成大模型推理平臺。它宣稱 GB300 NVL72 在 agentic inference 場景下可把每 token 成本大幅壓低，並強調'AI inference at scale'。同樣地，Google TPU 是爲矩陣乘、張量計算、Transformer 深度學習工作負載定製的 ASIC，核心目標是把訓推裏最核心的張量計算做得更高效，並與自己的軟件棧、數據中心、模型體系深度耦合，以此在成本、功耗、互聯上優於通用 GPU。當然，Google 也有一些面向推理的產品，但基本是在 TPU 體系裏做'推理優化'，像 TPU v5e 集訓練和推理（服務）於一體，而 v6e-8 配置則是爲推理優化的，可以讓 8 個芯片服務同一個推理工作負載。一旦推理成爲最大的成本賬單，企業就不再是租用芯片，而是開始自己造芯片了。所有還在出租算力的人，今天可能都該有點緊張了。OpenAI 未來一系列芯片產品是否公開發售，或許會對主打'提供快速、低成本推理，即使在真正重要的情況下也不會出錯'的 Groq 等公司產生影響。路透社最早在 2023 年報道稱，OpenAI 正在探索自研芯片。OpenAI 曾考慮完全自研，並籌集資金實施一項耗資龐大的計劃，建設一個被稱爲'foundries'的芯片製造工廠網絡。但由於建設該網絡所需的成本和時間過高，該公司目前已經擱置了這一雄心勃勃的計劃，轉而專注於內部芯片設計工作。

這一措施背後，是 OpenAI 爲代表的 AI 實驗室們面臨算力短缺問題，難以獲得足夠計算資源來運行最新、最強大 AI 應用的困境。爲此，一些頭部公司已經轉向自研芯片，希望降低成本，併爲當前廣泛用於 AI 的 Nvidia GPU 提供替代方案。Meta、Amazon 和 Google 等公司也選擇了與博通、Marvell 等企業合作。這些公司能夠提供特定的設計服務和知識產權，而這些能力往往很難完全在內部複製。今年 4 月，路透社透露，Anthropic 也在考慮打造自己的 AI 芯片。毫無疑問，生成式 AI 對半導體行業最直接的影響之一，就是對 CPU、GPU 和 AI 加速器的需求急速上升。麥肯錫預計，到 2030 年，非生成式 AI 應用帶來的邏輯晶圓需求約爲 1500 萬片。其中約 700 萬片將採用 >3 納米的工藝節點生產，約 800 萬片將採用≤3 納米的工藝節點生產。在此基礎上，生成式 AI 將額外帶來 120 萬 - 360 萬片、採用 ≤3 納米工藝節點生產的晶圓需求。根據當前邏輯晶圓廠規劃，到 2030 年，全球預計可生產約 1500 萬片採用 ≤7 納米工藝節點的晶圓。

這意味着，生成式 AI 可能造成 100 萬至約 400 萬片先進邏輯晶圓的潛在供應缺口，尤其集中在≤ 3 納米的先進製程節點。麥肯錫測算，爲了彌補這一缺口，到 2030 年可能需要新建 3-9 座邏輯晶圓廠。由於先進邏輯晶圓廠投資規模巨大、建設週期長、設備與供應鏈複雜，這將成爲半導體行業必須提前佈局的關鍵問題。在訓練側，未來架構預計仍將延續當前高性能集羣模式，即數據中心內服務器通過高帶寬、低延遲網絡連接。麥肯錫在報告中表示，當前主流高性能生成式 AI 服務器通常採用兩個 CPU 和八個 GPU 的組合。到 2030 年，大多數訓練工作負載仍將使用這種 CPU+GPU 架構。

同時，GPU 和 AI 加速器也可能向系統級封裝設計演進，並與現有架構長期共存。而在推理側，情況將明顯不同。到 2030 年，更多面向推理的 AI 服務器預計將採用 CPU 與多個定製 AI 加速器的組合。這些 AI 加速器多數將基於 ASIC。由於 ASIC 可以圍繞特定 AI 任務進行優化，在大規模推理場景中有望獲得更低成本、更高能效和更優性能。

值得注意的是，博通 CEO Hock Tan 在路透社採訪中透露，目前受 AI 帶動的內存需求激增影響，博通在定製芯片上的利潤率並不如其部分其他芯片產品高，例如網絡交換芯片。Tan 稱，AI 芯片需要大量高帶寬內存，這對博通定製 AI 芯片產品的利潤率構成挑戰。他表示，韓國 SK 海力士和三星電子向博通供應內存芯片。生成式 AI 主要帶動了兩類 DRAM：一種是連接到 GPU 或 AI 加速器的高帶寬內存 HBM，另一種是連接到 CPU 的 DDR 內存。HBM 擁有更高帶寬，是當前 AI 訓練和高性能推理中不可或缺的關鍵組件。但與 DDR 相比，HBM 在存儲相同數據量時需要更多硅面積，因此也會帶來更高製造壓力。SK 海力士是 AI 內存短缺的最大受益者之一，但其 HBM 產能高度緊張，核心客戶大概率已經提前鎖量。SK 海力士此前表示，2026 年所有 DRAM、HBM 和 NAND 閃存產品均已售罄。Micron 最新財報也顯示 AI 內存整體供給緊張可能持續到 2027 年以後，這說明行業整體上 HBM 供給不足。

目前，各大公司一直在擴展內存容量。但內存容量增長並不簡單，它正在給硬件和軟件設計帶來挑戰。其中最核心的問題是'內存牆'：內存容量和帶寬正在成爲系統級計算性能瓶頸。即使計算芯片本身擁有更高峯值性能，如果數據無法足夠快地被讀取、傳輸和處理，整體系統性能仍會受限。

目前，行業正在探索多種解決路徑。例如，靜態隨機存取存儲器 SRAM 被用於增加近計算內存，但由於成本較高，廣泛採用仍受限制。與此同時，未來算法也可能減少每次推理運行所需內存，從而減緩總內存需求增長。另一個不確定因素來自 AI 加速器架構。相比 CPU+GPU 架構，部分 AI 加速器可能對內存需求更輕。隨着推理工作負載增長，到 2030 年 AI 加速器可能更受歡迎，這可能導致內存需求增速低於某些高預期情景。

Woofun AI 整理數據顯示，這種結構性轉變正在重塑整個半導體供應鏈的利潤分配與競爭格局。OpenAI 的 Jalapeño 項目與 SpaceX 和 Cursor 之間的交易看似不同，實則指向同一個結構性轉變：Jalapeño 代表的是對支撐智能運行的底層基礎設施的掌控，包括芯片、算力以及網絡；而 Cursor 則代表的是對智能真正被使用的'工作流層'的掌控。隨着前沿模型能力不斷增強，競爭優勢正在從模型本身逐漸轉移出去。未來十年中贏得 AI 競爭的公司，可能不再只是那些擁有最聰明模型的公司，而是那些能夠掌控模型周邊最強'技術棧'的公司。世界正在進入由計算驅動的經濟。OpenAI 總裁兼聯合創始人 Greg Brockman 表示，Jalapeño 是 OpenAI 長期全棧基礎設施戰略的一部分，目標是讓算力更加充足，從而讓 AI 對個人和企業而言更快、更可靠、更可負擔，並被用於解決更重要的問題。在 OpenAI 看來，全棧能力帶來的優勢在於，不同層級可以圍繞同一個目標進行協同優化：讓模型更快、更可靠，也更便宜。更好的基礎設施可以提升計算效率，更高的計算效率又能支撐更好的訓練和推理，進一步推動更強模型和更好產品。隨着產品使用增加，OpenAI 又可以將收入繼續投入下一代基礎設施，形成圍繞算力、模型、產品和商業化的飛輪。OpenAI 的第一款芯片產品，實際上避開了與英偉達、谷歌等直接交鋒。

目前，很明顯的是，訓練和推理基礎設施正在走向分化。當前，不少推理工作負載仍運行在與訓練相似的基礎設施上。但隨着其加速普及，推理調用量將大幅增長，並逐漸成爲主要算力需求來源。相比訓練，推理對成本、能效和響應速度更加敏感，也更容易根據具體使用場景進行硬件優化。因此，推理基礎設施將越來越偏向專用硬件。可以看到，OpenAI 目前的發力方向就是該領域。訓練繼續依賴英偉達等外部芯片，先單獨把推理芯片做出來內部使用。相比之下，英偉達的核心思路不是'一套訓練芯片，一套推理芯片'，而是用一套足夠通用的 GPU 架構喫掉訓練、推理和更廣泛的數據中心 AI 工作負載，比如 Hopper、Blackwell 既能訓練也能推理。但英偉達會在營銷和產品形態上，把某些產品更明確地推向推理，比如現在官方已經把 Blackwell 平臺非常明確地包裝成大模型推理平臺。它宣稱 GB300 NVL72 在 agentic inference 場景下可把每 token 成本大幅壓低，並強調'AI inference at scale'。同樣地，Google TPU 是爲矩陣乘、張量計算、Transformer 深度學習工作負載定製的 ASIC，核心目標是把訓推裏最核心的張量計算做得更高效，並與自己的軟件棧、數據中心、模型體系深度耦合，以此在成本、功耗、互聯上優於通用 GPU。當然，Google 也有一些面向推理的產品，但基本是在 TPU 體系裏做'推理優化'，像 TPU v5e 集訓練和推理（服務）於一體，而 v6e-8 配置則是爲推理優化的，可以讓 8 個芯片服務同一個推理工作負載。一旦推理成爲你最大的成本賬單，你就不再是租用芯片，而是開始自己造芯片了。所有還在出租算力的人，今天可能都該有點緊張了。OpenAI 未來一系列芯片產品是否公開發售，或許會對主打'提供快速、低成本推理，即使在真正重要的情況下也不會出錯'的 Groq 等公司產生影響。路透社最早在 2023 年報道稱，OpenAI 正在探索自研芯片。OpenAI 曾考慮完全自研，並籌集資金實施一項耗資龐大的計劃，建設一個被稱爲'foundries'的芯片製造工廠網絡。但由於建設該網絡所需的成本和時間過高，該公司目前已經擱置了這一雄心勃勃的計劃，轉而專注於內部芯片設計工作。

這一系列變化表明，AI 行業的競爭焦點正從單純的模型能力向全棧基礎設施能力轉移。未來十年中，能夠掌控模型周邊最強技術棧的公司，才更有可能在激烈的市場競爭中脫穎而出。OpenAI 的 Jalapeño 項目不僅是其自身戰略的體現，更是整個行業趨勢的縮影。隨着推理成本的不斷攀升和算力需求的爆發式增長，自研芯片將成爲越來越多 AI 公司的必然選擇。這不僅是對英偉達等通用 GPU 巨頭的挑戰，更是對整個半導體產業鏈的重塑。從芯片設計到製造，從內存供應到系統優化，每一個環節都將成爲競爭的關鍵。在這個由計算驅動的經濟新時代，誰能夠率先構建起高效、低成本、可擴展的全棧基礎設施，誰就能掌握未來的主動權。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WooFun

9510 篇

文章總數

熱門資訊