登錄
註冊
時間錨定於 2026 年 10 月,距離當下僅四個月,AI 領域迎來一場政策與技術的劇烈碰撞。GLM-6 模型剛剛發佈,在主流基準測試中不僅超越了被禁模型的閹割重發版 Fable-5.1,更與 Mythos 持平。美國政府無法直接關閉該模型,轉而發佈一系列嚴厲禁令:禁止任何提供商在美國境內或向美國人提供 GLM-6 模型、更新、推理服務、管理部署或技術支持。亞馬遜 Bedrock、谷歌 Vertex、微軟 Azure 迅速表態遵守,拒絕爲企業客戶託管該模型;OpenRouter、Vercel、Cloudflare、TogetherAI 等聚合平臺也同意不上架;GitHub 清除所有相關痕跡;Hugging Face 作爲最後堅持者,最終也移除了所有 GLM-6 相關模型的下載。這一情景雖非理想結果,但在 AI 模型指數級進步而政策制定如蝸牛爬行的世界裏,卻是完全合理的結局。這種前沿 AI 仍被少數中心化實體壟斷的情形,正是去中心化 AI 如此重要的根本原因。
去中心化推理的核心前提是對抗情報審查的對沖,無論審查來自政府還是前沿實驗室。一旦 GLM-6 模型權重發布,副本會瞬間在互聯網上四處傳播,任何禁令都無法消除已存在的成千上萬份拷貝。這些拷貝將在去中心化推理網絡中被服務,因爲那裏不存在可以對其採取行動的中心權威,也沒有哪個節點被禁止就能讓整個網絡癱瘓。午方 AI 梳理發現,模型最終會被那些不想被審查的人獲取,這是不可避免的。其他賣點如更便宜的代幣、可驗證推理、隱私保護等,都是次要的,核心賭注只有一個:緩解審查風險。對大多數初創公司來說,解決一兩個難題已是巨大挑戰,而去中心化推理項目必須同時攻克四個真正棘手的難題,每個項目如何應對這些問題,正是區分實質與泡沫的關鍵。
核心思路是打造一個 GPU 集羣(swarm),利用管道並行(pipeline parallelism)來服務用戶真正想要的模型。每個節點只持有模型權重的一小部分切片及自己那部分的 KV-cache,這些切片小到足以塞進消費級 3090/4090 顯卡,甚至更高規格的 H100。Petals 早在 2022 年就用 BLOOM-176B 在消費級 GPU 上以 BitTorrent 風格的 swarm 證明了可行性,但當時速度只有每秒約 1 個 token,顯然不可用。真正致命的瓶頸是網絡:在數據中心內部,GPU 通過 NVLink 以每秒 TB 級的速度通信;而在公共互聯網上,往返延遲(RTT)高達幾十毫秒。解碼過程是順序進行的,naive 的 swarm 每生成一個 token 都要支付一次網絡往返。最常見的解決方案是推測解碼(speculative decoding):一個小而廉價的 draft 模型先提出 K 個候選 token,大型的 sharded 模型則在一次管道通過中驗證這 K 個 token,然後保留最長的匹配序列。目前已在真實互聯網鏈路上實現約 30-40 tokens per second 的水平,進展顯著,但在大規模和用戶真正需要的速度上仍未充分驗證。
將任何 swarm 方法與雲託管模型對比時有一個常見陷阱:大家只看 tokens per second,以爲這就是全部。生產級推理必須把很多事情做好,這些都與原始算力無關。盡調要點在於:當項目引用吞吐數字時,一定要問它在和什麼競爭。中心化的 vLLM 或 SGLang 部署(採用 disaggregated prefill 和 continuous batching)纔是真實基準,而且這個基準每季度都在變快。「我們在互聯網上達到 30 tokens per second」聽起來很厲害,但仍可能缺乏競爭力。如果你不信任節點,怎麼知道它確實運行了聲稱的模型,而不是偷偷換成更便宜的量化版本?尤其在涉及挖礦 token 的網絡裏,提供商很容易「玩遊戲」。目前有五種主流應對方法,現實權衡是:你只能同時獲得加密完整性、低延遲、成本效率這三者中的兩種。ZKML 拿到了完整性,卻犧牲了延遲和成本;其他方法拿到了延遲和成本,卻只能滿足經濟或統計完整性。午方 AI 注意到,問清楚項目採用哪種方法、爲什麼,以及這個權衡對最終產品的影響,是盡調的關鍵。
證明輸出正確,與隱藏輸入是完全不同的難題。在 sharded swarm 裏,每個節點都必須解密 activations 才能計算——加密只保護傳輸線路,保護不了節點本身。Transformer 的 activations 其實非常容易逆向還原。CCS 2025 論文顯示,從中間 activations 重建輸入 prompt 的準確率超過 90%。ICML 2025 的「Hidden No More」論文實現了近乎完美的恢復,並擊敗了 swarm 常用的 noise-and-permutation 防禦。目前唯一穩健的修復方案是一種更重的 sequence-sharded 方案,而 consumer-GPU 陣營中還沒有人真正推出,因此這仍是一個 largely 未解決的問題。一個 swarm 可以宣稱「沒有節點持有整個模型」,卻仍會把每個 prompt 泄露給路徑中的任意節點。「沒有節點持有模型」從來不是隱私屬性。真正能提供隱私的是硬件或數學方法,而非網絡拓撲結構。TEEs(可信執行環境)——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任轉移到硬件根並進行 attestation。全同態加密(FHE)能在密文上直接計算,什麼都不信任,但對大模型而言成本目前還不可接受。重要提醒:Private 並不等於 trustless(無信任)。TEE 並沒有消除信任,只是把信任從節點運營商轉移到了硬件廠商、固件鏈、attestation 服務和 enclave 實現。真正的問題是:你願意接受誰的信任根?芯片廠商?restaked 驗證者集合?TEE 網絡?還是純數學?
對於服務開放權重模型的去中心化推理網絡來說,誰纔是理想客戶(ICP)?大多數普通消費者目前正從訂閱計劃中獲得巨大價值——每月 20-200 美元就能用到大量智能。未來這些補貼計劃可能會消失或限量,但今天想賣 API 按需付費推理,消費者端非常難打動。企業短期內也不會成爲大買家。真正剩下的兩類用戶是:1)把推理嵌入自己產品棧的初創公司和企業,他們天然需要 API 計劃;2)尋求自身推理能力的自主 AI agents。初創公司類別是增長中的市場,是一個可能切入顯著收入的利基,但短期內價值捕獲存在明顯上限。AI agents 作爲買家則更具投機性——短期內仍需要有人爲其付費。唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等項目多年來一直在做這件事,它們通過 token 協調的市場,把整個 GPU 或每節點整個模型容量出租給付費者。盡調要點在於:問清楚項目的 ICP,以及他們如何同時獲取目標用戶並讓供給側滿意。如果一切都建立在投機性 token 上漲預期上,那就是明顯信號。
目前歸入「去中心化推理」類別的項目非常多,但大多數並未平等解決全部四個難題,而是各有側重。Petals 是去中心化推理的絕對先驅,2022 年證明 BLOOM-176B 可以在消費級 GPU 上以 BitTorrent 風格運行,但未解決激勵、隱私和貨幣化問題。Dolphin Network 是 Dolphin 系列 uncensored 開放模型背後的團隊,Hugging Face 下載超 500 萬,技術亮點是 live-weight proofs(0.1% 開銷),已生成超 32 億 token,持續帶寬約 9400 t/s。Inference.net(前 Kuzco)對野外模型執行驗證最成熟,獨特機制 LOGIC 基於 logprob 統計測試捕獲模型替換,已生產約 18 個月。Morpheus 提供 OpenAI 兼容 API + 智能 agent 包裝器,技術亮點是 TEE 支持的提供商驗證(Intel TDX + NVIDIA GPU attestation 已上線)。Chutes(Bittensor 子網 64)後端是 Docker 打包的 chute 部署到 Bittensor GPU 礦工,分發和規模優勢明顯。c0mpute 是 Solana 原生新項目,Shard 引擎將前沿模型拆分到消費級 GPU 上,已公開 GLM-5.2 744B 和 gpt-oss-120B 的真實演示(30-40 t/s)。Parallax(Gradient Network)支持跨消費級 GPU 和 Apple Silicon 的管道並行分片,Pantera 和 Multicoin 領投 1000 萬美元種子輪。Darkbloom 讓用戶把閒置 Mac 算力變成私有推理市場,不走 sharded swarm 路線。MeshLLM 是 Jack Dorsey 引入、Block 關聯團隊構建的 permissionless P2P 推理 mesh,基於 Nostr 發現節點。Venice 及其轉售生態是整個領域尋找 PMF 和可行商業模式的典範。
成本優勢只有在把延遲和吞吐量分開看時才成立。它們是兩種不同產品,去中心化對其中一個是稅,對另一個則是特性。中心化明顯勝出的場景包括 ChatGPT 式交互聊天、實時編碼 agent、低延遲語音、高頻工具調用、企業嚴格 p95 延遲 SLA、前沿密集模型的競爭性延遲服務。去中心化可能勝出的場景包括合成數據生成、離線評估、批量嵌入、批量 RAG、長期 agent 研究任務、圖像視頻生成隊列、非緊急開放模型推理。簡單框架:延遲重要時,去中心化是稅;吞吐量重要時,去中心化可以成爲供給聚合優勢。去中心化推理網絡還能收集大量有價值數、偏好數、RL 環境、工具使用軌跡等。這些數據可以反哺去中心化訓練網絡(如 Nous Psyche、Prime Intellect、Gensyn 風格項目),產生更新的開放權重模型,再回流到推理網絡。午方 AI 分析認爲,長期來看,這不是「去中心化訓練」或「去中心化推理」的單獨賭注,而是一個閉環:推理生成軌跡 → 軌跡成爲訓練數據 → 訓練更新模型 → 更新模型迴流推理。最好的項目會把這個循環作爲核心戰略,未來訓練與推理項目將進一步融合。建議支持那些能清晰說明自己去中心化了哪一層、並清楚知道買家是誰的項目,遠離那些只把「去中心化 AI」當口號、後面跟一個幣的項目。