GLM-6 遭禁令圍剿，去中心化推理成抗審查關鍵

2026-06-23 18:34

時間錨定於 2026 年 10 月，距離當下僅四個月，AI 領域迎來一場政策與技術的劇烈碰撞。GLM-6 模型剛剛發佈，在主流基準測試中不僅超越了被禁模型的閹割重發版 Fable-5.1，更與 Mythos 持平。美國政府無法直接關閉該模型，轉而發佈一系列嚴厲禁令：禁止任何提供商在美國境內或向美國人提供 GLM-6 模型、更新、推理服務、管理部署或技術支持。亞馬遜 Bedrock、谷歌 Vertex、微軟 Azure 迅速表態遵守，拒絕爲企業客戶託管該模型；OpenRouter、Vercel、Cloudflare、TogetherAI 等聚合平臺也同意不上架；GitHub 清除所有相關痕跡；Hugging Face 作爲最後堅持者，最終也移除了所有 GLM-6 相關模型的下載。這一情景雖非理想結果，但在 AI 模型指數級進步而政策制定如蝸牛爬行的世界裏，卻是完全合理的結局。這種前沿 AI 仍被少數中心化實體壟斷的情形，正是去中心化 AI 如此重要的根本原因。

去中心化推理的核心前提是對抗情報審查的對沖，無論審查來自政府還是前沿實驗室。一旦 GLM-6 模型權重發布，副本會瞬間在互聯網上四處傳播，任何禁令都無法消除已存在的成千上萬份拷貝。這些拷貝將在去中心化推理網絡中被服務，因爲那裏不存在可以對其採取行動的中心權威，也沒有哪個節點被禁止就能讓整個網絡癱瘓。午方 AI 梳理發現，模型最終會被那些不想被審查的人獲取，這是不可避免的。其他賣點如更便宜的代幣、可驗證推理、隱私保護等，都是次要的，核心賭注只有一個：緩解審查風險。對大多數初創公司來說，解決一兩個難題已是巨大挑戰，而去中心化推理項目必須同時攻克四個真正棘手的難題，每個項目如何應對這些問題，正是區分實質與泡沫的關鍵。

核心思路是打造一個 GPU 集羣（swarm），利用管道並行（pipeline parallelism）來服務用戶真正想要的模型。每個節點只持有模型權重的一小部分切片及自己那部分的 KV-cache，這些切片小到足以塞進消費級 3090/4090 顯卡，甚至更高規格的 H100。Petals 早在 2022 年就用 BLOOM-176B 在消費級 GPU 上以 BitTorrent 風格的 swarm 證明了可行性，但當時速度只有每秒約 1 個 token，顯然不可用。真正致命的瓶頸是網絡：在數據中心內部，GPU 通過 NVLink 以每秒 TB 級的速度通信；而在公共互聯網上，往返延遲（RTT）高達幾十毫秒。解碼過程是順序進行的，naive 的 swarm 每生成一個 token 都要支付一次網絡往返。最常見的解決方案是推測解碼（speculative decoding）：一個小而廉價的 draft 模型先提出 K 個候選 token，大型的 sharded 模型則在一次管道通過中驗證這 K 個 token，然後保留最長的匹配序列。目前已在真實互聯網鏈路上實現約 30-40 tokens per second 的水平，進展顯著，但在大規模和用戶真正需要的速度上仍未充分驗證。

將任何 swarm 方法與雲託管模型對比時有一個常見陷阱：大家只看 tokens per second，以爲這就是全部。生產級推理必須把很多事情做好，這些都與原始算力無關。盡調要點在於：當項目引用吞吐數字時，一定要問它在和什麼競爭。中心化的 vLLM 或 SGLang 部署（採用 disaggregated prefill 和 continuous batching）纔是真實基準，而且這個基準每季度都在變快。「我們在互聯網上達到 30 tokens per second」聽起來很厲害，但仍可能缺乏競爭力。如果你不信任節點，怎麼知道它確實運行了聲稱的模型，而不是偷偷換成更便宜的量化版本？尤其在涉及挖礦 token 的網絡裏，提供商很容易「玩遊戲」。目前有五種主流應對方法，現實權衡是：你只能同時獲得加密完整性、低延遲、成本效率這三者中的兩種。ZKML 拿到了完整性，卻犧牲了延遲和成本；其他方法拿到了延遲和成本，卻只能滿足經濟或統計完整性。午方 AI 注意到，問清楚項目採用哪種方法、爲什麼，以及這個權衡對最終產品的影響，是盡調的關鍵。

證明輸出正確，與隱藏輸入是完全不同的難題。在 sharded swarm 裏，每個節點都必須解密 activations 才能計算——加密只保護傳輸線路，保護不了節點本身。Transformer 的 activations 其實非常容易逆向還原。CCS 2025 論文顯示，從中間 activations 重建輸入 prompt 的準確率超過 90%。ICML 2025 的「Hidden No More」論文實現了近乎完美的恢復，並擊敗了 swarm 常用的 noise-and-permutation 防禦。目前唯一穩健的修復方案是一種更重的 sequence-sharded 方案，而 consumer-GPU 陣營中還沒有人真正推出，因此這仍是一個 largely 未解決的問題。一個 swarm 可以宣稱「沒有節點持有整個模型」，卻仍會把每個 prompt 泄露給路徑中的任意節點。「沒有節點持有模型」從來不是隱私屬性。真正能提供隱私的是硬件或數學方法，而非網絡拓撲結構。TEEs（可信執行環境）——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任轉移到硬件根並進行 attestation。全同態加密（FHE）能在密文上直接計算，什麼都不信任，但對大模型而言成本目前還不可接受。重要提醒：Private 並不等於 trustless（無信任）。TEE 並沒有消除信任，只是把信任從節點運營商轉移到了硬件廠商、固件鏈、attestation 服務和 enclave 實現。真正的問題是：你願意接受誰的信任根？芯片廠商？restaked 驗證者集合？TEE 網絡？還是純數學？

對於服務開放權重模型的去中心化推理網絡來說，誰纔是理想客戶（ICP）？大多數普通消費者目前正從訂閱計劃中獲得巨大價值——每月 20-200 美元就能用到大量智能。未來這些補貼計劃可能會消失或限量，但今天想賣 API 按需付費推理，消費者端非常難打動。企業短期內也不會成爲大買家。真正剩下的兩類用戶是：1）把推理嵌入自己產品棧的初創公司和企業，他們天然需要 API 計劃；2）尋求自身推理能力的自主 AI agents。初創公司類別是增長中的市場，是一個可能切入顯著收入的利基，但短期內價值捕獲存在明顯上限。AI agents 作爲買家則更具投機性——短期內仍需要有人爲其付費。唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等項目多年來一直在做這件事，它們通過 token 協調的市場，把整個 GPU 或每節點整個模型容量出租給付費者。盡調要點在於：問清楚項目的 ICP，以及他們如何同時獲取目標用戶並讓供給側滿意。如果一切都建立在投機性 token 上漲預期上，那就是明顯信號。

目前歸入「去中心化推理」類別的項目非常多，但大多數並未平等解決全部四個難題，而是各有側重。Petals 是去中心化推理的絕對先驅，2022 年證明 BLOOM-176B 可以在消費級 GPU 上以 BitTorrent 風格運行，但未解決激勵、隱私和貨幣化問題。Dolphin Network 是 Dolphin 系列 uncensored 開放模型背後的團隊，Hugging Face 下載超 500 萬，技術亮點是 live-weight proofs（0.1% 開銷），已生成超 32 億 token，持續帶寬約 9400 t/s。Inference.net（前 Kuzco）對野外模型執行驗證最成熟，獨特機制 LOGIC 基於 logprob 統計測試捕獲模型替換，已生產約 18 個月。Morpheus 提供 OpenAI 兼容 API + 智能 agent 包裝器，技術亮點是 TEE 支持的提供商驗證（Intel TDX + NVIDIA GPU attestation 已上線）。Chutes（Bittensor 子網 64）後端是 Docker 打包的 chute 部署到 Bittensor GPU 礦工，分發和規模優勢明顯。c0mpute 是 Solana 原生新項目，Shard 引擎將前沿模型拆分到消費級 GPU 上，已公開 GLM-5.2 744B 和 gpt-oss-120B 的真實演示（30-40 t/s）。Parallax（Gradient Network）支持跨消費級 GPU 和 Apple Silicon 的管道並行分片，Pantera 和 Multicoin 領投 1000 萬美元種子輪。Darkbloom 讓用戶把閒置 Mac 算力變成私有推理市場，不走 sharded swarm 路線。MeshLLM 是 Jack Dorsey 引入、Block 關聯團隊構建的 permissionless P2P 推理 mesh，基於 Nostr 發現節點。Venice 及其轉售生態是整個領域尋找 PMF 和可行商業模式的典範。

成本優勢只有在把延遲和吞吐量分開看時才成立。它們是兩種不同產品，去中心化對其中一個是稅，對另一個則是特性。中心化明顯勝出的場景包括 ChatGPT 式交互聊天、實時編碼 agent、低延遲語音、高頻工具調用、企業嚴格 p95 延遲 SLA、前沿密集模型的競爭性延遲服務。去中心化可能勝出的場景包括合成數據生成、離線評估、批量嵌入、批量 RAG、長期 agent 研究任務、圖像視頻生成隊列、非緊急開放模型推理。簡單框架：延遲重要時，去中心化是稅；吞吐量重要時，去中心化可以成爲供給聚合優勢。去中心化推理網絡還能收集大量有價值數、偏好數、RL 環境、工具使用軌跡等。這些數據可以反哺去中心化訓練網絡（如 Nous Psyche、Prime Intellect、Gensyn 風格項目），產生更新的開放權重模型，再回流到推理網絡。午方 AI 分析認爲，長期來看，這不是「去中心化訓練」或「去中心化推理」的單獨賭注，而是一個閉環：推理生成軌跡 → 軌跡成爲訓練數據 → 訓練更新模型 → 更新模型迴流推理。最好的項目會把這個循環作爲核心戰略，未來訓練與推理項目將進一步融合。建議支持那些能清晰說明自己去中心化了哪一層、並清楚知道買家是誰的項目，遠離那些只把「去中心化 AI」當口號、後面跟一個幣的項目。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包