登錄
註冊
據 Woofun AI 消息,當前 AI 推理市場已徹底告別單一雲服務模式,演變爲一場複雜的「風險」棋局。超大規模雲服務商佔據企業級大陸,路由器把持貿易通道,而去中心化網絡則在開放前沿展開激烈廝殺。上一輪週期的核心在於模型訓練,但如今推理環節蘊含的經濟價值日益凸顯。訓練負責創造模型,而推理則是模型響應提問、執行任務並生成答案的過程。
儘管訓練環節常佔據頭條,但推理實際上攫取了大部分經濟利益,每一個提示、代理循環、圖像生成、交易執行及代碼編輯,都必須在特定節點運行。在這一棋局中,最有價值的領地往往是決定軍隊下一步移動的狹窄瓶頸。在推理市場中,路由器扮演着完全相同的角色,它們位於需求與供給之間,決定每個請求的流向及哪家提供商能獲取報酬。OpenRouter 便是典型代表,其協議上週處理了 4700 萬億個 token,且這種經濟活動毫無放緩跡象,尤其是隨着數萬億代理即將上線。一個完整的推理市場需要明確區分不同陣營:傳統提供商銷售可靠性、開發者體驗和企業級採購流程,而加密 AI 網絡則主打更便宜的供給、開放訪問、隱私性、可驗證性及全新的激勵循環。最近 Anthropic 禁止美國以外用戶使用其 Mythos 模型(Fable 5)的事件,讓市場重新意識到過度依賴單一前沿專有模型的風險。有趣的是,兩個世界開始出現重疊,隱私、保密計算或代理原生支付成爲交匯點,Venice 和 Targon 在這方面表現突出。更好的視角是將市場分爲傳統與加密兩大陣營:傳統側賣的是可靠性、開發者體驗和企業採購;加密網絡則主要競爭開放訪問、更低成本供給、隱私、可驗證性和新型激勵機制,以全球無縫協調資本。模型層依然重要,但模型質量正在以超出預期的速度壓縮。開源模型已達到前沿模型 90-95% 的質量,卻只需其 10% 的成本,例如 Z.ai 的 GLM-5.2。開源模型持續迭代,中國實驗室不斷壓低價格。前沿模型仍能維持溢價,但在其之下,代幣定價競爭已非常激烈。這正是路由層變得關鍵的原因:同一個開源模型可能由五家不同提供商以五種不同價格提供,開發者不想永遠硬編碼一個端點,他們需要路由器。路由器可以根據價格、延遲、隱私、可靠性等多種因素進行選擇,它位於所有提供商之上,將混亂的格局變成一個乾淨統一的界面。這正是 OpenRouter 做對的地方,也解釋了爲什麼風險投資基金在最近的 B 輪融資中投入了 1.13 億美元,來抓住這個路由機會。OpenRouter 正快速成爲市場界面:一把鑰匙就能訪問數百個跨多家提供商的模型。真正的價值不在於模型列表,而在於同一個請求能被路由到最適合該任務的提供商。這開始像能源市場:用戶不在乎哪家電廠發了電,他們只關心燈是否亮起、價格是否公道、系統是否穩定。AI 用戶也將越來越這樣思考——他們不在乎哪個 GPU 集羣服務了這個代幣,只關心響應是否快速、便宜、私密且可靠。傳統側正在分化成四類:超大規模雲服務商掌控着「fortified continents」(堅固大陸),它們獲勝並非因爲永遠最便宜,而是因爲早已控制企業採購、合規、身份、安全和賬單體系,正面攻擊這個陣地成本極高,它們靠企業信任取勝,大公司購買的不僅是 token,更是合規、安全、採購便利以及出問題時有人負責;路由器位於模型提供商之上,將每個請求發送到最佳選項,隨着模型領導地位每週變化,硬編碼單一模型顯得越來越脆弱,AI 需要聚合器,就像加密領域一樣;性能基礎設施公司不只是廉價 API,而是專注速度、批處理、擴展、微調、自定義端點和生產支持的性能基礎設施公司;模型市場如 Replicate 及類似 Hugging Face 的平臺,推理遠不止聊天,圖像、視頻、語音、嵌入、機器人模型、模擬和多模態代理都需要模型運行,市場讓長尾模型需求變得易於獲取。去中心化網絡是「遊擊領地」,加密推理網絡並不試圖在 AWS 的主戰場上花費更多資金,它們開闢新戰線:無審查模型、更便宜的 GPU 供給、私密推理、代理原生支付,以及不需要超大規模雲服務商級別可靠性的工作負載。加密側常被簡單歸爲「去中心化算力」,這個說法太模糊,至少有五類不同方向。Chutes AI 最好理解爲去中心化推理平臺,而非單純的 GPU 市場,核心在於開發者不想租用 GPU 或管理基礎設施,他們想要一個能正常工作的端點,Chutes 通過熟悉的 API 服務開源模型,底層使用去中心化 GPU 供給,關鍵問題是能否將頭部使用量轉化爲付費、recurring 需求,便宜代幣有用,但前提是開發者信任其正常運行時間、延遲和可靠性,其每萬億代幣收入持續上升,顯示出可持續盈利 / 可行性的潛力。Akash Network 是去中心化雲市場,用戶定義所需算力,提供商競價供應,工作負載通過租約運行,它更像算力市場,而非直接推理路由器,其最適合價格敏感、能容忍基礎設施波動且不需要深度集成 AWS/Azure/Google Cloud 的工作負載,費用與代幣價格有一定相關性且呈上升趨勢。io.net 更接近去中心化 GPU 雲提供商,核心賣點是以更低成本和更快配置速度訪問分佈式 GPU 供給,適合需要算力但不想簽訂長期雲合同或接受超大規模定價的 AI 團隊,挑戰在於執行:硬件驗證、可靠性、調度、支持和一致性能,原始 GPU 訪問有價值,但更高利潤層仍是路由、管理推理和編排,io.net 過去 30 天表現突出,年化收入達 1230 萬美元。Targon Compute 由 Manifold Labs 打造,專注於 AI 工作負載的保密計算,它解決的問題顯而易見:許多用戶不願在未知第三方運營的基礎設施上運行敏感提示、模型或數據,Targon 通過可信執行環境、加密虛擬機、遠程證明和保密 GPU 基礎設施提供受保護執行,簡單說,就是證明工作負載在安全環境中運行,並減少運營商能看到的內容,這對金融、醫療和企業 AI 等領域的私密推理尤爲相關,保密計算並非魔法,它將信任轉移到硬件、固件和證明系統上,去年該協議報告年收入 1040 萬美元,並與 Intel 共同撰寫了關於「不可信硬件上的去中心化算力」的研究論文。Darkbloom 由 Eigen Labs 打造,走的是不同路線,它不把大模型分片到隨機 GPU 上,而是把閒置的 Apple Silicon Mac 變成私密推理網絡,Mac 本地運行模型,請求被加密並路由到經過驗證的提供商,賣點是隱私和成本,而非最大化前沿模型性能,這很有用,因爲「沒有節點持有完整模型」並不自動意味着提示是私密的,Darkbloom 更明確地針對隱私問題,但仍需證明供給規模、性能和開發者信任,目前網絡已有 300 臺機器,服務了 20 億 token 和 100 萬次請求。Venice 面向消費者的私密推理,AskVenice 所處位置與 Akash 或 io.net 等網絡不同,它更像是私密 AI 應用和推理網關,而非主要 GPU 市場,其網關吞吐量已達每日 850 億 token,大多數用戶想要一個尊重隱私、能訪問強大模型且不大量收集數據的 AI 產品,Venice 將基礎設施理念包裝成面向消費者的體驗,圍繞私密提示、開源模型、無審查訪問、API 功能以及通過 VVV 和 DIEM 實現的代幣化算力,DIEM 組件特別有趣,它指向更廣泛的代理經濟理念:提供每日 1 美元算力訪問,市場最近已爲這一概念賦予了不錯的價格標籤,如果代理需要持續訪問推理,那麼算力積分開始像代理原生資產,整個二級市場都可以圍繞它構建,一個能直接持有和花費算力權利的代理,比依賴人類定期刷信用卡的代理更實用,這凸顯了更深層的加密 AI 論點:代理最終需要訪問資金、身份、記憶和算力,而加密系統爲這些資源的編程化提供了框架,Venice 並非在模型廣度上直接與 OpenRouter 競爭,而是競爭隱私、訪問和代幣化算力,這是一個合理利基,但關鍵問題是私密 AI 產品的需求是否會大到足以支撐代幣模型超越當前敘事週期,隨着 AI 普及,隱私敘事只會越來越強。NuNet 常被歸入去中心化算力項目,但更有用的框架是「編排」,編排涉及將工作負載匹配到最合適的算力資源,並在不同機器、環境和位置間協調執行,隨着 AI 超越中心化雲基礎設施,這變得越來越重要,未來 AI 系統很可能跨越雲 GPU、邊緣設備、本地服務器、機器人、手機、傳感器和去中心化提供商網絡運行,倉庫機器人可能等不及跨區域 API 響應,無人機不能假設時刻有完美連接,野外機器人需要在網絡不可靠時本地執行推理,因此,編排正成爲一個獨立且有意義的類別,NuNet 的挑戰在於能否將這個協調問題轉化爲具備足夠供給、需求和開發者採用的 functioning 經濟網絡。OpenServ AI 最好理解爲代理基礎設施和編排平臺,而非去中心化推理網絡,這很重要,因爲代理是未來最清晰的推理需求來源之一,普通聊天機器人可能只調用一次模型,而代理會反覆調用模型:推理、使用工具、檢查輸出、調用另一個模型、採取行動,然後循環,這創造了沉重的推理需求,已在加密圈內引起注意,OpenServ 因此從需求側而非供給側與推理市場相關,如果該平臺能成爲開發者構建、部署和協調代理的有用場所,它自然會成爲底層路由推理到不同提供商的層,關鍵問題是 OpenServ 能否成爲真正的代理執行層,還是隻是另一個附帶代幣的代理市場,其推理框架有若干顯著基準表現,路線圖上還有自有專有模型,如果 OpenServ 能掌控代理化運營工作流,推理就成爲平臺的輸入而非主要產品,在代理化世界中,最有價值的層將是代理花費大量持續時間和資源的場所。Dolphin AI 是產品驅動的去中心化推理,Dolphin AI 有趣之處在於它從模型需求而非 GPU 市場起步,Dolphin 模型家族已有無審查開源模型的口碑,這讓網絡有了更清晰的存在理由,這很重要,因爲許多去中心化推理項目都是供給先行:「我們有 GPU,現在誰來買?」Dolphin 則相反:從人們已經想用的模型集合出發,然後圍繞該需求構建去中心化推理網絡,其架構常被稱爲 peer-to-pool:GPU 所有者將容量貢獻到特定模型池中,而不是每個買家直接租用特定節點,請求路由到池中,可用節點處理,這對不可靠的消費者供給來說是更好的設計,如果有人貢獻閒置遊戲 GPU,他們可能不會永遠保持在線,池化模型能比一對一租賃市場更自然地吸收這種波動,更有趣的是驗證,Dolphin 正在推動 live-weight proofs(實時權重證明),簡單說,就是檢查服務過程中實際加載的模型權重是否與節點聲稱運行的模型一致,這很重要,因爲作弊是去中心化推理中最難的問題之一,節點可能聲稱運行昂貴模型,卻偷偷服務更小、更便宜或量化版本的模型,如果網絡無法檢測,整個市場就會失去可信度。c0mpute AI 值得關注,因爲它試圖解決去中心化推理中最難的問題之一:在開放互聯網上跨分散 GPU 運行大模型,其 Shard 引擎將模型拆分到多臺機器上,而非要求一臺巨型服務器容納完整模型,這對可能太大或受限而無法通過常規託管路線的前沿規模開源模型尤其相關,Virtuals 正在構建代理經濟,而代理是重度推理用戶:它們規劃、調用工具、交易、檢查結果並循環,這創造了對廉價、開放且抗審查推需求,c0mpute 需要證明真實負載下的性能、節點可靠性、驗證和提示隱私,但方向很重要:GPU 市場銷售算力訪問;c0mpute 正試圖分發模型本身,兩者將共存,各有明顯且值得理解的獨特優勢。
Woofun AI 整理數據顯示,市場應減少對原始 token 處理統計的關注,除非這些代幣產生收入,免費層活動和補貼使用能製造亮眼數字,卻無法證明真實的產品市場契合,付費推理需求才是關鍵指標,它更可持續,能支撐長期可行性,去中心化算力網絡只有在 GPU 在網絡內賺取的價值高於外部時纔可持續,如果排放是提供商參與的主要原因,一旦激勵下降,供給就會消失,GPU 提供商會計算機會成本。分發往往比基礎設施本身更重要,OpenRouter 集成、編碼代理、錢包、支付端點、開發者工具和消費者應用,都是潛在需求來源,支付端點是軟件可通過 API 直接支付服務的通道,GPU 欺騙、虛假容量和不可靠提供商仍是真實風險,網絡需要 穩健的硬件驗證、加密流量、聲譽系統和對不良行爲的 有意義的懲罰。私密推理仍是加密 AI 最強機會之一,但保障必須真實,營銷隱私容易,安全執行、本地優先架構、數據最小化和可審計基礎設施則難得多,最強的代幣模型將需求直接與真實推理使用掛鉤,這可能涉及回購、銷燬、質押要求、算力權利或與收入掛鉤的機制,僅靠寬泛的 AI 敘事長期來看不太夠。在「風險」棋局中,僅擁有零散領地是不夠的,你需要連通的區域、增援路線和持久的補給線,在推理市場中同樣如此,贏家將掌控需求、路由、驗證和結算,僅擁有 GPU 本身不夠。推理市場讓 AI 開始類似金融系統:傳統提供商目前主導開發者體驗和企業信任層,加密 AI 網絡則在探索另一條前沿:無許可供給、私密推理、可驗證算力、代幣化訪問以及代理原生(無 KYC 限制)支付。短期內,贏家不太可能是最去中心化的網絡,而更可能是讓去中心化推理感覺普通且可靠的網絡,通過快速端點、強文檔、可靠正常運行時間、透明定價、驗證供給和 真實的付費需求。Chutes 仍是值得重點關注的項目之一,因爲它最接近將 Bittensor 支持的算力轉化爲功能性推理市場,而非單純的 GPU 敘事,Eigen Labs 的「Darkbloom」也是如此,Akash 和 io.net 代表供給側挑戰者,Targon 代表保密計算論點,Venice 代表私密 AI 需求層,NuNet 代表更分佈式算力未來的編排。更廣泛的論點:「AI 模型可能越來越商品化,但推理市場不太可能遵循相同路徑。」最大價值將歸屬於那些路由工作、驗證工作、結算工作並捕獲需求的實體,這正是下一個加密 AI 機會可能出現的地方,至少在物理 AI 在社會中勝任之前。