登录
注册
时间锚定于 2026 年 10 月,距离当下仅四个月,AI 领域迎来一场政策与技术的剧烈碰撞。GLM-6 模型刚刚发布,在主流基准测试中不仅超越了被禁模型的阉割重发版 Fable-5.1,更与 Mythos 持平。美国政府无法直接关闭该模型,转而发布一系列严厉禁令:禁止任何提供商在美国境内或向美国人提供 GLM-6 模型、更新、推理服务、管理部署或技术支持。亚马逊 Bedrock、谷歌 Vertex、微软 Azure 迅速表态遵守,拒绝为企业客户托管该模型;OpenRouter、Vercel、Cloudflare、TogetherAI 等聚合平台也同意不上架;GitHub 清除所有相关痕迹;Hugging Face 作为最后坚持者,最终也移除了所有 GLM-6 相关模型的下载。这一情景虽非理想结果,但在 AI 模型指数级进步而政策制定如蜗牛爬行的世界里,却是完全合理的结局。这种前沿 AI 仍被少数中心化实体垄断的情形,正是去中心化 AI 如此重要的根本原因。
去中心化推理的核心前提是对抗情报审查的对冲,无论审查来自政府还是前沿实验室。一旦 GLM-6 模型权重发布,副本会瞬间在互联网上四处传播,任何禁令都无法消除已存在的成千上万份拷贝。这些拷贝将在去中心化推理网络中被服务,因为那里不存在可以对其采取行动的中心权威,也没有哪个节点被禁止就能让整个网络瘫痪。午方 AI 梳理发现,模型最终会被那些不想被审查的人获取,这是不可避免的。其他卖点如更便宜的代币、可验证推理、隐私保护等,都是次要的,核心赌注只有一个:缓解审查风险。对大多数初创公司来说,解决一两个难题已是巨大挑战,而去中心化推理项目必须同时攻克四个真正棘手的难题,每个项目如何应对这些问题,正是区分实质与泡沫的关键。
核心思路是打造一个 GPU 集群(swarm),利用管道并行(pipeline parallelism)来服务用户真正想要的模型。每个节点只持有模型权重的一小部分切片及自己那部分的 KV-cache,这些切片小到足以塞进消费级 3090/4090 显卡,甚至更高规格的 H100。Petals 早在 2022 年就用 BLOOM-176B 在消费级 GPU 上以 BitTorrent 风格的 swarm 证明了可行性,但当时速度只有每秒约 1 个 token,显然不可用。真正致命的瓶颈是网络:在数据中心内部,GPU 通过 NVLink 以每秒 TB 级的速度通信;而在公共互联网上,往返延迟(RTT)高达几十毫秒。解码过程是顺序进行的,naive 的 swarm 每生成一个 token 都要支付一次网络往返。最常见的解决方案是推测解码(speculative decoding):一个小而廉价的 draft 模型先提出 K 个候选 token,大型的 sharded 模型则在一次管道通过中验证这 K 个 token,然后保留最长的匹配序列。目前已在真实互联网链路上实现约 30-40 tokens per second 的水平,进展显著,但在大规模和用户真正需要的速度上仍未充分验证。
将任何 swarm 方法与云托管模型对比时有一个常见陷阱:大家只看 tokens per second,以为这就是全部。生产级推理必须把很多事情做好,这些都与原始算力无关。尽调要点在于:当项目引用吞吐数字时,一定要问它在和什么竞争。中心化的 vLLM 或 SGLang 部署(采用 disaggregated prefill 和 continuous batching)才是真实基准,而且这个基准每季度都在变快。「我们在互联网上达到 30 tokens per second」听起来很厉害,但仍可能缺乏竞争力。如果你不信任节点,怎么知道它确实运行了声称的模型,而不是偷偷换成更便宜的量化版本?尤其在涉及挖矿 token 的网络里,提供商很容易「玩游戏」。目前有五种主流应对方法,现实权衡是:你只能同时获得加密完整性、低延迟、成本效率这三者中的两种。ZKML 拿到了完整性,却牺牲了延迟和成本;其他方法拿到了延迟和成本,却只能满足经济或统计完整性。午方 AI 注意到,问清楚项目采用哪种方法、为什么,以及这个权衡对最终产品的影响,是尽调的关键。
证明输出正确,与隐藏输入是完全不同的难题。在 sharded swarm 里,每个节点都必须解密 activations 才能计算——加密只保护传输线路,保护不了节点本身。Transformer 的 activations 其实非常容易逆向还原。CCS 2025 论文显示,从中间 activations 重建输入 prompt 的准确率超过 90%。ICML 2025 的「Hidden No More」论文实现了近乎完美的恢复,并击败了 swarm 常用的 noise-and-permutation 防御。目前唯一稳健的修复方案是一种更重的 sequence-sharded 方案,而 consumer-GPU 阵营中还没有人真正推出,因此这仍是一个 largely 未解决的问题。一个 swarm 可以宣称「没有节点持有整个模型」,却仍会把每个 prompt 泄露给路径中的任意节点。「没有节点持有模型」从来不是隐私属性。真正能提供隐私的是硬件或数学方法,而非网络拓扑结构。TEEs(可信执行环境)——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任转移到硬件根并进行 attestation。全同态加密(FHE)能在密文上直接计算,什么都不信任,但对大模型而言成本目前还不可接受。重要提醒:Private 并不等于 trustless(无信任)。TEE 并没有消除信任,只是把信任从节点运营商转移到了硬件厂商、固件链、attestation 服务和 enclave 实现。真正的问题是:你愿意接受谁的信任根?芯片厂商?restaked 验证者集合?TEE 网络?还是纯数学?
对于服务开放权重模型的去中心化推理网络来说,谁才是理想客户(ICP)?大多数普通消费者目前正从订阅计划中获得巨大价值——每月 20-200 美元就能用到大量智能。未来这些补贴计划可能会消失或限量,但今天想卖 API 按需付费推理,消费者端非常难打动。企业短期内也不会成为大买家。真正剩下的两类用户是:1)把推理嵌入自己产品栈的初创公司和企业,他们天然需要 API 计划;2)寻求自身推理能力的自主 AI agents。初创公司类别是增长中的市场,是一个可能切入显著收入的利基,但短期内价值捕获存在明显上限。AI agents 作为买家则更具投机性——短期内仍需要有人为其付费。唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等项目多年来一直在做这件事,它们通过 token 协调的市场,把整个 GPU 或每节点整个模型容量出租给付费者。尽调要点在于:问清楚项目的 ICP,以及他们如何同时获取目标用户并让供给侧满意。如果一切都建立在投机性 token 上涨预期上,那就是明显信号。
目前归入「去中心化推理」类别的项目非常多,但大多数并未平等解决全部四个难题,而是各有侧重。Petals 是去中心化推理的绝对先驱,2022 年证明 BLOOM-176B 可以在消费级 GPU 上以 BitTorrent 风格运行,但未解决激励、隐私和货币化问题。Dolphin Network 是 Dolphin 系列 uncensored 开放模型背后的团队,Hugging Face 下载超 500 万,技术亮点是 live-weight proofs(0.1% 开销),已生成超 32 亿 token,持续带宽约 9400 t/s。Inference.net(前 Kuzco)对野外模型执行验证最成熟,独特机制 LOGIC 基于 logprob 统计测试捕获模型替换,已生产约 18 个月。Morpheus 提供 OpenAI 兼容 API + 智能 agent 包装器,技术亮点是 TEE 支持的提供商验证(Intel TDX + NVIDIA GPU attestation 已上线)。Chutes(Bittensor 子网 64)后端是 Docker 打包的 chute 部署到 Bittensor GPU 矿工,分发和规模优势明显。c0mpute 是 Solana 原生新项目,Shard 引擎将前沿模型拆分到消费级 GPU 上,已公开 GLM-5.2 744B 和 gpt-oss-120B 的真实演示(30-40 t/s)。Parallax(Gradient Network)支持跨消费级 GPU 和 Apple Silicon 的管道并行分片,Pantera 和 Multicoin 领投 1000 万美元种子轮。Darkbloom 让用户把闲置 Mac 算力变成私有推理市场,不走 sharded swarm 路线。MeshLLM 是 Jack Dorsey 引入、Block 关联团队构建的 permissionless P2P 推理 mesh,基于 Nostr 发现节点。Venice 及其转售生态是整个领域寻找 PMF 和可行商业模式的典范。
成本优势只有在把延迟和吞吐量分开看时才成立。它们是两种不同产品,去中心化对其中一个是税,对另一个则是特性。中心化明显胜出的场景包括 ChatGPT 式交互聊天、实时编码 agent、低延迟语音、高频工具调用、企业严格 p95 延迟 SLA、前沿密集模型的竞争性延迟服务。去中心化可能胜出的场景包括合成数据生成、离线评估、批量嵌入、批量 RAG、长期 agent 研究任务、图像视频生成队列、非紧急开放模型推理。简单框架:延迟重要时,去中心化是税;吞吐量重要时,去中心化可以成为供给聚合优势。去中心化推理网络还能收集大量有价值数、偏好数、RL 环境、工具使用轨迹等。这些数据可以反哺去中心化训练网络(如 Nous Psyche、Prime Intellect、Gensyn 风格项目),产生更新的开放权重模型,再回流到推理网络。午方 AI 分析认为,长期来看,这不是「去中心化训练」或「去中心化推理」的单独赌注,而是一个闭环:推理生成轨迹 → 轨迹成为训练数据 → 训练更新模型 → 更新模型回流推理。最好的项目会把这个循环作为核心战略,未来训练与推理项目将进一步融合。建议支持那些能清晰说明自己去中心化了哪一层、并清楚知道买家是谁的项目,远离那些只把「去中心化 AI」当口号、后面跟一个币的项目。