GLM-6 遭禁令围剿，去中心化推理成抗审查关键

2026-06-23 18:34

时间锚定于 2026 年 10 月，距离当下仅四个月，AI 领域迎来一场政策与技术的剧烈碰撞。GLM-6 模型刚刚发布，在主流基准测试中不仅超越了被禁模型的阉割重发版 Fable-5.1，更与 Mythos 持平。美国政府无法直接关闭该模型，转而发布一系列严厉禁令：禁止任何提供商在美国境内或向美国人提供 GLM-6 模型、更新、推理服务、管理部署或技术支持。亚马逊 Bedrock、谷歌 Vertex、微软 Azure 迅速表态遵守，拒绝为企业客户托管该模型；OpenRouter、Vercel、Cloudflare、TogetherAI 等聚合平台也同意不上架；GitHub 清除所有相关痕迹；Hugging Face 作为最后坚持者，最终也移除了所有 GLM-6 相关模型的下载。这一情景虽非理想结果，但在 AI 模型指数级进步而政策制定如蜗牛爬行的世界里，却是完全合理的结局。这种前沿 AI 仍被少数中心化实体垄断的情形，正是去中心化 AI 如此重要的根本原因。

去中心化推理的核心前提是对抗情报审查的对冲，无论审查来自政府还是前沿实验室。一旦 GLM-6 模型权重发布，副本会瞬间在互联网上四处传播，任何禁令都无法消除已存在的成千上万份拷贝。这些拷贝将在去中心化推理网络中被服务，因为那里不存在可以对其采取行动的中心权威，也没有哪个节点被禁止就能让整个网络瘫痪。午方 AI 梳理发现，模型最终会被那些不想被审查的人获取，这是不可避免的。其他卖点如更便宜的代币、可验证推理、隐私保护等，都是次要的，核心赌注只有一个：缓解审查风险。对大多数初创公司来说，解决一两个难题已是巨大挑战，而去中心化推理项目必须同时攻克四个真正棘手的难题，每个项目如何应对这些问题，正是区分实质与泡沫的关键。

核心思路是打造一个 GPU 集群（swarm），利用管道并行（pipeline parallelism）来服务用户真正想要的模型。每个节点只持有模型权重的一小部分切片及自己那部分的 KV-cache，这些切片小到足以塞进消费级 3090/4090 显卡，甚至更高规格的 H100。Petals 早在 2022 年就用 BLOOM-176B 在消费级 GPU 上以 BitTorrent 风格的 swarm 证明了可行性，但当时速度只有每秒约 1 个 token，显然不可用。真正致命的瓶颈是网络：在数据中心内部，GPU 通过 NVLink 以每秒 TB 级的速度通信；而在公共互联网上，往返延迟（RTT）高达几十毫秒。解码过程是顺序进行的，naive 的 swarm 每生成一个 token 都要支付一次网络往返。最常见的解决方案是推测解码（speculative decoding）：一个小而廉价的 draft 模型先提出 K 个候选 token，大型的 sharded 模型则在一次管道通过中验证这 K 个 token，然后保留最长的匹配序列。目前已在真实互联网链路上实现约 30-40 tokens per second 的水平，进展显著，但在大规模和用户真正需要的速度上仍未充分验证。

将任何 swarm 方法与云托管模型对比时有一个常见陷阱：大家只看 tokens per second，以为这就是全部。生产级推理必须把很多事情做好，这些都与原始算力无关。尽调要点在于：当项目引用吞吐数字时，一定要问它在和什么竞争。中心化的 vLLM 或 SGLang 部署（采用 disaggregated prefill 和 continuous batching）才是真实基准，而且这个基准每季度都在变快。「我们在互联网上达到 30 tokens per second」听起来很厉害，但仍可能缺乏竞争力。如果你不信任节点，怎么知道它确实运行了声称的模型，而不是偷偷换成更便宜的量化版本？尤其在涉及挖矿 token 的网络里，提供商很容易「玩游戏」。目前有五种主流应对方法，现实权衡是：你只能同时获得加密完整性、低延迟、成本效率这三者中的两种。ZKML 拿到了完整性，却牺牲了延迟和成本；其他方法拿到了延迟和成本，却只能满足经济或统计完整性。午方 AI 注意到，问清楚项目采用哪种方法、为什么，以及这个权衡对最终产品的影响，是尽调的关键。

证明输出正确，与隐藏输入是完全不同的难题。在 sharded swarm 里，每个节点都必须解密 activations 才能计算——加密只保护传输线路，保护不了节点本身。Transformer 的 activations 其实非常容易逆向还原。CCS 2025 论文显示，从中间 activations 重建输入 prompt 的准确率超过 90%。ICML 2025 的「Hidden No More」论文实现了近乎完美的恢复，并击败了 swarm 常用的 noise-and-permutation 防御。目前唯一稳健的修复方案是一种更重的 sequence-sharded 方案，而 consumer-GPU 阵营中还没有人真正推出，因此这仍是一个 largely 未解决的问题。一个 swarm 可以宣称「没有节点持有整个模型」，却仍会把每个 prompt 泄露给路径中的任意节点。「没有节点持有模型」从来不是隐私属性。真正能提供隐私的是硬件或数学方法，而非网络拓扑结构。TEEs（可信执行环境）——如 Phala 在 GPU 上的方案、Darkbloom 在 Apple silicon 上的方案、Venice 的 Pro 模式——把信任转移到硬件根并进行 attestation。全同态加密（FHE）能在密文上直接计算，什么都不信任，但对大模型而言成本目前还不可接受。重要提醒：Private 并不等于 trustless（无信任）。TEE 并没有消除信任，只是把信任从节点运营商转移到了硬件厂商、固件链、attestation 服务和 enclave 实现。真正的问题是：你愿意接受谁的信任根？芯片厂商？restaked 验证者集合？TEE 网络？还是纯数学？

对于服务开放权重模型的去中心化推理网络来说，谁才是理想客户（ICP）？大多数普通消费者目前正从订阅计划中获得巨大价值——每月 20-200 美元就能用到大量智能。未来这些补贴计划可能会消失或限量，但今天想卖 API 按需付费推理，消费者端非常难打动。企业短期内也不会成为大买家。真正剩下的两类用户是：1）把推理嵌入自己产品栈的初创公司和企业，他们天然需要 API 计划；2）寻求自身推理能力的自主 AI agents。初创公司类别是增长中的市场，是一个可能切入显著收入的利基，但短期内价值捕获存在明显上限。AI agents 作为买家则更具投机性——短期内仍需要有人为其付费。唯一目前可行的地方是去中心化 GPU 提供商。io.net、Akash、Render、Aethir、Nosana 等项目多年来一直在做这件事，它们通过 token 协调的市场，把整个 GPU 或每节点整个模型容量出租给付费者。尽调要点在于：问清楚项目的 ICP，以及他们如何同时获取目标用户并让供给侧满意。如果一切都建立在投机性 token 上涨预期上，那就是明显信号。

目前归入「去中心化推理」类别的项目非常多，但大多数并未平等解决全部四个难题，而是各有侧重。Petals 是去中心化推理的绝对先驱，2022 年证明 BLOOM-176B 可以在消费级 GPU 上以 BitTorrent 风格运行，但未解决激励、隐私和货币化问题。Dolphin Network 是 Dolphin 系列 uncensored 开放模型背后的团队，Hugging Face 下载超 500 万，技术亮点是 live-weight proofs（0.1% 开销），已生成超 32 亿 token，持续带宽约 9400 t/s。Inference.net（前 Kuzco）对野外模型执行验证最成熟，独特机制 LOGIC 基于 logprob 统计测试捕获模型替换，已生产约 18 个月。Morpheus 提供 OpenAI 兼容 API + 智能 agent 包装器，技术亮点是 TEE 支持的提供商验证（Intel TDX + NVIDIA GPU attestation 已上线）。Chutes（Bittensor 子网 64）后端是 Docker 打包的 chute 部署到 Bittensor GPU 矿工，分发和规模优势明显。c0mpute 是 Solana 原生新项目，Shard 引擎将前沿模型拆分到消费级 GPU 上，已公开 GLM-5.2 744B 和 gpt-oss-120B 的真实演示（30-40 t/s）。Parallax（Gradient Network）支持跨消费级 GPU 和 Apple Silicon 的管道并行分片，Pantera 和 Multicoin 领投 1000 万美元种子轮。Darkbloom 让用户把闲置 Mac 算力变成私有推理市场，不走 sharded swarm 路线。MeshLLM 是 Jack Dorsey 引入、Block 关联团队构建的 permissionless P2P 推理 mesh，基于 Nostr 发现节点。Venice 及其转售生态是整个领域寻找 PMF 和可行商业模式的典范。

成本优势只有在把延迟和吞吐量分开看时才成立。它们是两种不同产品，去中心化对其中一个是税，对另一个则是特性。中心化明显胜出的场景包括 ChatGPT 式交互聊天、实时编码 agent、低延迟语音、高频工具调用、企业严格 p95 延迟 SLA、前沿密集模型的竞争性延迟服务。去中心化可能胜出的场景包括合成数据生成、离线评估、批量嵌入、批量 RAG、长期 agent 研究任务、图像视频生成队列、非紧急开放模型推理。简单框架：延迟重要时，去中心化是税；吞吐量重要时，去中心化可以成为供给聚合优势。去中心化推理网络还能收集大量有价值数、偏好数、RL 环境、工具使用轨迹等。这些数据可以反哺去中心化训练网络（如 Nous Psyche、Prime Intellect、Gensyn 风格项目），产生更新的开放权重模型，再回流到推理网络。午方 AI 分析认为，长期来看，这不是「去中心化训练」或「去中心化推理」的单独赌注，而是一个闭环：推理生成轨迹 → 轨迹成为训练数据 → 训练更新模型 → 更新模型回流推理。最好的项目会把这个循环作为核心战略，未来训练与推理项目将进一步融合。建议支持那些能清晰说明自己去中心化了哪一层、并清楚知道买家是谁的项目，远离那些只把「去中心化 AI」当口号、后面跟一个币的项目。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包