登录
注册
分布式系统的核心基石——共识协议,长期以来一直是顶级基础设施工程师面临的严峻挑战。由于其本质上的极端复杂性以及众多节点间紧密的交互关系,传统的测试手段以及单一的大型语言模型在应对这些深层次的隐蔽漏洞时往往显得力不从心。近日,在 2026 年 ICML 会议的预印本论文中,0G Labs 的研究人员联合新加坡国立大学、北京大学、北京邮电大学等顶尖学术机构及行业专家,共同推出了首个能够无缝整合领域知识与大规模多智能体协作机制的自动化测试框架——Agora。这一创新架构直接针对协议中的关键痛点进行了深度优化,成功在 Raft、EPaxos、HotStuff 和 BullShark 等工业级及学术核心协议中挖掘出 15 个此前未知的深度漏洞。相比之下,即便是 GPT-5.2 和 Claude 4.5 这类强大的原生大型语言模型,在面对这些复杂场景时也未能检测出任何问题。在 2026 年‘多智能体系统’与‘智能体质量控制’成为行业最热趋势的背景下,Agora 不仅是一篇学术论文,更是一个具备极高实际应用价值的工业级解决方案。
分布式共识协议的演进史,既是一部天才创新的历史,也是一部无数顶尖工程师在黑暗中艰难探索的艰辛史。正如图灵奖得主 Lamport 所言,确保分布式协议实现的正确性,就如同在不断变化的迷宫中盲目摸索。
然而,在这条充满挑战的道路上,市场格局正在发生悄然变化。午方 AI 梳理发现,企业在过去一年多时间里对多智能体系统的咨询量增长了十几倍,多智能体平台市场的规模更是以每年近乎翻倍的速度扩张。如今,利用‘多智能体协作’对底层系统进行严格验证,这一曾经属于前沿概念的技术,已逐渐演变为工业领域的必备手段。
面对这一技术变革,拥有雄厚实力的科技巨头率先开始了深入探索。例如,行业领头羊 Anthropic 最近在其 Claude Code 项目中推进了 Glasswing 计划。尽管该项目试图通过智能体接触底层基础设施,但其架构仍严重依赖最高规格的商业化模型,且具体细节未公开,仅与少数大型科技企业和跨国巨头进行闭门合作。更为致命的是,这类大型解决方案在运行过程中往往消耗大量代币,高昂的计算成本和资源密集型运作方式,直接将预算有限的初创企业及中小型企业拒之门外。午方 AI 注意到,小型企业和开源社区并非注定无法使用顶级自动化漏洞检测工具,关键在于能否找到一种‘小而精’的创新路径。
0G Labs 的研究团队与新加坡国立大学的刘翔教授、北京邮电大学的宋萨教授、北京大学的孙勇教授以及北京大学智能学院的博士生赵张合作,充分发挥了在智能体领域的深厚专业知识,系统性地开发出了这一创新成果。学术界长期积累的系统理论知识与产业界面临的实际问题在此交汇,催生了下一代系统安全革命。0G 团队在区块链共识协议的实现过程中积累了丰富实战经验,同时在高性能分布式系统、低层并发控制及系统形式化验证等领域拥有深厚学术基础。他们深知传统方法(如模糊测试)在处理大规模代码库时,常因状态空间爆炸而遭遇局限。经过深思熟虑,多位研究人员决定将多年来积累的分布式系统全局不变量逻辑推理知识,融入到先进的多智能体协作框架和自动化测试架构中,从而诞生了开源的 Agora 框架。
作为一款先进的模块化人工智能基础设施和高性能的去中心化数据可用性网络,0G 团队在区块链共识协议及高并发 BFT 架构的工业应用中积累了大量真实协议缺陷样本。这种跨学科的融合彻底改变了游戏规则:它既不是盲目的暴力测试,也不是缺乏领域知识的‘蒙眼摸象’。相反,通过智能体之间的专业化分工,它将资深系统专家数十年的逻辑推理经验转化为智能体间的协同作用,具备了降低复杂度并有效应对传统测试工具的强大能力。与 Glasswing 那种需要消耗大量高级代币的方案不同,Agora 为中小型企业提供了一种极为友好的解决方案,证明了即使在接近成熟且更具成本效益的模型中,具备深刻领域认知能力的多智能体架构依然能够发现极其隐蔽的深度漏洞。
在大数库主导的时代,共识协议是整个数字世界的基础,但其实现难度极高。即使是像 etcd 这样的工业级基准项目,尽管经过全球顶尖工程师多年的优化,仍存在令人不寒而栗的深度漏洞。这些漏洞与常见的低级实现错误截然不同,涉及多个执行阶段并依赖复杂的并发状态,一旦被恶意触发,不仅会导致核心数据破坏,还可能造成巨大财务损失。尽管近期大型语言模型在常规代码分析方面表现惊人,但在面对分布式共识协议时仍显得‘力不从心’,至多只能识别局部代码的表面缺陷,无法进行全局性的逻辑推理。为了打破这一僵局,Agora 率先将学术界经典的假设驱动测试范式引入大规模模型智能体系统,巧妙地将工作流程分解为三个高度专业化的智能体:负责维护全局状态并利用已知漏洞进行‘漏洞利用’测试的编排智能体;负责注入分布式领域知识,生成针对 CFT 和 BFT 协议高风险异常测试场景的策略智能体;以及作为闭环有效测试关键的 TestGen 智能体(代码生成器)。
在 Agora 的整体设计中,这种‘先做小再做大’的思路源于其先进的智能体交互机制与测试框架的完美结合。研究团队专门设计了一套简洁高效的通信与内存管理机制,以最小化冗余信息传输开销,确保每个智能体专注于核心任务。在这种严格的通信约束下,三大智能体无缝协作:当策略智能体推导出抽象的分布式攻击场景后,TestGen 智能体立即启动相应测试。该架构具备极强的环境适应性,支持 Go、Rust 等多种编程语言,能将攻击假设转化为可执行的单元测试代码,并采用高效的反射循环技术。一旦测试环境中出现错误,系统能准确捕获调用堆栈和执行日志,及时反馈给相应智能体进行自我修复。这种‘多智能体简化交互 + 动态测试闭环’的有机结合,使得 Agora 能够在极低的代币成本下发现最隐蔽的深度逻辑漏洞,并生成错误率极低的详细分析报告。
最终的运行效果令人印象深刻。研究团队对比了四种知名的共识协议库(包括生产级的 etcd 以及新兴公共链核心平台 Sui 的底层组件),并与 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 和 Qwen3 Coder 等先进模型进行了对比。实验结果表明,Agora 不仅使 0G 团队开发的共识系统本身更加安全,还实现了显著的维度降低效果:成功找出了 15 个此前未知的协议级深度逻辑缺陷,涉及执行路径偏离、单调性违反、拓扑结构错误、签名安全漏洞等多个高风险领域。相比之下,所有原生大型语言模型均未能发现这些漏洞,即便配备了 ReAct 动态工具链的基线模型,在 15 个被检测到的漏洞中也无一幸免。更为惊人的是,Agora 检测出的漏洞报告中,高达 73.9% 是真正的逻辑缺陷,误报率仅为 26.1%。发现一个会让高级架构师抓狂的深度逻辑漏洞,平均只需花费约 5.32 百万代币(约合 40 美元),这一成本效益比堪称卓越。
Agora 的成功不仅为分布式系统的安全性带来了显著提升,也为大型语言模型在垂直行业中的应用指明了方向。其架构设计展现了极高的可扩展性和通用性,相关实现代码已在 GitHub 仓库公开。Agora 所采用的‘大型语言模型 + 多智能体协作 + 假设驱动’架构并不局限于共识协议领域,由于将底层工作流程控制与上层领域知识库进行了深度解耦,这一架构可轻松扩展到其他深受‘深度逻辑漏洞困扰’的领域,实现‘即插即用’:在数据库并发控制领域,可用于测试 Serializable 等极端隔离级别下的复杂事务冲突;在操作系统内核/并发系统领域,能帮助探究多线程基础设施中的隐藏死锁和竞态条件;在 Web3 智能合约审计领域,可对涉及复杂经济模型的跨链协议和去中心化金融逻辑进行深入安全性分析。午方 AI 分析认为,预计到 2026 年,区块链安全市场规模将达到约 85 亿美元,届时将出现将智能合约审计功能作为‘多智能体安全系统’运行的商业产品,将审计周期从数周缩短至数小时。
我们有理由相信,Agora 通过在不同领域发现更多深度逻辑漏洞,能够更有效地评估大型语言模型的编码能力,并帮助模型进一步提升对代码的理解。它还能显著增强作为金融安全交易基础的各种代码库的安全性,如共识协议、并发控制机制和智能合约等。更重要的是,这一技术契合了当前两个最热门的发展趋势:多智能体系统正从实验阶段走向实际应用,Gartner 预测到 2028 年,超过 30% 的企业软件将集成智能体技术;‘利用智能体来审核智能体’的智能体质量控制方法,将在 2026 年成为行业标准。根据 Veracode 在 2025 年发布的报告,约 45% 的由人工智能生成的代码存在安全漏洞,而在智能体安全市场以约 42% 的复合年增长率迅速发展的背景下,Agora 能够帮助科技公司以更低的代币成本发现更深的逻辑漏洞,使安全审计工作从‘耗时费力的每周例行任务’转变为‘高效便捷的即时服务’。随着这一发展方向轮廓日益清晰,真正抓住机遇的往往不是规模最大的企业,而是最早验证并持续实践这一技术方法的团队。