登录
注册
据午方 AI 消息,Prime Intellect 正式披露分布式强化学习训练框架 prime-rl 的 0.6.0 版本,该更新成功攻克了万亿参数混合专家模型在超长上下文任务中的强化学习训练瓶颈。以往此类训练需数千颗 GPU 集群支持,而新版框架仅凭 28 台 H200 服务器便完成了 GLM-5 模型 131k 上下文的强化学习训练,单次耗时压缩至 5 分钟以内。
为消除复杂代码生成中 GPU 闲置导致的进度阻滞,该框架部署了完全解耦的异步强化学习架构,摒弃传统同步等待机制。后台训练器在文本生成期间实时更新模型权重,新任务通过注入特定键值对强制重建缓存以维持速度。针对异步更新引发的逻辑不一致风险,框架引入路由重放(R3)技术,确保专家数据精准分配,将训练与推理步骤间的差异缩小至十分之一,显著增强系统稳定性。
在资源优化层面,推理端采用读写分离机制防止长文本处理中的生成停滞,并借助 Mooncake 技术整合多服务器闲置内存与磁盘构建共享缓存池。针对 GLM-5 的稀疏注意力机制,框架设计了专用并行计算方案以最小化层间通信开销。训练端则融合 DeepGEMM 技术与 DeepSeek V3 的块级扩展 FP8 算法,实现训推同精度计算内核,从根源上杜绝因精度差异引发的训练崩溃。