登錄
註冊
據午方 AI 消息,Prime Intellect 正式披露分佈式強化學習訓練框架 prime-rl 的 0.6.0 版本,該更新成功攻克了萬億參數混合專家模型在超長上下文任務中的強化學習訓練瓶頸。以往此類訓練需數千顆 GPU 集羣支持,而新版框架僅憑 28 臺 H200 服務器便完成了 GLM-5 模型 131k 上下文的強化學習訓練,單次耗時壓縮至 5 分鐘以內。
爲消除複雜代碼生成中 GPU 閒置導致的進度阻滯,該框架部署了完全解耦的異步強化學習架構,摒棄傳統同步等待機制。後臺訓練器在文本生成期間實時更新模型權重,新任務通過注入特定鍵值對強制重建緩存以維持速度。針對異步更新引發的邏輯不一致風險,框架引入路由重放(R3)技術,確保專家數據精準分配,將訓練與推理步驟間的差異縮小至十分之一,顯著增強系統穩定性。
在資源優化層面,推理端採用讀寫分離機制防止長文本處理中的生成停滯,並藉助 Mooncake 技術整合多服務器閒置內存與磁盤構建共享緩存池。針對 GLM-5 的稀疏注意力機制,框架設計了專用並行計算方案以最小化層間通信開銷。訓練端則融合 DeepGEMM 技術與 DeepSeek V3 的塊級擴展 FP8 算法,實現訓推同精度計算內核,從根源上杜絕因精度差異引發的訓練崩潰。