午方 AI 獲悉,GPU零售商Tinygrad披露,GLM 5.2模型在採用Blackwell架構的雙機互聯配置下,推理速度可達120 tok/s。該方案硬件總成本爲15萬美元,用戶可選擇兩臺標準版tinybox或一臺tinybox Pro設備以實現同等性能。
Tinygrad將此作爲核心賣點,強調'一次性購買、無後續雲服務費用'的私有部署模式,旨在直接對標按量計費的雲推理服務。目前GLM團隊尚未對此進行官方確認,且Tinygrad未公開更多技術細節。