午方 AI 获悉,GPU零售商Tinygrad披露,GLM 5.2模型在采用Blackwell架构的双机互联配置下,推理速度可达120 tok/s。该方案硬件总成本为15万美元,用户可选择两台标准版tinybox或一台tinybox Pro设备以实现同等性能。
Tinygrad将此作为核心卖点,强调'一次性购买、无后续云服务费用'的私有部署模式,旨在直接对标按量计费的云推理服务。目前GLM团队尚未对此进行官方确认,且Tinygrad未公开更多技术细节。