>
正文
谷歌Pixel采用零拷贝MTP技术,Gemini Nano推理提速超50%
2026-06-28 10:51

据 Woofun AI 消息,谷歌在 Pixel 9 和 Pixel 10 系列设备中部署多令牌预测(MTP)架构,显著优化内置 Gemini Nano v3 模型的运行效率。该架构将轻量级 Transformer 预测模块嵌入已冻结的主模型结构,在保持原有安全性与输出质量的前提下,使设备端推理速度提升 50% 以上。

针对传统贪婪解码方法中独立模型消耗额外内存且无法访问主模型内部状态的问题,MTP 架构通过复用主模型特征信息提高了候选令牌预测准确性。谷歌引入零拷贝机制,允许预测模块通过跨注意力机制直接读取主模型现有缓存数据,消除启动延迟并节省约 130MB 运行内存。在实际应用中,该架构使通知摘要等任务平均多预测近 2 个令牌,减少处理器唤醒以节约电量;在智能回复等结构化文本生成任务中,候选令牌接受率提高 55%。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
Gemini Nano
Gemini Nano v3
Google
分享:
back