Google DeepMind推出Gemma 4量化检查点,四位QAT与全新移动格式大幅削减设备内存

2 阅读4分钟前沿

背景

Google DeepMind 在2026年4月发布了Gemma 4系列模型,随后于6月5日补充推出了量化感知训练(Quantization‑Aware Training,简称 QAT)检查点。此次发布的目标是让开发者能够在本地 GPU、Raspberry Pi 以及智能手机等边缘设备上直接运行大语言模型,降低显存与存储需求。

三种边缘格式对比

格式适用模型内存占用质量保留典型部署场景
BF16 (16 位)E2B / E4B9.6 GB / 15 GB完整质量基准高性能服务器
Q4_0 QAT (4 位)E2B / E4B3.2 GB / 5 GBQAT 训练后质量接近 BF16消费级 GPU、Raspberry Pi5
Mobile QAT (混合 2‑4 位)E2B(文本版)≈1 GB关键推理层保持高精度,整体质量略低于 BF16智能手机、移动加速器

从表中可以看出,Q4_0 QAT 在保持相同存储规模的前提下显著提升了质量,适合笔记本和消费级 GPU;而全新移动格式通过对 token‑generation 层采用 2‑bit 量化、静态激活和通道级量化等四项技术,将模型压至约 1 GB,专为手机加速器设计。

移动方案技术细节

  1. 静态激活:在训练阶段预计算激活缩放系数,推理时省去动态计算,降低算力消耗。
  2. 通道级量化:量化粒度匹配移动 NPU 的通道结构,提高硬件利用率。
  3. 目标层 2‑bit 量化:仅对 token‑generation 层进行 2‑bit 压缩,核心推理层保持更高位宽,兼顾速度与质量。
  4. Embedding 与 KV 缓存优化:可选去除音视频编码器,仅保留文本分支,使模型体积进一步低于 1 GB。

评估结果与得分

依据 Google 官方文档的内存数据以及其对 QAT 质量提升的声明,本文对三种格式在四个维度(内存、质量、解码速度、部署广度)进行打分,满分 25 分。

  • BF16:内存最重(1 分),质量最高(5 分),解码速度一般(2 分),部署广度受限(1 分),总分 13。
  • Q4_0 QAT:内存大幅削减(4 分),质量略有下降但仍接近基准(4 分),解码因量化加速(4 分),可在多数本地环境运行(5 分),总分 21。
  • Mobile QAT:内存最轻(5 分),质量因 2‑bit 层略降(3 分),解码因静态激活最优(5 分),专为手机设计(5 分),总分同样为 21。

两者得分相同,但适用硬件不同:手机端首选 Mobile QAT,笔记本/消费 GPU 则倾向 Q4_0 QAT。

影响与展望

  • 开发者即刻可用:权重已同步至 Hugging Face,支持 llama.cpp、Ollama、LM Studio、vLLM、MLX 与 LiteRT‑LM 等主流推理框架。
  • 生态加速:低至 1 GB 的模型让更多移动应用能够本地部署生成式文本,降低对云服务的依赖,提升隐私与响应速度。
  • 质量验证仍待完善:Google 未公布 Gemma 4 QAT 的官方评测分数,社区仍需自行跑 benchmark 来验证质量提升幅度。
  • 后续可能方向:进一步压缩音视频编码器、探索更高效的 2‑bit 量化策略,以及在自研 NPU 上的软硬件协同优化,都是下一步的研究重点。

“量化感知训练让模型在保持质量的同时实现更小尺寸,这是边缘 AI 迈向大规模落地的关键一步。” – Google DeepMind 官方博客

整体来看,Gemma 4 的 QAT 检查点为边缘部署提供了灵活的选择路径,既满足了高性能本地推理的需求,也为移动端的生成式 AI 应用打开了新局面。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。