Google DeepMind推出Gemma 4量化检查点，四位QAT与全新移动格式大幅削减设备内存

背景

Google DeepMind 在2026年4月发布了Gemma 4系列模型，随后于6月5日补充推出了量化感知训练（Quantization‑Aware Training，简称 QAT）检查点。此次发布的目标是让开发者能够在本地 GPU、Raspberry Pi 以及智能手机等边缘设备上直接运行大语言模型，降低显存与存储需求。

三种边缘格式对比

格式	适用模型	内存占用	质量保留	典型部署场景
BF16 (16 位)	E2B / E4B	9.6 GB / 15 GB	完整质量基准	高性能服务器
Q4_0 QAT (4 位)	E2B / E4B	3.2 GB / 5 GB	QAT 训练后质量接近 BF16	消费级 GPU、Raspberry Pi5
Mobile QAT (混合 2‑4 位)	E2B（文本版）	≈1 GB	关键推理层保持高精度，整体质量略低于 BF16	智能手机、移动加速器

从表中可以看出，Q4_0 QAT 在保持相同存储规模的前提下显著提升了质量，适合笔记本和消费级 GPU；而全新移动格式通过对 token‑generation 层采用 2‑bit 量化、静态激活和通道级量化等四项技术，将模型压至约 1 GB，专为手机加速器设计。

移动方案技术细节

静态激活：在训练阶段预计算激活缩放系数，推理时省去动态计算，降低算力消耗。
通道级量化：量化粒度匹配移动 NPU 的通道结构，提高硬件利用率。
目标层 2‑bit 量化：仅对 token‑generation 层进行 2‑bit 压缩，核心推理层保持更高位宽，兼顾速度与质量。
Embedding 与 KV 缓存优化：可选去除音视频编码器，仅保留文本分支，使模型体积进一步低于 1 GB。

评估结果与得分

依据 Google 官方文档的内存数据以及其对 QAT 质量提升的声明，本文对三种格式在四个维度（内存、质量、解码速度、部署广度）进行打分，满分 25 分。

BF16：内存最重（1 分），质量最高（5 分），解码速度一般（2 分），部署广度受限（1 分），总分 13。
Q4_0 QAT：内存大幅削减（4 分），质量略有下降但仍接近基准（4 分），解码因量化加速（4 分），可在多数本地环境运行（5 分），总分 21。
Mobile QAT：内存最轻（5 分），质量因 2‑bit 层略降（3 分），解码因静态激活最优（5 分），专为手机设计（5 分），总分同样为 21。

两者得分相同，但适用硬件不同：手机端首选 Mobile QAT，笔记本/消费 GPU 则倾向 Q4_0 QAT。

影响与展望

开发者即刻可用：权重已同步至 Hugging Face，支持 llama.cpp、Ollama、LM Studio、vLLM、MLX 与 LiteRT‑LM 等主流推理框架。
生态加速：低至 1 GB 的模型让更多移动应用能够本地部署生成式文本，降低对云服务的依赖，提升隐私与响应速度。
质量验证仍待完善：Google 未公布 Gemma 4 QAT 的官方评测分数，社区仍需自行跑 benchmark 来验证质量提升幅度。
后续可能方向：进一步压缩音视频编码器、探索更高效的 2‑bit 量化策略，以及在自研 NPU 上的软硬件协同优化，都是下一步的研究重点。

“量化感知训练让模型在保持质量的同时实现更小尺寸，这是边缘 AI 迈向大规模落地的关键一步。” – Google DeepMind 官方博客

整体来看，Gemma 4 的 QAT 检查点为边缘部署提供了灵活的选择路径，既满足了高性能本地推理的需求，也为移动端的生成式 AI 应用打开了新局面。

Google DeepMind推出Gemma 4量化检查点，四位QAT与全新移动格式大幅削减设备内存

背景

三种边缘格式对比

移动方案技术细节

评估结果与得分

影响与展望

标签分类

Google DeepMind推出Gemma 4量化检查点，四位QAT与全新移动格式大幅削减设备内存