架构选择
QK-Norm
同时使用Pre和Post Norm
比Qwen2.5更宽的MLP,深度相同
SWA 使用5:1比例和1024窗口大小(论文中非常小且有趣的消融实验!)
没有使用MLA来节省KV缓存,SWA已能完成这项工作!
视觉编码器采用 Pan & Scan 算法。视觉编码器以固定分辨率 896 × 896 运行。在推理阶段使用窗口处理技术以支持不同图像尺寸。
长上下文
仅在全局层增加RoPE至1M
小模型处理长上下文更困难,1B版本没有128k上下文能力
预训练使用32k上下文,然后扩展到 128K 上下文长度。使用了 RoPE 缩放因子 8。
没有使用yarn或llama3类似的RoPE扩展方法
蒸馏
- 仅保留教师模型的前256个logits
其他
使用QAT(量化感知训练)
强化学习使用 BOND、WARM和 WARP的改进版本
现在强制使用序列开始标记(BOS token),使用 <start_of_turn>user 和 <start_of_turn>model 标记对话轮次。词汇量扩展至 262K。
2. 模型架构
使用分组查询注意力 (GQA),采用后归一化和预归一化,并使用 RMSNorm。用 QK-norm 替换了 Gemma 2 的soft-capping。
5:1 局部/全局层交错
我们交替使用局部滑动窗口自注意力机制和全局自注意力机制,模式为每 1 个全局层对应 5 个局部层,并且模型的第一个层从局部层开始。
Gemma 3 模型支持 128K Token 的上下文长度,但 1B 模型例外,其上下文长度为 32K。 我们将全局自注意力层的 RoPE 基频从 10k 提升至 1M,并保持局部层的频率为 10k。 我们遵循类似于 Chen et al. (2023) 的位置插值方法来扩展全局自注意力层的范围。
视觉编码器
我们使用 SigLIP 编码器的 400M 变体,这是一种使用 CLIP 损失的变体训练的 Vision Transformer。Gemma 视觉编码器将调整大小为 896 x 896 的正方形图像作为输入,并在来自视觉助手任务的数据上进行微调。为了简单起见,我们在 4B、12B 和 27B 模型中共享视觉编码器,并在训练期间保持其冻结。
Pan & Scan (P&S).
Gemma 视觉编码器以 896 x 896 的固定分辨率运行。这会在处理非正方形宽高比和高分辨率图像时导致伪影,从而导致文本无法读取或小物体消失。我们通过在推理期间使用自适应窗口算法来解决此问题。该算法将图像分割成大小相等的非重叠裁剪区域,覆盖整个图像,并将它们调整为 896x896 像素以传递给编码器。仅在必要时才应用此窗口化,并控制最大裁剪数量。这是一种仅在推理时进行的优化,可以禁用以加快推理速度。
2.2. Pre-training
使用 14T Token 训练 Gemma 3 27B 模型,12B 模型使用 12T Token,4B 模型使用 4T Token,而 1B 模型使用 2T Token。Token 数量的增加是考虑到预训练期间使用的图像和文本的混合比例。我们还增加了多语言数据的数量,以提高语言覆盖范围。我们添加了单语言数据和并行数据,并采用 Chung et al. (2023) 提出的策略来处理不同语言表示之间的不平衡问题。
分词器 (Tokenizer)。我们使用与 Gemini 2.0 相同的分词器:一个 SentencePiece 分词器,它具有分割数字、保留空格和字节级编码的特性 (Kudo and Richardson, 2018)。由此产生的词汇表包含 262k 个条目。这种分词器对于非英语语言来说更加平衡。
过滤。我们采用过滤技术,以降低出现不必要或不安全言论的风险,并移除某些个人信息和其他敏感数据。我们会对预训练数据混合中的评估集进行去污处理,并通过最小化敏感输出的扩散来降低复述的风险。此外,我们还应用了一种受 Sachdeva et al. (2024) 启发的质量重加权步骤,以减少低质量数据的出现。
蒸馏。我们为每个 Token 采样 256 个 logits,并根据教师概率进行加权。学生通过交叉熵损失学习这些样本中教师的分布。对于未采样的 logits,教师的目标分布设置为零概率,并进行重新归一化。
2.3. 量化感知训练
除了原始检查点外,我们还提供了采用不同标准格式的模型的量化版本。这些版本通过使用量化感知训练 (QAT) 对每个模型进行少量步骤(通常为 5,000 步)的微调获得。我们使用非量化检查点的概率作为目标,并调整数据以匹配预训练和后训练分布。基于最流行的开源量化推理引擎(例如 llama.cpp),我们专注于三种权重表示:per-channel int4、per-block int4 和 switched fp8。
2.4. 计算基础设施
如表 2 所示,我们使用 TPUv4、TPUv5e 和 TPUv5p 训练我们的模型。每个模型配置都经过优化,以最大限度地减少训练步骤时间。对于视觉编码器,我们预先计算每个图像的嵌入,并直接使用这些嵌入进行训练,这不会增加语言模型训练的成本。
优化器状态使用 ZeRO-3 (Ren et al., 2021) 的实现进行共享。对于多 pod 训练,我们执行数据副本重新分配。
3. 指令微调
与我们之前的配方相比,预训练模型通过一种改进的后训练方法被转化为指令微调模型(见表 6)。
技术
我们的后训练方法依赖于一种改进的知识蒸馏版本,该方法从一个大型预训练模型处学习,以及一个基于 BOND、WARM和 WARP的改进版本的基于强化学习的微调阶段。
强化学习目标
我们使用各种奖励函数来提高模型的有用性、数学能力、编码能力、推理能力、指令遵循能力和多语言能力,同时最大限度地减少模型的危害性。这包括从使用人类反馈数据训练的权重平均奖励模型(Ramé et al., 2024b)、代码执行反馈(Gehring et al., 2024)以及用于解决数学问题的真实奖励(DeepSeek-AI, 2025; Lambert et al., 2024)中学习。
数据过滤
我们仔细优化在后训练阶段中使用的数据,以最大化模型性能。我们过滤掉包含某些个人信息、不安全或有害的模型输出、错误的自我认知数据以及重复的示例。此外,我们还包含一些数据子集,这些子集旨在鼓励更好的上下文归因、对冲策略以及拒绝不当请求,从而最大限度地减少幻觉,并提高事实性评估指标的性能,同时不会降低模型在其他指标上的表现。

所有模型共享相同的 Tokenizer,其中一些控制 Token 专门用于 IT 格式。一个关键的区别是,PT 模型在生成结束时输出一个 <eos>
Token,而 IT 模型在生成结束时输出一个 <end_of_turn>
Token,如表 4 中 IT 所示。因此,对任何一种模型类型进行微调也需要添加它们各自的结束 Token。