架构选择

QK-Norm
同时使用Pre和Post Norm
比Qwen2.5更宽的MLP，深度相同
SWA 使用5:1比例和1024窗口大小（论文中非常小且有趣的消融实验！）
没有使用MLA来节省KV缓存，SWA已能完成这项工作！
视觉编码器采用 Pan & Scan 算法。视觉编码器以固定分辨率 896 × 896 运行。在推理阶段使用窗口处理技术以支持不同图像尺寸。

长上下文

仅在全局层增加RoPE至1M
小模型处理长上下文更困难，1B版本没有128k上下文能力
预训练使用32k上下文，然后扩展到 128K 上下文长度。使用了 RoPE 缩放因子 8。
没有使用yarn或llama3类似的RoPE扩展方法

蒸馏

仅保留教师模型的前256个logits

其他

使用QAT（量化感知训练）
强化学习使用 BOND、WARM和 WARP的改进版本
现在强制使用序列开始标记（BOS token），使用 <start_of_turn>user 和 <start_of_turn>model 标记对话轮次。词汇量扩展至 262K。

2. 模型架构

使用分组查询注意力 (GQA)，采用后归一化和预归一化，并使用 RMSNorm。用 QK-norm 替换了 Gemma 2 的soft-capping。

5:1 局部/全局层交错

我们交替使用局部滑动窗口自注意力机制和全局自注意力机制，模式为每 1 个全局层对应 5 个局部层，并且模型的第一个层从局部层开始。

Gemma 3 模型支持 128K Token 的上下文长度，但 1B 模型例外，其上下文长度为 32K。我们将全局自注意力层的 RoPE 基频从 10k 提升至 1M，并保持局部层的频率为 10k。我们遵循类似于 Chen et al. (2023) 的位置插值方法来扩展全局自注意力层的范围。

视觉编码器

我们使用 SigLIP 编码器的 400M 变体，这是一种使用 CLIP 损失的变体训练的 Vision Transformer。Gemma 视觉编码器将调整大小为 896 x 896 的正方形图像作为输入，并在来自视觉助手任务的数据上进行微调。为了简单起见，我们在 4B、12B 和 27B 模型中共享视觉编码器，并在训练期间保持其冻结。

Pan & Scan (P&S).

Gemma 视觉编码器以 896 x 896 的固定分辨率运行。这会在处理非正方形宽高比和高分辨率图像时导致伪影，从而导致文本无法读取或小物体消失。我们通过在推理期间使用自适应窗口算法来解决此问题。该算法将图像分割成大小相等的非重叠裁剪区域，覆盖整个图像，并将它们调整为 896x896 像素以传递给编码器。仅在必要时才应用此窗口化，并控制最大裁剪数量。这是一种仅在推理时进行的优化，可以禁用以加快推理速度。

2.2. Pre-training

使用 14T Token 训练 Gemma 3 27B 模型，12B 模型使用 12T Token，4B 模型使用 4T Token，而 1B 模型使用 2T Token。Token 数量的增加是考虑到预训练期间使用的图像和文本的混合比例。我们还增加了多语言数据的数量，以提高语言覆盖范围。我们添加了单语言数据和并行数据，并采用 Chung et al. (2023) 提出的策略来处理不同语言表示之间的不平衡问题。

分词器 (Tokenizer)。我们使用与 Gemini 2.0 相同的分词器：一个 SentencePiece 分词器，它具有分割数字、保留空格和字节级编码的特性 (Kudo and Richardson, 2018)。由此产生的词汇表包含 262k 个条目。这种分词器对于非英语语言来说更加平衡。

过滤。我们采用过滤技术，以降低出现不必要或不安全言论的风险，并移除某些个人信息和其他敏感数据。我们会对预训练数据混合中的评估集进行去污处理，并通过最小化敏感输出的扩散来降低复述的风险。此外，我们还应用了一种受 Sachdeva et al. (2024) 启发的质量重加权步骤，以减少低质量数据的出现。

蒸馏。我们为每个 Token 采样 256 个 logits，并根据教师概率进行加权。学生通过交叉熵损失学习这些样本中教师的分布。对于未采样的 logits，教师的目标分布设置为零概率，并进行重新归一化。

2.3. 量化感知训练

除了原始检查点外，我们还提供了采用不同标准格式的模型的量化版本。这些版本通过使用量化感知训练 (QAT) 对每个模型进行少量步骤（通常为 5,000 步）的微调获得。我们使用非量化检查点的概率作为目标，并调整数据以匹配预训练和后训练分布。基于最流行的开源量化推理引擎（例如 llama.cpp），我们专注于三种权重表示：per-channel int4、per-block int4 和 switched fp8。

2.4. 计算基础设施

如表 2 所示，我们使用 TPUv4、TPUv5e 和 TPUv5p 训练我们的模型。每个模型配置都经过优化，以最大限度地减少训练步骤时间。对于视觉编码器，我们预先计算每个图像的嵌入，并直接使用这些嵌入进行训练，这不会增加语言模型训练的成本。

优化器状态使用 ZeRO-3 (Ren et al., 2021) 的实现进行共享。对于多 pod 训练，我们执行数据副本重新分配。

3. 指令微调

与我们之前的配方相比，预训练模型通过一种改进的后训练方法被转化为指令微调模型（见表 6）。

技术

我们的后训练方法依赖于一种改进的知识蒸馏版本，该方法从一个大型预训练模型处学习，以及一个基于 BOND、WARM和 WARP的改进版本的基于强化学习的微调阶段。

强化学习目标

我们使用各种奖励函数来提高模型的有用性、数学能力、编码能力、推理能力、指令遵循能力和多语言能力，同时最大限度地减少模型的危害性。这包括从使用人类反馈数据训练的权重平均奖励模型（Ramé et al., 2024b）、代码执行反馈（Gehring et al., 2024）以及用于解决数学问题的真实奖励（DeepSeek-AI, 2025; Lambert et al., 2024）中学习。

数据过滤

我们仔细优化在后训练阶段中使用的数据，以最大化模型性能。我们过滤掉包含某些个人信息、不安全或有害的模型输出、错误的自我认知数据以及重复的示例。此外，我们还包含一些数据子集，这些子集旨在鼓励更好的上下文归因、对冲策略以及拒绝不当请求，从而最大限度地减少幻觉，并提高事实性评估指标的性能，同时不会降低模型在其他指标上的表现。

所有模型共享相同的 Tokenizer，其中一些控制 Token 专门用于 IT 格式。一个关键的区别是，PT 模型在生成结束时输出一个 <eos> Token，而 IT 模型在生成结束时输出一个 <end_of_turn> Token，如表 4 中 IT 所示。因此，对任何一种模型类型进行微调也需要添加它们各自的结束 Token。

2. 模型架构#

5:1 局部/全局层交错#

视觉编码器#

Pan & Scan (P&S).#

2.2. Pre-training#

2.3. 量化感知训练#

2.4. 计算基础设施#

3. 指令微调#

技术#

强化学习目标#

数据过滤#