Gemma 3 技术报告

架构选择 QK-Norm 同时使用Pre和Post Norm 比Qwen2.5更宽的MLP,深度相同 SWA 使用5:1比例和1024窗口大小(论文中非常小且有趣的消融实验!) 没有使用MLA来节省KV缓存,SWA已能完成这项工作! 视觉编码器采用 Pan & Scan 算法。视觉编码器以固定分辨率 896 × 896 运行。在推理阶段使用窗口处理技术以支持不同图像尺寸。 长上下文 仅在全局层增加RoPE至1M 小模型处理长上下文更困难,1B版本没有128k上下文能力 预训练使用32k上下文,然后扩展到 128K 上下文长度。使用了 RoPE 缩放因子 8。 没有使用yarn或llama3类似的RoPE扩展方法 蒸馏 仅保留教师模型的前256个logits 其他 使用QAT(量化感知训练) 强化学习使用 BOND、WARM和 WARP的改进版本 现在强制使用序列开始标记(BOS token),使用 <start_of_turn>user 和 <start_of_turn>model 标记对话轮次。词汇量扩展至 262K。 2. 模型架构 使用分组查询注意力 (GQA),采用后归一化和预归一化,并使用 RMSNorm。用 QK-norm 替换了 Gemma 2 的soft-capping。 5:1 局部/全局层交错 我们交替使用局部滑动窗口自注意力机制和全局自注意力机制,模式为每 1 个全局层对应 5 个局部层,并且模型的第一个层从局部层开始。 Gemma 3 模型支持 128K Token 的上下文长度,但 1B 模型例外,其上下文长度为 32K。 我们将全局自注意力层的 RoPE 基频从 10k 提升至 1M,并保持局部层的频率为 10k。 我们遵循类似于 Chen et al. (2023) 的位置插值方法来扩展全局自注意力层的范围。 ...

March 12, 2025 · 小茄墩