归档 | 一只小茄墩

2025 ³²

March ⁸

Gemma 3 技术报告

March 12, 2025 · 小茄墩

Open R1 更新3 在代码领域使用R1的教训

March 12, 2025 · 小茄墩

OpenAI发布一批Agent工具

March 12, 2025 · 小茄墩

R1-Omni：基于强化学习的可解释全方位多模态情感识别

March 11, 2025 · 小茄墩

云端渲染浏览器：Browser-use 详细介绍

March 9, 2025 · 小茄墩

Sutton: 苦涩的教训

March 7, 2025 · 小茄墩

Anthropic：构建有效的Agents

March 6, 2025 · 小茄墩

Chain of Draft

March 2, 2025 · 小茄墩

February ²⁴

GPT-4.5

February 28, 2025 · 小茄墩

Approximating KL Divergence: k1 k2 k3是什么

February 27, 2025 · 小茄墩

BIG-MATH 25万高质量数学数据集

February 25, 2025 · 小茄墩

Claude 关于thinking 模式的思考

February 25, 2025 · 小茄墩

DeepSeek 开源周day1: FlashMLA

February 24, 2025 · 小茄墩

小模型的推理困境

February 20, 2025 · 小茄墩

月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型

February 19, 2025 · 小茄墩

DeepSeek新作原生稀疏注意力

February 18, 2025 · 小茄墩

MOE是一个免费的嵌入模型

February 15, 2025 · 小茄墩

蒸馏scaling law

February 14, 2025 · 小茄墩

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

February 13, 2025 · 小茄墩

LLM中的深度诅咒现象

February 12, 2025 · 小茄墩

OpenAI：Competitive Programming with Large Reasoning Models

February 12, 2025 · 小茄墩

Open R1 项目第二周总结与展望

February 11, 2025 · 小茄墩

PPO训练技巧总览

February 9, 2025 · 小茄墩

使用 Unsloth 训练您自己的 R1 推理模型

February 8, 2025 · 小茄墩

R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究

February 7, 2025 · 小茄墩

karpathy新课程-深入探讨 ChatGPT 等大语言模型

February 6, 2025 · 小茄墩

Reward Hacking in Reinforcement Learning

February 6, 2025 · 小茄墩

cuda层面实现kernel的库Liger Kernel

February 5, 2025 · 小茄墩

s1: simple test-time scaling

February 3, 2025 · 小茄墩

DeepSeek-R1技术报告详解

February 2, 2025 · 小茄墩

Group Relative Policy Optimization

February 2, 2025 · 小茄墩

SFT 记忆，RL 泛化

February 2, 2025 · 小茄墩

2025 32

March 8

Gemma 3 技术报告

Open R1 更新3 在代码领域使用R1的教训

OpenAI发布一批Agent工具

R1-Omni：基于强化学习的可解释全方位多模态情感识别

云端渲染浏览器：Browser-use 详细介绍

Sutton: 苦涩的教训

Anthropic：构建有效的Agents

Chain of Draft

February 24

GPT-4.5

Approximating KL Divergence: k1 k2 k3是什么

BIG-MATH 25万高质量数学数据集

Claude 关于thinking 模式的思考

DeepSeek 开源周day1: FlashMLA

小模型的推理困境

月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型

DeepSeek新作原生稀疏注意力

MOE是一个免费的嵌入模型

蒸馏scaling law

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

LLM中的深度诅咒现象

OpenAI：Competitive Programming with Large Reasoning Models

Open R1 项目 第二周总结与展望

PPO训练技巧总览

使用 Unsloth 训练您自己的 R1 推理模型

R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究

karpathy新课程-深入探讨 ChatGPT 等大语言模型

Reward Hacking in Reinforcement Learning

cuda层面实现kernel的库Liger Kernel

s1: simple test-time scaling

DeepSeek-R1技术报告详解

Group Relative Policy Optimization

SFT 记忆，RL 泛化

2025 ³²

March ⁸

February ²⁴

Open R1 项目第二周总结与展望