Gemma 3 技术报告
March 12, 2025 · 小茄墩
Open R1 更新3 在代码领域使用R1的教训
March 12, 2025 · 小茄墩
OpenAI发布一批Agent工具
March 12, 2025 · 小茄墩
R1-Omni:基于强化学习的可解释全方位多模态情感识别
March 11, 2025 · 小茄墩
云端渲染浏览器:Browser-use 详细介绍
March 9, 2025 · 小茄墩
Sutton: 苦涩的教训
March 7, 2025 · 小茄墩
Anthropic:构建有效的Agents
March 6, 2025 · 小茄墩
Chain of Draft
March 2, 2025 · 小茄墩
GPT-4.5
February 28, 2025 · 小茄墩
Approximating KL Divergence: k1 k2 k3是什么
February 27, 2025 · 小茄墩
BIG-MATH 25万高质量数学数据集
February 25, 2025 · 小茄墩
Claude 关于thinking 模式的思考
February 25, 2025 · 小茄墩
DeepSeek 开源周day1: FlashMLA
February 24, 2025 · 小茄墩
小模型的推理困境
February 20, 2025 · 小茄墩
月之暗面新作 MoBA: 用于长文本大语言模型的块注意力混合模型
February 19, 2025 · 小茄墩
DeepSeek新作原生稀疏注意力
February 18, 2025 · 小茄墩
MOE是一个免费的嵌入模型
February 15, 2025 · 小茄墩
蒸馏scaling law
February 14, 2025 · 小茄墩
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
February 13, 2025 · 小茄墩
LLM中的深度诅咒现象
February 12, 2025 · 小茄墩
OpenAI:Competitive Programming with Large Reasoning Models
February 12, 2025 · 小茄墩
Open R1 项目 第二周总结与展望
February 11, 2025 · 小茄墩
PPO训练技巧总览
February 9, 2025 · 小茄墩
使用 Unsloth 训练您自己的 R1 推理模型
February 8, 2025 · 小茄墩
R1-Zero类训练中可能没有顿悟时刻 —— 一项初步研究
February 7, 2025 · 小茄墩
karpathy新课程-深入探讨 ChatGPT 等大语言模型
February 6, 2025 · 小茄墩
Reward Hacking in Reinforcement Learning
February 6, 2025 · 小茄墩
cuda层面实现kernel的库Liger Kernel
February 5, 2025 · 小茄墩
s1: simple test-time scaling
February 3, 2025 · 小茄墩
DeepSeek-R1技术报告详解
February 2, 2025 · 小茄墩
Group Relative Policy Optimization
February 2, 2025 · 小茄墩
SFT 记忆,RL 泛化
February 2, 2025 · 小茄墩