karpathy新课程-深入探讨 ChatGPT 等大语言模型

新发布的 3 小时 31 分钟 YouTube 视频-免费：

1. 讲师

Andrej 是 OpenAI 的创始成员之一（2015 年），随后担任特斯拉 AI 高级总监（2017-2022 年），现在他是 Eureka Labs 的创始人，该公司正在构建一所 AI 原生的学校。

2. 内容

这是一个面向大众的深度探讨，介绍了支撑 ChatGPT 及相关产品的大语言模型（LLM）AI 技术。视频涵盖了模型开发的完整训练流程，包括如何理解它们的“心理学”模型，以及如何在实际应用中最好地利用它们。

我们涵盖了所有主要阶段：

我为视频的“大众受众”系列设计了这一内容，相信即使没有技术背景的人也能理解。它将帮助你直观地了解 ChatGPT 等大语言模型的完整训练流程，并提供了许多示例，或许还能启发你思考当前的能力、现状以及未来的发展方向。

（此外，我大约一年前已经发布了一个“LLM 入门”视频，但那只是随机演讲的重新录制，所以我希望围绕这一主题做一个更全面的版本。两者仍然可以结合观看，因为演讲更深入地探讨了其他主题，例如 LLM 操作系统和 LLM 安全性。）

希望视频有趣且有用！

3. 章节

00:00:00 介绍

00:01:00 预训练数据（互联网）

00:07:47 分词

00:14:27 神经网络输入输出

00:20:11 神经网络内部结构

00:26:01 推理

00:31:09 GPT-2：训练与推理

00:42:52 Llama 3.1 基础模型推理

00:59:23 从预训练到后训练

01:01:06 后训练数据（对话）

01:20:32 幻觉、工具使用、知识/工作记忆

01:41:46 自我认知

01:46:56 模型需要 Token 来思考

02:01:11 重新审视分词：模型在拼写上的困难

02:04:53 不规则的智能

02:07:28 从监督微调到强化学习

02:14:42 强化学习

02:27:47 DeepSeek-R1

02:42:07 AlphaGo

02:48:26 基于人类反馈的强化学习（RLHF）

03:09:39 未来展望

03:15:15 跟踪大语言模型的发展

03:18:34 在哪里找到大语言模型

03:21:46 总结