新发布的 3 小时 31 分钟 YouTube 视频-免费:
1. 讲师
Andrej 是 OpenAI 的创始成员之一(2015 年),随后担任特斯拉 AI 高级总监(2017-2022 年),现在他是 Eureka Labs 的创始人,该公司正在构建一所 AI 原生的学校。
2. 内容
这是一个面向大众的深度探讨,介绍了支撑 ChatGPT 及相关产品的大语言模型(LLM)AI 技术。视频涵盖了模型开发的完整训练流程,包括如何理解它们的“心理学”模型,以及如何在实际应用中最好地利用它们。
我们涵盖了所有主要阶段:
- 预训练:数据、分词、Transformer 神经网络的输入输出和内部结构、推理、GPT-2 训练示例、Llama 3.1 基础推理示例
- 监督微调:对话数据、“LLM 心理学”:幻觉、工具使用、知识/工作记忆、自我认知、模型需要 Token 来思考、拼写、不均衡的智能
- 强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF(基于人类反馈的强化学习)。
我为视频的“大众受众”系列设计了这一内容,相信即使没有技术背景的人也能理解。它将帮助你直观地了解 ChatGPT 等大语言模型的完整训练流程,并提供了许多示例,或许还能启发你思考当前的能力、现状以及未来的发展方向。
(此外,我大约一年前已经发布了一个“LLM 入门”视频,但那只是随机演讲的重新录制,所以我希望围绕这一主题做一个更全面的版本。两者仍然可以结合观看,因为演讲更深入地探讨了其他主题,例如 LLM 操作系统和 LLM 安全性。)
希望视频有趣且有用!
3. 章节
00:00:00 介绍
00:01:00 预训练数据(互联网)
00:07:47 分词
00:14:27 神经网络输入输出
00:20:11 神经网络内部结构
00:26:01 推理
00:31:09 GPT-2:训练与推理
00:42:52 Llama 3.1 基础模型推理
00:59:23 从预训练到后训练
01:01:06 后训练数据(对话)
01:20:32 幻觉、工具使用、知识/工作记忆
01:41:46 自我认知
01:46:56 模型需要 Token 来思考
02:01:11 重新审视分词:模型在拼写上的困难
02:04:53 不规则的智能
02:07:28 从监督微调到强化学习
02:14:42 强化学习
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 基于人类反馈的强化学习(RLHF)
03:09:39 未来展望
03:15:15 跟踪大语言模型的发展
03:18:34 在哪里找到大语言模型
03:21:46 总结