Image

新发布的 3 小时 31 分钟 YouTube 视频-免费:

1. 讲师

Andrej 是 OpenAI 的创始成员之一(2015 年),随后担任特斯拉 AI 高级总监(2017-2022 年),现在他是 Eureka Labs 的创始人,该公司正在构建一所 AI 原生的学校。

2. 内容

这是一个面向大众的深度探讨,介绍了支撑 ChatGPT 及相关产品的大语言模型(LLM)AI 技术。视频涵盖了模型开发的完整训练流程,包括如何理解它们的“心理学”模型,以及如何在实际应用中最好地利用它们。

我们涵盖了所有主要阶段:

  1. 预训练:数据、分词、Transformer 神经网络的输入输出和内部结构、推理、GPT-2 训练示例、Llama 3.1 基础推理示例
  2. 监督微调:对话数据、“LLM 心理学”:幻觉、工具使用、知识/工作记忆、自我认知、模型需要 Token 来思考、拼写、不均衡的智能
  3. 强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF(基于人类反馈的强化学习)。

我为视频的“大众受众”系列设计了这一内容,相信即使没有技术背景的人也能理解。它将帮助你直观地了解 ChatGPT 等大语言模型的完整训练流程,并提供了许多示例,或许还能启发你思考当前的能力、现状以及未来的发展方向。

(此外,我大约一年前已经发布了一个“LLM 入门”视频,但那只是随机演讲的重新录制,所以我希望围绕这一主题做一个更全面的版本。两者仍然可以结合观看,因为演讲更深入地探讨了其他主题,例如 LLM 操作系统和 LLM 安全性。)

希望视频有趣且有用!

3. 章节

00:00:00 介绍

00:01:00 预训练数据(互联网)

00:07:47 分词

00:14:27 神经网络输入输出

00:20:11 神经网络内部结构

00:26:01 推理

00:31:09 GPT-2:训练与推理

00:42:52 Llama 3.1 基础模型推理

00:59:23 从预训练到后训练

01:01:06 后训练数据(对话)

01:20:32 幻觉、工具使用、知识/工作记忆

01:41:46 自我认知

01:46:56 模型需要 Token 来思考

02:01:11 重新审视分词:模型在拼写上的困难

02:04:53 不规则的智能

02:07:28 从监督微调到强化学习

02:14:42 强化学习

02:27:47 DeepSeek-R1

02:42:07 AlphaGo

02:48:26 基于人类反馈的强化学习(RLHF)

03:09:39 未来展望

03:15:15 跟踪大语言模型的发展

03:18:34 在哪里找到大语言模型

03:21:46 总结