karpathy新课程-深入探讨 ChatGPT 等大语言模型
新发布的 3 小时 31 分钟 YouTube 视频-免费: 1. 讲师 Andrej 是 OpenAI 的创始成员之一(2015 年),随后担任特斯拉 AI 高级总监(2017-2022 年),现在他是 Eureka Labs 的创始人,该公司正在构建一所 AI 原生的学校。 2. 内容 这是一个面向大众的深度探讨,介绍了支撑 ChatGPT 及相关产品的大语言模型(LLM)AI 技术。视频涵盖了模型开发的完整训练流程,包括如何理解它们的“心理学”模型,以及如何在实际应用中最好地利用它们。 我们涵盖了所有主要阶段: 预训练:数据、分词、Transformer 神经网络的输入输出和内部结构、推理、GPT-2 训练示例、Llama 3.1 基础推理示例 监督微调:对话数据、“LLM 心理学”:幻觉、工具使用、知识/工作记忆、自我认知、模型需要 Token 来思考、拼写、不均衡的智能 强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF(基于人类反馈的强化学习)。 我为视频的“大众受众”系列设计了这一内容,相信即使没有技术背景的人也能理解。它将帮助你直观地了解 ChatGPT 等大语言模型的完整训练流程,并提供了许多示例,或许还能启发你思考当前的能力、现状以及未来的发展方向。 (此外,我大约一年前已经发布了一个“LLM 入门”视频,但那只是随机演讲的重新录制,所以我希望围绕这一主题做一个更全面的版本。两者仍然可以结合观看,因为演讲更深入地探讨了其他主题,例如 LLM 操作系统和 LLM 安全性。) 希望视频有趣且有用! 3. 章节 00:00:00 介绍 00:01:00 预训练数据(互联网) 00:07:47 分词 00:14:27 神经网络输入输出 00:20:11 神经网络内部结构 00:26:01 推理 00:31:09 GPT-2:训练与推理 00:42:52 Llama 3.1 基础模型推理 ...