OpenAI发布一批Agent工具

OpenAI发布了第一批Agent构建模块,旨在帮助开发者和企业构建实用且可靠的 AI 智能体。过去一年,OpenAI推出了一系列新的模型功能,例如高级推理、多模态交互以及最新的安全技术,这些都为OpenAI的模型奠定了基础,使其能够处理构建 AI 智能体 所需的复杂、多步骤任务。 然而,客户反馈表明,将这些功能转化为可用于生产环境的 AI 智能体 极具挑战性,通常需要大量的提示词迭代和自定义编排逻辑,且缺乏足够的可见性或内置支持。 为了解决这些难题,OpenAI推出了一套全新的 API 和工具,专门用于简化 AI 智能体 应用的开发: 全新的 Responses API ,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力,旨在帮助开发者构建 AI 智能体 内置工具,包括网页搜索 、文件搜索 和计算机使用 全新的 Agents SDK ,用于编排单 AI 智能体 和多 AI 智能体 工作流程 集成的可观测性工具 ,用于追踪和检查 AI 智能体 工作流程的执行情况 这些新工具简化了核心 AI 智能体逻辑、编排和交互,从而显著降低了开发者构建 AI 智能体的入门门槛。 在接下来的几周和几个月里,OpenAI计划发布更多工具和功能,以进一步简化和加速在OpenAI平台上构建 AI 智能体应用。 隆重推出 Responses API Responses API 是OpenAI用于构建 AI 智能体的全新 API 原语,它利用 OpenAI 的内置工具,兼具 Chat Completions 的简洁性和 Assistants API 的工具使用能力。 随着模型能力的不断发展,OpenAI相信 Responses API 将为开发者构建 AI 智能体应用提供更灵活的基础。 通过单个 Responses API 调用,开发者将能够使用多种工具和模型交互来解决日益复杂的任务。 ...

March 12, 2025 · 小茄墩

GPT-4.5

GPT-4.5正式发布,作为"研究预览版"面向OpenAI Pro会员(200美元/月)及持有API密钥的开发者开放。 目前定价体系极为高昂:输入Token每百万75美元,输出Token每百万150美元。作为对比,o1模型价格为15/60美元,GPT-4o仅需2.50/10美元。 官方公布的胜率对比图表显示,GPT-4.5在不同查询类别中相对GPT-4o的胜率介于56.8%-63.2%: 在SimpleQA幻觉率测试中,该模型降至37.1%——较GPT-4o(61.8%)和o3-mini(80.3%)显著优化,但与o1(44%)相比提升有限。编码基准测试成绩与o3-mini基本持平。 OpenAI对模型前景持审慎态度: 鉴于GPT-4.5作为超大规模计算密集型模型,其使用成本⁠高于GPT-4o且不具备替代性,我们正在评估是否长期维持其API服务,以平衡现有能力支持与未来模型研发。 Andrej Karpathy指出相较GPT-4训练成本增加10倍的情况下改进幅度有限: 每个 0.5 版本号大致对应 10 倍预训练算力。回顾历史:GPT-1 几乎无法生成连贯文本,GPT-2 是个混乱的玩具,GPT-2.5 被直接跳过升级到 GPT-3(后者更加有趣),GPT-3.5 跨越了产品化门槛并引发 OpenAI 的"ChatGPT 时刻",而 GPT-4 虽感知更好但提升微妙。记得在黑客马拉松中,我们曾费力寻找能体现 GPT-4 明显优于 3.5 的具体提示案例——这类案例确实存在,但明确且具说服力的"完胜"示例却难以寻觅。这种提升如同潮水托起所有船只:措辞更富创意,提示的细微理解更精准,类比更合理,幽默感更佳,冷门领域知识更完善,幻觉频率略降。整体氛围提升约 20%。带着这种预期,我测试了已接触数日的 GPT-4.5(其预训练算力是 GPT-4 的 10 倍),却仿佛重演两年前场景:所有方面都有提升,但这种进步依旧难以具体量化。尽管如此,作为通过简单预训练更大模型就能"免费"获得能力提升的又一次定性测量,这仍令人极度兴奋。 需特别说明,GPT-4.5 仅通过预训练、监督微调和 RLHF 训练,尚未成为推理型模型。因此在需要关键推理的领域(数学、编程等),本次发布并未推进模型能力。这些领域仍需基于旧版基础模型(如 GPT-4 级别)进行强化学习训练来培养思维能力。当前该领域标杆仍是完整版 o1 系统。预计 OpenAI 将在 GPT-4.5 基础上继续强化学习训练以提升推理能力。 但我们确实预期非重度推理任务会有改进——这些任务更多涉及情商(而非智商),受限于世界知识、创造力、类比能力、综合理解力和幽默感等维度。这正是我在氛围测试中最关注的部分。 关于OpenAI GPT-4.5 System Card的部分摘录 我们正式发布OpenAI GPT-4.5的研究预览版,这是目前规模最大、知识储备最丰富的模型。该模型基于GPT-4o构建,通过扩展预训练规模,其设计比专注STEM领域推理的模型更具通用性。==我们采用新型监督技术结合监督微调(SFT)和基于人类反馈的强化学习(RLHF)等传统方法进行训练,这些方法与GPT-4o的训练策略相似==。部署前进行的全面安全评估表明,相较于现有模型,其安全风险未见显著增加。 初期测试显示,与GPT-4.5的交互更加自然。凭借更广泛的知识库、更强的用户意图对齐能力以及提升的情感智能,该模型在写作、编程和解决实际问题等任务中表现优异,且==产生幻觉的概率更低==。我们以研究预览版形式发布GPT-4.5,旨在深入理解其优势与局限。我们持续探索其能力边界,并期待用户开发出超乎预期的应用场景。 本系统说明书遵循OpenAI安全流程和准备框架,详细阐述了GPT-4.5的构建训练过程、能力评估体系与安全强化措施。 2 模型数据与训练 推进无监督学习前沿 我们通过扩展两大范式提升AI能力:==无监督学习与思维链推理==。扩展思维链推理( Scaling chain-of-thought reasoning)使模型具备"先思考后应答"的能力,可处理复杂STEM问题或逻辑难题。而无监督学习范式的扩展( scaling unsupervised learning)则能提高世界模型的准确性,降低幻觉率,增强联想思维能力。==GPT-4.5正是我们在无监督学习范式扩展道路上的最新里程碑==。 新型对齐技术促进人机协作随着模型规模扩大及其解决问题的广度复杂度提升,增强模型对人类需求与意图的理解变得至关重要。针对GPT-4.5,我们开发了新型可扩展对齐技术,==可利用小模型衍生的数据训练更强大的模型==。这些技术显著提升了GPT-4.5的可控性、细微语义理解能力和自然对话水平。内部测试反馈显示,GPT-4.5具有温润、直觉化的交互特质。面对情感类诉求时,能精准把握提供建议、化解负面情绪或单纯倾听的时机。 ...

February 28, 2025 · 小茄墩

OpenAI:Competitive Programming with Large Reasoning Models

摘要 我们展示了应用于大语言模型(LLM)的强化学习能够显著提升在复杂编码和推理任务上的性能。此外,我们将两个通用推理模型——OpenAI o1 和 o3 的早期检查点——与一个特定领域的系统 o1-ioi 进行比较,后者使用为参加 2024 年国际信息学奥林匹克竞赛(IOI)而手工设计的推理策略。我们使用 o1-ioi 参加了 2024 年 IOI 的现场比赛,并使用手工制作的测试时策略,placed in the 49th percentile。在放宽比赛限制的条件下,o1-ioi 获得了金牌。然而,在评估像 o3 这样的后期模型时,我们发现 o3 在没有手工制作的特定领域策略或放宽限制的条件下获得了金牌。我们的研究结果表明,尽管像 o1-ioi 这样的专门流程产生了可靠的改进,但扩展的通用 o3 模型超越了这些结果,而无需依赖手工制作的推理启发式方法。值得注意的是,o3 在 2024 年 IOI 上获得了金牌,并在 [CodeForces]上获得了与精英人类竞争者相当的评分。总的来说,这些结果表明,扩展通用强化学习,而不是依赖于特定领域的技术,为在推理领域(如Competitive Programming)中实现最先进的 AI 提供了一条稳健的道路。 介绍 Competitive Programming被广泛认为是评估推理和编码能力的一个极具挑战性的基准。解决复杂的算法问题需要高级的计算思维和问题解决技能。此外,这些问题也是可以客观评分的,使其成为评估 AI 系统推理能力的理想试验平台。最近关于使用大语言模型进行程序合成的研究表明,即使是参数规模从 2.44 亿到 1370 亿的相对通用的模型,也可以从自然语言指令生成简短的 Python 脚本。重要的是,性能随着模型规模的增加呈对数线性增长,并且微调可以显著提高准确性。与此同时,Codex,一个早期以代码为中心的大语言模型,擅长 Python 程序生成,并为 GitHub Copilot 提供支持。进一步的进展来自 AlphaCode,它使用大规模代码生成和推理时的启发式方法来解决Competitive Programming任务,以及随后的 AlphaCode2,其改进使 AlphaCode 解决的问题数量几乎翻倍,并使其在 [CodeForces]平台上达到第 85 个百分位。在选择前 10 个提交的解决方案之前,两个 AlphaCode 系统都使用了大规模采样,每个问题最多生成一百万个候选解决方案,并采用手工设计的测试时策略。 自那以后,在利用强化学习来提高大语言模型(LLM)的推理能力方面取得了显著进展。这促使了大型推理模型(LRM)的出现:这些语言模型通过强化学习进行训练,以“推理”和“思考”延长的思维链。特别是,OpenAI 的 o1 及其即将发布的继任者 o3 使用思维链推理来处理复杂的任务,如数学和编码。 ...

February 12, 2025 · 小茄墩