OpenAI发布了第一批Agent构建模块,旨在帮助开发者和企业构建实用且可靠的 AI 智能体。过去一年,OpenAI推出了一系列新的模型功能,例如高级推理、多模态交互以及最新的安全技术,这些都为OpenAI的模型奠定了基础,使其能够处理构建 AI 智能体 所需的复杂、多步骤任务。 然而,客户反馈表明,将这些功能转化为可用于生产环境的 AI 智能体 极具挑战性,通常需要大量的提示词迭代和自定义编排逻辑,且缺乏足够的可见性或内置支持。 为了解决这些难题,OpenAI推出了一套全新的 API 和工具,专门用于简化 AI 智能体 应用的开发:

  • 全新的 Responses API ,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力,旨在帮助开发者构建 AI 智能体

  • 内置工具,包括网页搜索 、文件搜索 和计算机使用

  • 全新的 Agents SDK ,用于编排单 AI 智能体 和多 AI 智能体 工作流程

  • 集成的可观测性工具 ,用于追踪和检查 AI 智能体 工作流程的执行情况

这些新工具简化了核心 AI 智能体逻辑、编排和交互,从而显著降低了开发者构建 AI 智能体的入门门槛。 在接下来的几周和几个月里,OpenAI计划发布更多工具和功能,以进一步简化和加速在OpenAI平台上构建 AI 智能体应用。

隆重推出 Responses API

Responses API 是OpenAI用于构建 AI 智能体的全新 API 原语,它利用 OpenAI 的内置工具,兼具 Chat Completions 的简洁性和 Assistants API 的工具使用能力。 随着模型能力的不断发展,OpenAI相信 Responses API 将为开发者构建 AI 智能体应用提供更灵活的基础。 通过单个 Responses API 调用,开发者将能够使用多种工具和模型交互来解决日益复杂的任务。

首先,Responses API 将支持新的内置工具,例如网络搜索、文件搜索和计算机使用。 这些工具旨在协同工作,将模型连接到现实世界,使其在完成任务时更加有效。 此外,它还带来了一些可用性改进,包括统一的基于项目的设计、更简单的多态性、直观的流式事件以及 SDK 助手(如 response.output_text),以便轻松访问模型的文本输出。

Responses API 专为希望轻松地将 OpenAI 模型和内置工具集成到其应用程序中的开发人员而设计,无需集成多个 API 或外部供应商的复杂性。该 API 还使开发人员可以更轻松地将数据存储在 OpenAI 上,以便他们可以使用诸如跟踪和评估之类的功能来评估 AI 智能体性能。请注意,即使数据存储在 OpenAI 上,默认情况下,OpenAI也不会使用业务数据来训练OpenAI的模型。该 API 从今天开始向所有开发人员开放,并且不单独收费——Token 和工具按OpenAI定价页面上指定的标准费率计费。

这对现有 API 意味着什么

  • Chat Completions API : Chat Completions 仍然是OpenAI应用最广泛的 API,OpenAI完全致力于通过新的模型和功能来支持它。不需要内置工具的开发者可以放心地继续使用 Chat Completions。只要新模型的功能不依赖于内置工具或多个模型调用,OpenAI将继续向 Chat Completions 发布新模型。但是,Responses API 是 Chat Completions 的超集 ,具有同样出色的性能,因此对于新的集成,OpenAI建议从 Responses API 开始。

  • Assistants API : 根据 Assistants API 测试版的开发者反馈,OpenAI已将关键改进纳入 Responses API,使其更灵活、更快且更易于使用。OpenAI正在努力实现 Assistants API 和 Responses API 之间的完整功能对等,包括支持类似 Assistant 和 Thread 的对象,以及 Code Interpreter 工具。一旦完成,OpenAI计划正式宣布弃用 Assistants API,目标是在 2026 年年中停止使用。弃用后,OpenAI将提供从 Assistants API 到 Responses API 的明确迁移指南,使开发者能够保留所有数据并迁移其应用程序。在OpenAI正式宣布弃用之前,OpenAI将继续向 Assistants API 提供新模型。Responses API 代表了在 OpenAI 上构建 AI 智能体的未来方向。

Responses API 中的内置工具 网络搜索

第一个工具:联网搜索工具(web search tool)。

通过该工具,模型能够访问互联网信息,从而生成基于实时准确信息的回答。该工具正是驱动ChatGPT搜索功能的核心组件。

其底层运行着一个经过精细调校的专用模型

Glx9NuCbkAALQCR

该工具基于专为网络数据检索优化的GPT-4o/mini架构,擅长处理网络抓取数据、精准定位相关信息并生成引文标注。

在SimpleQA基准测试中,GPT-4o搜索预览功能以90%的准确率刷新纪录,这一成绩堪称业界顶尖水平(SoTA)!

Glx9OwybAAAzA_f

第二个工具称为文件搜索工具。

这对于与AI 智能体相关的检索增强生成(RAG)用例非常实用。

它现在支持元数据过滤和直接搜索接口功能,使您能够直接检索您的向量数据库。

Glx9P8rXEAAuwgf

第三个工具是计算机使用工具

这类似于通过API提供的Operator(操作员)功能。

它允许你控制你所操作的计算机。这配备了Operator使用的计算机使用模型。

Glx9Q7fakAAIOMG

这款计算机工具在多个基准测试中达到了最先进水平

Glx9SBhaIAAguIa

AI Agent SDK

除了构建 AI 智能体的核心逻辑,并赋予它们访问工具的权限以使其发挥作用之外,开发者还需要编排 AI 智能体工作流程。OpenAI新的开源 AI 智能体 SDK 简化了多 AI 智能体工作流程的编排,并提供了相对于 Swarm的重大改进。Swarm 是OpenAI去年发布的一个实验性 SDK,已被开发者社区广泛采用,并已成功被多个客户部署。改进包括:

  • AI 智能体:易于配置的 大语言模型,具有清晰的指令和内置工具。

  • 移交:在各个 AI 智能体之间智能转移控制权。

  • 防护栏:可配置的安全检查,用于输入和输出验证。

  • 追踪与可观测性:可视化 AI 智能体执行轨迹,以调试和优化性能。

Agents SDK 适用于各种现实应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售线索挖掘。例如,Coinbase 使用 Agents SDK 快速完成了 AgentKit 的原型设计和部署。

Agents SDK 与 Responses API 和 Chat Completions API 协同工作。该 SDK 也将与其他供应商的模型一起工作,只要它们提供 Chat Completions 风格的 API 端点。开发者可以立即将其集成到他们的 Python 代码库中,Node.js 支持即将推出。在OpenAI的文档中了解更多信息。在设计 Agents SDK 时,OpenAI的团队受到了社区中其他人的出色工作的启发,包括 Pydantic、Griffe和 MkDocs。OpenAI致力于继续将 Agents SDK 构建为一个开源框架,以便社区中的其他人可以扩展OpenAI的方法。

下一步是什么:构建 AI 智能体的平台

OpenAI相信,AI 智能体很快将成为劳动力的组成部分,显著提高各行各业的生产力。随着公司越来越多地寻求利用 AI 来完成复杂的任务,OpenAI致力于提供构建模块,使开发人员和企业能够有效地创建能够交付实际影响的自主系统。

通过今天的发布,OpenAI推出了首批构建模块,旨在赋能开发者和企业,使其能够更轻松地构建、部署和扩展可靠、高性能的 AI 智能体。 随着模型能力日益增强,并逐渐具备智能体的特性,OpenAI将继续加大投入,深化 API 之间的集成,并推出新的工具,以助力在生产环境中部署、评估和优化智能体。 OpenAI的目标是为开发者提供无缝的平台体验,以便构建能够协助各行各业处理各种任务的智能体。 OpenAI非常期待看到开发者们接下来的创新成果。