OpenAI 发布其最先进的推理能力最强的模型 o3 和 o4-mini
不出所料,OpenAI 今天发布了最新的推理模型 o3 和 o4-mini,它们在多个人工智能基准测试中取得了最先进的 (SOTA) 结果。这些推理模型还首次可以访问外部工具,包括网页浏览、Python 解释器等。
OpenAI 强调,这些新模型经过训练,能够推理出何时以及如何使用工具,从而以正确的输出格式生成详细的响应。凭借最先进的推理能力和全面的工具访问能力,用户可以期待得到比以往任何 OpenAI 模型更好的查询回复。
OpenAI o3 是该公司最强大的推理模型,在 Codeforces、SWE-bench 和 MMMU 上设定了新的 SOTA 基准。由于它支持图片上传,用户可以利用它分析图片、图表和图形。据外部专家称,在复杂的实际任务中,o3 的主要错误比 OpenAI o1 少 20%。
OpenAI o4-mini 是一个较小的模型,专为快速、经济高效的推理而设计。尽管体积较小,但它在数学、编码和视觉任务中的表现却与 o3 不相上下。例如,在 AIME 2025 中,o4-mini 与 Python 解释器结合使用的得分率为 99.5%。由于 o4-mini 比 o3 更高效,用户可以期待更高的使用限制,使其成为大容量推理任务的理想选择。
OpenAI 声称,这两个新模型可以参考记忆和过去的对话,因此会让人感觉更自然、更会说话。在引擎盖下,OpenAI 使用大规模强化学习来提高性能,并通过强化学习训练这两个模型使用工具。
在效率方面,对于大多数真实世界的使用案例,新的 o3 和 o4-mini 模型将比 o1 和 o3-mini 分别更智能、更具成本效益。在安全性方面,OpenAI 报告称,o3 和 o4-mini 在其安全框架的所有三个类别中都低于 “高” 阈值。
除了这些模型之外,OpenAI 还宣布了一项名为 Codex CLI 的新实验--一种轻量级编码代理,供开发人员直接在 PC 上使用。此外,该公司还启动了一项价值 100 万美元的计划,以支持利用 Codex CLI 和 OpenAI 模型的项目。
新的 o4-mini、o4-mini-high 和 o3 型号现在可通过型号选择器提供给 ChatGPT Plus、Pro 和 Team 用户。这些型号取代了 o1、o3-mini 和 o3-mini-high。ChatGPT 企业版和教育版用户将在下周获得访问权限。ChatGPT 免费用户可以在文本编辑器中选择 “Think”,试用 o4-mini。OpenAI 计划在几周内发布具有完整工具支持的 OpenAI o3-pro。
o3 模型的价格为每百万输入代币 10 美元,每百万输出代币 40 美元。o4-mini 模型的定价与 o3-mini 相同:每百万输入代币 1.10 美元,每百万输出代币 4.40 美元。
开发人员现在可以通过 Chat Completions API 和 Responses API 访问这些新模型。响应 API 现在支持推理摘要,并能在函数调用中保留推理令牌,以提高性能。很快,OpenAI 将在模型的推理过程中添加对网络搜索、文件搜索和代码解释器等第一方工具的支持。
评论功能已关闭