OpenAI 发布其最先进的推理能力最强的模型 o3 和 o4-mini

不出所料，OpenAI 今天发布了最新的推理模型 o3 和 o4-mini，它们在多个人工智能基准测试中取得了最先进的 (SOTA) 结果。这些推理模型还首次可以访问外部工具，包括网页浏览、Python 解释器等。

OpenAI 强调，这些新模型经过训练，能够推理出何时以及如何使用工具，从而以正确的输出格式生成详细的响应。凭借最先进的推理能力和全面的工具访问能力，用户可以期待得到比以往任何 OpenAI 模型更好的查询回复。

OpenAI o3 是该公司最强大的推理模型，在 Codeforces、SWE-bench 和 MMMU 上设定了新的 SOTA 基准。由于它支持图片上传，用户可以利用它分析图片、图表和图形。据外部专家称，在复杂的实际任务中，o3 的主要错误比 OpenAI o1 少 20%。

OpenAI o4-mini 是一个较小的模型，专为快速、经济高效的推理而设计。尽管体积较小，但它在数学、编码和视觉任务中的表现却与 o3 不相上下。例如，在 AIME 2025 中，o4-mini 与 Python 解释器结合使用的得分率为 99.5%。由于 o4-mini 比 o3 更高效，用户可以期待更高的使用限制，使其成为大容量推理任务的理想选择。

OpenAI 声称，这两个新模型可以参考记忆和过去的对话，因此会让人感觉更自然、更会说话。在引擎盖下，OpenAI 使用大规模强化学习来提高性能，并通过强化学习训练这两个模型使用工具。

Xbox Accessories 应用程序现新增触发器校准工具：用于修复小问题

在效率方面，对于大多数真实世界的使用案例，新的 o3 和 o4-mini 模型将比 o1 和 o3-mini 分别更智能、更具成本效益。在安全性方面，OpenAI 报告称，o3 和 o4-mini 在其安全框架的所有三个类别中都低于 “高” 阈值。

除了这些模型之外，OpenAI 还宣布了一项名为 Codex CLI 的新实验--一种轻量级编码代理，供开发人员直接在 PC 上使用。此外，该公司还启动了一项价值 100 万美元的计划，以支持利用 Codex CLI 和 OpenAI 模型的项目。

新的 o4-mini、o4-mini-high 和 o3 型号现在可通过型号选择器提供给 ChatGPT Plus、Pro 和 Team 用户。这些型号取代了 o1、o3-mini 和 o3-mini-high。ChatGPT 企业版和教育版用户将在下周获得访问权限。ChatGPT 免费用户可以在文本编辑器中选择 “Think”，试用 o4-mini。OpenAI 计划在几周内发布具有完整工具支持的 OpenAI o3-pro。

o3 模型的价格为每百万输入代币 10 美元，每百万输出代币 40 美元。o4-mini 模型的定价与 o3-mini 相同：每百万输入代币 1.10 美元，每百万输出代币 4.40 美元。

开发人员现在可以通过 Chat Completions API 和 Responses API 访问这些新模型。响应 API 现在支持推理摘要，并能在函数调用中保留推理令牌，以提高性能。很快，OpenAI 将在模型的推理过程中添加对网络搜索、文件搜索和代码解释器等第一方工具的支持。

网友称Windows 11记事本强迫登陆微软账户：除非你用AI

OpenAI 发布其最先进的推理能力最强的模型 o3 和 o4-mini

评论功能已关闭

目录