谷歌发布 Gemini 2.5 Pro 深度思考:超越了 OpenAI 的 o3 和 o4 模型
在 2025 年谷歌 I/O 大会上,谷歌今天宣布了 Gemini 2.5 系列模型的几项更新。其中最大的亮点是 “Gemini 2.5 Pro 深度思考” 模式,据说它在流行的人工智能基准测试中击败了 OpenAI 最新的 o3 和 o4 系列机型。
由于 Gemini 2.5 Pro 型号在本月初刚刚进行了重大更新,因此谷歌并未宣布对其进行任何更新。不过,名为 “深度思考”(Deep Think)的新增强推理模式将把 2.5 Pro 机型的性能推向更高水平。深度思考将使用新的研究技术,在做出反应之前考虑多种假设。
谷歌分享了 2.5 Pro Deep Think 的以下三个基准:
- 在 2025 USAMO 数学基准测试中获得 49.4%的分数。
- 在 LiveCodeBench 竞赛级编码基准测试中取得 80.4% 的成绩。
- MMMU 多模式推理基准测试成绩 84.0%。
以上所有分数都是新的 SOTA 分数,甚至超过了 OpenAI 最新的 o3 和 o4 系列机型。2.5 Pro Deep Think 目前将通过 Gemini API 提供给值得信赖的测试者。
苹果公司首次推出了快速安全响应更新
谷歌还发布了 Gemini 2.5 Flash 的最新更新,这是其低成本机型。这款新机型在各项基准测试中的表现都优于前一版本,目前可在面向开发者的 Google AI Studio、面向企业的 Vertex AI 以及 Gemini 应用程序中进行预览。谷歌将于 6 月份发布 2.5 Flash 的生产版本。
除模型更新外,谷歌还宣布了对 Gemini 开发者体验的以下改进:
- 新的 Live API 预览版,支持多个说话人,通过本机音频输出实现两种语音的文本转语音等。
- 原生 SDK 支持 Gemini API 中的模型上下文协议 (MCP) 定义,以便更轻松地与开源工具集成。
- 考虑预算的 Gemini 2.5 Pro 将在未来几周内普遍可供稳定生产使用。
- Project Mariner 的计算机使用功能即将出现在 Gemini API 和 Vertex AI 中。
- 2.5 Pro 和 Flash 现在将在 Gemini API 和 Vertex AI 中包含思想总结。
您可以在这里了解有关 Gemini 2.5 型号更新的更多信息:
https://deepmind.google/models/gemini/pro/
最强X3D神U来了!AMD锐龙9 9950X3D将于2025年1月发布:144MB缓存一骑绝尘
暂无标签
评论功能已关闭