产品展示

OpenAI 重磅发布 o3 今日凌晨，OpenAI 完成了连续 1

发布日期：2024-12-21 05:21 点击次数：173

OpenAI 重磅发布 o3

今日凌晨，OpenAI 完成了连续 12 天发布会的收官之作，重磅推出 o3 系列模型。

此次发布的的 o3 系列模型是 o1 的迭代版本，考虑到可能与英国电信运营商 O2 存在版权或商标冲突，OpenAI 决定跳过「o2」命名，直接采用「o3」。

o3 系列包含两款重磅模型：

· OpenAI o3：旗舰版本，具备强大的性能表现

· OpenAI o3 mini：轻量级模型，但能更快，更便宜，主打性价比

据官方介绍，o3 在多领域迎来全面提升：

· 在 SweepBench Verified 基准测试中， o3 达到了约 71.7% 的准确率，直接将 o1 模型甩在身后整整 20% 之多。

· 编码领域，o1 在编程竞赛平台 Codeforces 上的得分为 1,891。而 o3 在开足马力，延长思考时间的情况下，得分可达 2,727。

· 在美国数学竞赛 AIME 2024 测试中，o3 以 90.67% 的准确率完全碾压了 o1 的 83.3%。

· 遇上衡量博士级科学问题解答能力的 GPQA Diamond 测试，o3 取得了 87.7% 的成绩，而 o1 仅为 78%。

· OpenAI 还引入了一个全新的数学测试 EpochAI Frontier Math。目前，所有现有模型在该测试上的准确率都不足 2%，而在高算力的长时间测试下，o3 却能取得超过 2,457 的分数。

· ARC-AGI 方面，o3 在低算力的配置下得分 75.7 分。当要求 o3 思考更长时间，并且提高算力，o3 在相同的隐藏保留集上得分 87.5%，远超大多数真人。

· o1 mini 的延续之作 o3 mini 也一同亮相。保留了 o1 mini 「具有很强的数学和编程能力，而且成本极低」的特征。

据官方介绍，o3 mini 支持低、中、高三种推理时间模式，用户可根据任务复杂度灵活调整模型的思考时间。从首批评估结果来看，在衡量编程能力的 Codeforces Elo 评分中，随着推理时间的增加，其 Elo 分数持续攀升，在中等推理时间下就已超越 o1 mini。