OpenAI 重磅发布 o3 今日凌晨,OpenAI 完成了连续 1
发布日期:2024-12-21 05:21 点击次数:169
OpenAI 重磅发布 o3
今日凌晨,OpenAI 完成了连续 12 天发布会的收官之作,重磅推出 o3 系列模型。
此次发布的的 o3 系列模型是 o1 的迭代版本,考虑到可能与英国电信运营商 O2 存在版权或商标冲突,OpenAI 决定跳过「o2」命名,直接采用「o3」。
o3 系列包含两款重磅模型:
· OpenAI o3:旗舰版本,具备强大的性能表现
· OpenAI o3 mini:轻量级模型,但能更快,更便宜,主打性价比
据官方介绍,o3 在多领域迎来全面提升:
· 在 SweepBench Verified 基准测试中, o3 达到了约 71.7% 的准确率,直接将 o1 模型甩在身后整整 20% 之多。
· 编码领域,o1 在编程竞赛平台 Codeforces 上的得分为 1,891。而 o3 在开足马力,延长思考时间的情况下,得分可达 2,727。
· 在美国数学竞赛 AIME 2024 测试中,o3 以 90.67% 的准确率完全碾压了 o1 的 83.3%。
· 遇上衡量博士级科学问题解答能力的 GPQA Diamond 测试,o3 取得了 87.7% 的成绩,而 o1 仅为 78%。
· OpenAI 还引入了一个全新的数学测试 EpochAI Frontier Math。目前,所有现有模型在该测试上的准确率都不足 2%,而在高算力的长时间测试下,o3 却能取得超过 2,457 的分数。
· ARC-AGI 方面,o3 在低算力的配置下得分 75.7 分。当要求 o3 思考更长时间,并且提高算力,o3 在相同的隐藏保留集上得分 87.5%,远超大多数真人。
· o1 mini 的延续之作 o3 mini 也一同亮相。保留了 o1 mini 「具有很强的数学和编程能力,而且成本极低」的特征。
据官方介绍,o3 mini 支持低、中、高三种推理时间模式,用户可根据任务复杂度灵活调整模型的思考时间。从首批评估结果来看,在衡量编程能力的 Codeforces Elo 评分中,随着推理时间的增加,其 Elo 分数持续攀升,在中等推理时间下就已超越 o1 mini。