刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
刚刚,openai 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
o3 是 o1 系列模型的继任者。这类模型的特点是让模型在回答问题之前花更多时间思考(推理),从而提高回答的准确率。不过,OpenAI 在命名上跳过了 o2。据 The Information 报道,这么做是为了避免版权问题,因为英国有家电信公司名叫 O2,可能引起混淆。Sam Altman 在今天下午的|直播|中证实了这一点。
事实上,从昨天开始,OpenAI 就已经开始预热这个模型。而且已经有开发者在网上找到了 OpenAI 网站上对 o3_min_safety_test 的引用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

也有人早早就想看看 o3 究竟有何真本事,能否匹敌谷歌昨天发布的 Gemini 2.0 Flash Thinking。

Tunee AI
新一代AI音乐智能体
1104
查看详情

现在,和传言的一样,o3 和 o3-mini 来了!遗憾的是,o3 系列模型并不会直接公开发布,而是会先进行安全测试。Sam Altman 也指出今天不是发布(launch),只是宣布(announce)。
Sam Altman 提到,他们计划在一月底左右推出 o3-mini,并在不久后推出完整的 o3 模型。o3:突破 ARC-AGI 基准,博士级问题求解能力首先,在 12 只圣诞青蛙聚集的圆桌前,ARC Prize Fundation 总裁 Greg Kamradt 参与了对 o3 模型的介绍。ARC Prize Fundation 是一个非营利组织,旨在「通过基准测试来成为实现 AGI 之路的北极星」。该组织的首个基准 ARC-AGI 已经提出了 5 年时间,但一直未被攻克。直到现在,Kamradt 宣布 o3 已经在该基准上达到了优良水平,成为首个突破 ARC-AGI 基准的 AI 模型。据介绍,o3 系列模型在 ARC-AGI 基准上的最低性能可达到 75.7%,而如果让其使用更多计算资源思考更长时间,o3 更是可以达到 87.5% 的水平。在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出,下图展示了一些例子。参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。Greg Kamradt 也顺势宣布开源了一个任务数据集:https://github.com/arcprizeorg/model_baseline
ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中写道,「(o3 系列模型)在高效率模式下取得的 75.7% 的分数符合 ARC-AGI-Pub 的预算规则(成本 报告中还写道,尽管每项任务的成本很高(o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元),但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。不过,报告也指出,ARC-AGI 并不是对 AGI 的严峻考验,通过 ARC-AGI 并不等于实现 AGI。「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」François Chollet 表示。 OpenAI o3 消耗数千美元,生成数百万个 token 也没能解决的问题。ARC Prize Fundation 总裁 Greg Kamradt 表示,明年还会与 OpenAI 一起开发下一代基准。不过,从早期数据点来看,即将推出的 ARC-AGI-2 基准测试仍将对 o3 构成重大挑战,即使在高计算量下,其得分也可能会降低到 30% 以下(而聪明人在不经过任何培训的情况下仍然能够得分超过 95%)。在报告中,François Chollet 还分析了为什么 o3 的分数可以提升那么多。他写道,「LLM 就像一个向量程序的存储库。当被提示时,它们会检索你的提示词映射到的程序,并在当前的输入上『执行』它。LLM 是一种通过被动接触人类生成的内容来存储和操作化数百万有用小程序的方法。」「只要有足够的合适训练数据,这种『记忆、检索、应用』的模式就能在任意任务上达到任意水平的技能,但它无法适应新情况或即时学习新技能(也就是说,这里并没有涉及到 fluid intelligence)。这一点在 LLM 在 ARC-AGI 上的表现中得到了体现,ARC-AGI 是专门设计用来衡量对新事物适应能力的基准测试 ——GPT-3 得分为 0,GPT-4 得分接近 0,GPT-4o 达到了 5%。将这些模型扩展到可能的极限,并没有使 ARC-AGI 的得分接近几年前基本的暴力枚举就能达到的水平(高达 50%)。」「要适应新事物,你需要两样东西。首先,你需要知识 —— 一套可复用的函数或程序库。LLM 在这方面拥有的资源绰绰有余。其次,你需要在面对新任务时,能够将这些函数重新组合成一个全新的程序 —— 一个能够模拟当前任务的程序。这就是程序合成。LLM 长期以来缺乏这一特性。而 o 系列模型解决了这个问题。」「关于 o3 模型的具体工作原理,目前我们只能进行一些推测。o3 模型的核心机制似乎是在 token 空间内进行自然语言程序搜索和执行 —— 在测试时,模型会在可能的思维链空间中搜索,这些思维链描述了解决任务所需的步骤,这种方式可能与 AlphaZero 风格的蒙特卡洛树搜索(Monte-Carlo tree search)颇有相似之处。在 o3 的情况下,搜索可能由某种评估模型引导进行。值得注意的是,DeepMind 的 Demis Hassabis 在 2025 年 6 月的一次采访中暗示,DeepMind 一直在研究这一概念 —— 这项工作已经酝酿了很长时间。」详细分析参见:https://arcprize.org/blog/oai-o3-pub-breakthrough除了解决 ARC-AGI 这样的「IQ」 问题,o3 的编码能力也比之前的 o1 系列明显更胜一筹。在 SWE-bench Verified 基准上,o3 的准确率约为 71.7%,比 o1 模型高出 20% 以上。在 Competition Code 中,o3 获得了难以置信 2727 Elo 得分,而 o1 仅为 1891。此外,o3 在竞赛数学(Competition Math )上的准确率达到 96.7%,在 GPQA Diamond (该基准衡量模型在博士级科学问题上的表现)上的准确率达到 87.7%,比之前的 o1 表现(78%)高出近 10%。总结来看,o3 在这两项基准测试上都达到了最佳表现。o3 在 OpenAI 研究人员认为最严格的基准之一(EpochAI Frontier Math)上的表现如下表所示。该数据集由新颖的、未发表的以及非常难、极其难的问题组成。OpenAI 高级研究副总裁 Mark Chen 特别强调了,即使是专业数学家也需要几个小时甚至几天才能解决里面的问题之一。而今天,所有产品在这个基准上的准确率都低于 2%,o3 的准确率可以超过 25%。o3 mini 是一个更经济高效的 o3 版本,专注在提升推理速度、降低推理成本的同时兼顾模型性能。 介绍 o3-mini 的是参与训练的 OpenAI 研究者 Hongyu Ren与 o1 相比,o3-mini 在 Codeforces 上的性能具有显著的成本效益,这使其成为一个非常适合用来编程的模型。在数学问题上,o3-mini (low) 实现了与 gpt-4o 相当的低延迟。o3-mini 上所有的 API 特性以及相应的能力表现如下: Hongyu Ren 现场演示了几个示例。首先,针对 o3-mini (high),任务是使用 Python 语言编写一个本地服务器,其有一个简易的用户 UI,同时可以将用户给出的文本消息通过 API 传输给 o3-mini 的 medium 选项,然后获取得到的代码,将其保存到桌面的一个临时文件中,然后在一个新的 Python 终端中执行该文件。接着,Hongyu Ren 直接将其复制到了一个 server.py 文件中,然后直接运行了它。之后,他尝试了使用这个服务器:print openai 并随机给出一个数,简单任务,当然很成功。接下来他们上了点难度:在相当困难的 GPQA Diamond 数据集(这是一个博士水平的科学问题基准)上,生成一个代码来评估 o3-mini 的 low 模式,需要下载 https://openaipublic.blob.core.windows.net/simple-evals/gpga_diamond.csv最后,使用前面编写的 UI 界面,o3-mini 用了一定时间完成了这个任务,最终得到 low 模式下的 o3-mini 在 GPQA Diamond 数据集上的准确度为 61.62%。也就是说,他们成功让模型编写了一个测试该模型自身的脚本。Mark Chen 打趣地表示明年要让 AI 演示一下自我提升,但这个说法似乎不够 PR,让 Sam Altman 赶忙说了一句:「Maybe not.」另外,他们也给出了在 GPQA Diamond 数据集上的更多测试结果。可以看到,o3-mini (low) 的结果与上面演示示例得到的结果基本一致,而 o3 满血版更是可以得到 87.7 的高准确度分数。Mark Chen 表示,OpenAI 已经做了大量内部安全测试,而现在他们正在推进外部安全测试。从即日起,想要参与的测试者可以申请测试 o3-mini,至于 o3,就连测试员也还得继续等待。早期访问申请现已在 OpenAI 网站上开放,并将于 2025 年 1 月 10 日关闭。申请地址:https://openai.com/index/early-access-for-safety-testing/申请者必须填写一份在线表格,表格中会要求他们提供各种不同的信息,包括之前发表的论文链接及其在 Github 上的代码库,并选择他们希望测试的模型(o3 或 o3-mini)以及计划使用它们做什么。选定的研究人员将被授予访问 o3 和 o3-mini 的权限,以探索它们的能力并为安全评估做出贡献,不过 OpenAI 的表格提示称,o3 将在几周内无法使用。OpenAI 表示他们将滚动审核申请,并立即开始选拔申请人。最后,Mark Chen 也简单介绍了他们的一种新的安全评估方法:deliberative alignment,即审议式对齐。这是一种直接教授模型安全规范的新范式,并可训练模型在回答之前明确回忆规范并准确地执行推理。他们使用了这种方法来对齐 OpenAI 的 o 系列模型 ,并实现了对 OpenAI 安全政策的高度精确遵守,并且这个过程无需人工编写的思路或答案。
- 论文标题:Deliberative Alignment: Reasoning Enables Safer Language Models
- 论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122025.pdf
所以,总结起来,12 天发布的最后一天,OpenAI 真正发布出来的东西只有一篇论文,更多是兑现期票。另外,我们还是不知道 o3 是否能解答最难的高考数学题,但至少从 OpenAI 的描述来看,答案应该是乐观的。对于 OpenAI 的这最后一天发布和 o3 模型,你有什么看法?以上就是刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元的详细内容,更多请关注其它相关文章!
# openai
# o3-mini
# python
# git
# 产业
# 并在
# seo搜索adc
# 将其
# 达到了
# 周口整站营销推广外包
# 网站性能监测与优化袁菲
# 同城的泉州seo公司
# 西藏seo推广必选
# 网站推广员需要业绩么
# 盘县营销网络推广招聘
# 铁岭网站建设流程有哪些
# 奎屯网站优化
# 怎样给网站做优化广告
# 模式下
# 在这
# 就能
# 这一
# 是一个
# 的是
# 数千
# gemini
# ai
# qq
# access
# 谷歌
# windows
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
马斯克发推讽刺人工智能:机器学习的本质就是统计
用AI技术点亮老照片:Deep Nostalgia带给照片新生动感
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广
AI与5G的强强联合:唤醒数字时代的无尽潜能
Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平
原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人
尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元
GPT-4是如何工作的?哈佛教授亲自讲授
Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容
微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测
鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?
Nature封面:量子计算机离实际应用还有两年
苹果2万5的AR遭遇砍单95%:不及预期
DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
以计算机视觉技术为基础的库存管理如何改革零售行业
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
国网辉南供电:无人机空中巡检 全力护航端午佳节
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
构建数字文旅新高地!洛阳涧西区开启元宇宙时代
为什么很多人对纽约《人工智能招聘法》感到生气?
2025世界人工智能大会成功召开
开创全新虚拟现实体验的Pimax Crystal VR头显
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品
AI立法迫在眉睫,如何看对行业影响?
学而思推出AI第一课:基于自研大模型的AIGC课程
人工智能如何改变未来语言?
朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了
AI会帮我们把活干完吗?
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
DeepMind推惊世排序算法,C++库忙更新!
北京市元宇宙产业创新中心筹建工作正式启动
无人机自主巡检为高海拔输电线路运维添“新彩”
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
埃森哲俞毅:AI时代我们需要新的“摩尔定律”
华为即将推出HarmonyOS 4,再度领先行业的AI技术
AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲
工业机器人及非标自动化设备集成服务提供商
人工智能助力林草行业高质量发展
重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖
优化J*a与MySQL合作:分享批处理操作的技巧
“具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?
探索人工智能和物联网的动态融合
中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平
2024-12-22