

OpenAI近日推出了一项全新的基准测试GDPval,旨在衡量其AI模型在实际经济价值创造任务中与各行业专业人士的表现对比。这一测试是OpenAI探索通用人工智能(AGI)发展路径中的关键一步,重点评估AI系统在真实职业场景中替代或辅助人类工作的潜力。
根据测试结果,OpenAI最新的GPT-5模型以及Anthropic公司推出的Claude Opus 4.1,在多项任务中已接近甚至达到行业专家水平。尽管如此,OpenAI强调,当前版本的测试仍处于初步阶段,并不能全面反映现实工作中复杂的互动与决策过程。
GDPval聚焦于美国GDP贡献最大的九个行业,涵盖医疗、金融、制造业和公共管理等领域,共涉及44种职业,如软件工程师、护士、记者等。测试的核心方法是让资深从业者对AI生成的内容与同行完成的工作进行盲评,判断哪一方质量更优。
以一项典型任务为例:投资银行专家被要求针对“最后一公里配送”领域撰写竞争格局分析报告,随后该报告将与AI生成的版本进行对比评分。最终,OpenAI计算出AI模型在所有职业任务中“胜出或持平”人类专家的比例。
数据显示,高算力版本的GPT-5(GPT-5-high)在40.6%的任务中表现不逊于人类专家;而Claude Opus 4.1则在49%的任务中达到同等或更高水准,暂时领先于GPT-5。对此,OpenAI分析认为,Claude得分较高部分归因于其输出内容更具视觉吸引力,例如图表设计更清晰美观,而非整体推理能力更强。
美图云修
商业级AI影像处理工具
50
查看详情
值得注意的是,目前GDPval-v0仅评估了“撰写专业报告”这一单一工作形式,而现实中大多数岗位包含沟通、协作、应急处理等多维度任务。因此,该测试尚未覆盖完整的职业职能。OpenAI表示,未来计划扩展测试范围,纳入更多交互式任务和实际工作流程,以提升评估的全面性与准确性。
尽管存在局限,OpenAI仍视GDPval为衡量AI进步的重要指标。公司首席经济学家Aaron Chatterji指出,测试结果表明AI已经开始在某些专业领域承担实质性工作,帮助人类提升效率。“当模型能在特定任务上表现出色时,人们就可以把重复性工作交给AI,转而专注于更具创造性或战略性的职责。”他说。
OpenAI评估团队负责人Tejal Patwardhan也表达了乐观态度。她提到,约15个月前发布的GPT-4o在同类测试中仅获得13.7%的胜率或持平率,而GPT-5的表现已接近其三倍。“这种增长速度令人振奋,我们有理由相信这一趋势将持续下去。”
以上就是OpenAI 最新测试:GPT-5 与 Claude 在部分工作中可媲美人类专家的详细内容,更多请关注其它相关文章!
# 园区
# 怀柔区公司网站建设
# 白山百度推广seo
# 孝感展示型网站建设
# 拉萨市网站建设
# 多图网站性能优化
# 镇江市同城网站优化
# 信用中国网站建设需要
# 互联网推广营销的工具有
# 安宁网站优化推广
# seo教程怎么下载
# 多维
# 开源
# 更具
# 人工智能
# 美国
# 软件工程
# 微软
# 帮你
# 美图
# 这一
# claude
# 金融
# gpt-5
# gpt-4
# gpt
# openai
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、四倍上下文都来了
马斯克嘲讽人工智能:机器学习本质就是统计学
人工智能快速发展 打开就业新空间
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
陈根:AI工具为游戏软件实时3D内容助力
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
美图第二届影像节发布七款AI影像创作工具
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验
码刻 | 48小时Hackathon,源码见证新生代AI创新的发生
Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话
微软bing聊天推出AI购物工具 可进行比价并查看历史最低价
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障
上海发布大模型政策 打造AI“模”都
人工智能改变网络安全和用户体验的三种方式
提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用
世界水下机器人大赛:9国青年携手逐梦深蓝
彭博社:苹果Vision Pro曾测试VR手柄追踪方案
昌吉市利用无人机实现全天候河道动态巡检
建立元宇宙产业联盟:移动、咪咕、华为、小米等加入
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
Adobe旗下Illustrator引入生成式AI工具Firefly
抢占新赛道 加快机器人产业集聚发展
生成式AI与云结合,机遇与挑战并存
两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平
优化系统韧性:故障恢复与监控在RabbitMQ中的应用
五项人工智能尚未能够实现的任务
人工智能如何与智能家居集成
人工智能行业急缺人 AI人才年薪能达近42万元
XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏
AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场
美妆行业在AI时代蓬勃发展
人工智能的变革之路:通过OpenAI的GPT-4漫游
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
写出优质文章的妙招:利用"稿见AI助手"的实用指南
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键
亚马逊CEO:人工智能将成为公司未来战略的重中之重
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT
AI大模型,将为智慧城市带来哪些新变化?
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好
iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了
2025-09-26
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。