中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国科大、科大讯飞团队开发chemeval:化学大模型多层次多维度能力评估的新基准

编辑 | ScienceAI

近日,认知智能全国重点实验室、中国科学技术大学陈恩红教授团队,科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》,介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval

中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准

论文链接: https://arxiv.org/pdf/2409.13989

项目链接: https://github.com/USTC-StarTeam/ChemEval

研究动机

自然语言处理(NLP)领域中,大语言模型(LLMs)显著提升了语言理解和生成能力。随着 LLMs 在垂直领域的广泛应用,探索其在科学研究中的应用成为热点,尤其是在化学领域。

化学涉及复杂的分子结构、性质和反应机制,对 LLMs 提出挑战和机遇。

LLMs 处理文本数据的优势,在化学领域面临独特挑战:

  1. 化学专业术语众多
  2. 分子间相互作用复杂
  3. 需深刻理解高级化学知识

这些挑战凸显了系统评估 LLMs 化学领域能力的必要性,以衡量其实际能力和识别应用领域。

现有的基准测试(如 MMLU)涵盖广泛领域,但评估任务主要限于基础概念问答,缺少对深层次能力的评估。而 ChemLLMbench 等基准专注于化学任务,但评估未涉及分子理解、化学知识推演等高阶能力。

因此,本文构建了 ChemEval,一个针对化学领域的多维度能力评估体系

ChemEval 设计基于一个核心理念:全面评估 LLMs 在化学领域的基础知识掌握高级概念理解应用能力。

通过一系列精心设计的多级任务,ChemEval 评估 LLMs 在化学基础问题到高级挑战(分子结构理解、化学反应预测、科学知识推断等)方面的能力。

ChemEval 不仅为化学领域 LLMs 应用提供评估见解,还为未来模型优化和应用开辟新道路。

中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准

图 1:ChemEval 概览

基准介绍和构建

本研究建立了一个名为 ChemEval 的基准,致力于评估化学领域内大语言模型 (LLM) 的能力,弥补当前化学领域缺乏多层级、多维度任务体系评估基准的空白。

该基准包括化学领域能力的四个等级,每个等级涉及多个化学评估维度,确保对 LLM 的全面评估。ChemEval 通过一系列精心设计的任务来衡量大模型理解和推断化学知识的能力。

高等知识问答

「高等知识问答」维度旨在评估模型对核心化学概念和原理的理解能力。包括客观问答和主观问答两个维度,共 5 个不同的任务,评估模型在化学术语、定量分析等领域的洞察力。

其中,客观问答通过多项选择、填空题等任务评估模型的基本知识掌握程度。此外,主观问答要求模型提供详细的解决方案或理由,反映其对化学原理的理解和应用能力。

文献理解

「文献理解」维度用于评估模型从科学文献中提取关键信息和归纳总结的能力,包括信息抽取和归纳生成两个维度,共 15 项任务。

信息抽取任务涉及识别化学实体、反应底物和催化类型等,确保模型能够定位和抽取文本中的化学信息。归纳生成任务要求模型根据现有数据和知识生成总结性的内容,如文献摘要和反应类型识别归纳等。

分子理解

「分子理解」维度考察模型在分子水平上的理解和生成能力。包括分子名称生成、分子名称翻译、分子性质预测和分子描述四个维度,共 9 项任务。

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

分子名称生成任务评估模型生成有效化学结构表示的能力。分子名称翻译任务通过模型在不同格式之间转换分子名称,评估模型理解各种格式的分子名称以及互译的能力。分子特性预测任务关注分子的物理、化学等属性的知识掌握能力。分子描述任务则评估模型从分子结构中预测物理化学性质的能力。

科学知识推演

「科学知识推演」维度重点评估模型在化学研究中的推理和创新能力,包括逆合成分析、反应条件推荐、反应结果预测和反应机制分析四个关键维度,共 13 项任务。逆合成分析任务评估模型合成路径的分析规划能力。

反应条件推荐任务用于评估特定化学反应条件推荐的准确性。反应结果预测任务旨在评估模型预测化学反应结果的能力。反应机制分析任务考察模型从反应物转化为产物的步骤分析能力。

综上所述,ChemEval 通过精心设计的任务和数据集,覆盖了化学研究的多个层面。如图 1 所示,ChemEval 包含化学领域的 4 个关键层级,评估了 12 个维度的 LLM 能力,涵盖了 42 个独特的化学任务。

这些任务由开源数据和化学专家精心设计的数据构成,确保了任务的实用价值,并能有效评估 LLM 的能力。fenye图 2:任务层级及任务类型

数据集构建过程

这项研究对大模型进行了全面的评估工作,其中数据来源主要包括开源数据和领域专家数据。

  1. 开源数据通过关键词检索并下载相关的开源数据集,从中筛选化学评估方向的下游任务,并下载这些任务的官方数据集。
  2. 同时,领域专家从科学文献、专业教材以及化学实验数据中手动构建了部分任务类型对应的问答对。

在数据处理阶段,需要对化学领域原始数据进行了仔细筛选和过滤,以适应多样的任务需求。

对于高级知识问答,主要从本科和研究生教材及教辅材料中编制了广泛的问答对,涵盖有机化学、无机化学、材料化学等七个类别,确保化学概念和原理的多样性。

对于文献理解,从科学文献中提取相关片段和问题,结合任务特定答案创建测试集。分子理解和科学知识推演则结合开放数据集与实验室专有数据,设计测试集以满足下游任务的评估需求。

实验结果

在 ChemEval 的基准测试中,一共评估了 12 个主流的 LLMs,包括 8 个通用模型和 4 个化学领域模型。

实验结果表明,尽管像 GPT-4 和 Claude-3.5 这样的通用 LLMs 在文献理解和指令遵循方面表现出色,但它们在需要高级化学知识的任务上表现不佳。

相反,化学的领域 LLMs 表现出更强的化学能力,但它们的文献理解能力有所下降。

中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准

图 3:主要实验结果。

结论:

  1. 化学领域模型在需要深层化学知识的任务上优于通用模型。
  2. 大语言模型难以在没有严格格式化约束的情况下一致地生成准确的化学公式。
  3. 化学领域模型在遵循指令方面的能力明显低于通用模型。

详情:

任务设计、评估指标和子任务实验结果参见 ChemEval 原文。

意义:

这项工作提供了以下见解:

  • LLMs 在化学研究中的应用
  • LLMs 在化学领域的优化和应用

团队介绍:

认知智能全国重点实验室

  • 主页:https://cogskl.iflytek.com/
  • 由科大讯飞和中国科学技术大学联合共建
  • 国家级科研平台,2025 年入选全国重点实验室

科大讯飞研究院

  • 成立于 2005 年
  • 专注于人工智能核心技术研究
  • 在智能语音、计算机视觉、自然语言处理等领域取得领先成果

以上就是中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准的详细内容,更多请关注其它相关文章!


# 多个  # 诸暨网站建设报价  # 白城短视频营销推广招聘  # 动易网站建设视频  # 叶县网站优化电话  # 乐从南海网站建设  # 泰安商务网站建设费用  # 营销方式营销推广模式  # 荆州网站建设工作  # 咸宁市网站建设空间优化  # 建设网站配色笔记  # 知识问答  # 理论  # 自然语言  # 科学知识  # 分子结构  # 开源  # 中国  # 科大  # 关键词  # 多维  # claude  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 无人机自主巡检为高海拔输电线路运维添“新彩”  联想举办2025创新开放日,展出260余项算力及AI产品技术  国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用  “世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  官宣!爱康AI未来之夜三大亮点提前剧透!  苹果CEO库克:持续研究生成式人工智能技术  五个IntelliJ IDEA插件,高效编写代码  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  谷歌内部正在测试代号为Genesis的AI新闻写作产品  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  一文读懂自动驾驶的激光雷达与视觉融合感知  DreamAvatar数字人在哪里下载  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  看似低调,实则稳健:字节在AI路上会遇到什么?  静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  创新全场景清洁方案!海尔商用机器人首发上市  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感  机智云AI离线语音识别模组,让家电变得更加智能便捷  苹果式 AI 哲学:不着一字,处处落子  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  OpenAI夺冠:人工智能为云计算带来新变革  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  一文看懂基础模型的定义和工作原理  7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  V社悄悄封禁使用AI生成美术素材的游戏  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群  实现人工智能和物联网的协同运作  WHEE安装教程  美图设计室2.0新增哪些功能  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  无人机巡检方案是什么,该如何选择适合的巡检方案  中国最强AI研究院的大模型为何迟到了  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗 

 2024-10-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.