中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国科大、科大讯飞团队开发chemeval：化学大模型多层次多维度能力评估的新基准

编辑｜ ScienceAI

近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

论文链接: https://arxiv.org/pdf/2409.13989

项目链接: https://github.com/USTC-StarTeam/ChemEval

研究动机

自然语言处理（NLP）领域中，大语言模型（LLMs）显著提升了语言理解和生成能力。随着 LLMs 在垂直领域的广泛应用，探索其在科学研究中的应用成为热点，尤其是在化学领域。

化学涉及复杂的分子结构、性质和反应机制，对 LLMs 提出挑战和机遇。

LLMs 处理文本数据的优势，在化学领域面临独特挑战：

化学专业术语众多
分子间相互作用复杂
需深刻理解高级化学知识

这些挑战凸显了系统评估 LLMs 化学领域能力的必要性，以衡量其实际能力和识别应用领域。

现有的基准测试（如 MMLU）涵盖广泛领域，但评估任务主要限于基础概念问答，缺少对深层次能力的评估。而 ChemLLMbench 等基准专注于化学任务，但评估未涉及分子理解、化学知识推演等高阶能力。

因此，本文构建了 ChemEval，一个针对化学领域的多维度能力评估体系。

ChemEval 设计基于一个核心理念：全面评估 LLMs 在化学领域的基础知识掌握和高级概念理解应用能力。

通过一系列精心设计的多级任务，ChemEval 评估 LLMs 在化学基础问题到高级挑战（分子结构理解、化学反应预测、科学知识推断等）方面的能力。

ChemEval 不仅为化学领域 LLMs 应用提供评估见解，还为未来模型优化和应用开辟新道路。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

图 1：ChemEval 概览

基准介绍和构建

本研究建立了一个名为 ChemEval 的基准，致力于评估化学领域内大语言模型 (LLM) 的能力，弥补当前化学领域缺乏多层级、多维度任务体系评估基准的空白。

该基准包括化学领域能力的四个等级，每个等级涉及多个化学评估维度，确保对 LLM 的全面评估。ChemEval 通过一系列精心设计的任务来衡量大模型理解和推断化学知识的能力。

高等知识问答

「高等知识问答」维度旨在评估模型对核心化学概念和原理的理解能力。包括客观问答和主观问答两个维度，共 5 个不同的任务，评估模型在化学术语、定量分析等领域的洞察力。

其中，客观问答通过多项选择、填空题等任务评估模型的基本知识掌握程度。此外，主观问答要求模型提供详细的解决方案或理由，反映其对化学原理的理解和应用能力。

文献理解

「文献理解」维度用于评估模型从科学文献中提取关键信息和归纳总结的能力，包括信息抽取和归纳生成两个维度，共 15 项任务。

信息抽取任务涉及识别化学实体、反应底物和催化类型等，确保模型能够定位和抽取文本中的化学信息。归纳生成任务要求模型根据现有数据和知识生成总结性的内容，如文献摘要和反应类型识别归纳等。

分子理解

「分子理解」维度考察模型在分子水平上的理解和生成能力。包括分子名称生成、分子名称翻译、分子性质预测和分子描述四个维度，共 9 项任务。

Remover

几秒钟去除图中不需要的元素

304

查看详情

分子名称生成任务评估模型生成有效化学结构表示的能力。分子名称翻译任务通过模型在不同格式之间转换分子名称，评估模型理解各种格式的分子名称以及互译的能力。分子特性预测任务关注分子的物理、化学等属性的知识掌握能力。分子描述任务则评估模型从分子结构中预测物理化学性质的能力。

科学知识推演

「科学知识推演」维度重点评估模型在化学研究中的推理和创新能力，包括逆合成分析、反应条件推荐、反应结果预测和反应机制分析四个关键维度，共 13 项任务。逆合成分析任务评估模型合成路径的分析规划能力。

反应条件推荐任务用于评估特定化学反应条件推荐的准确性。反应结果预测任务旨在评估模型预测化学反应结果的能力。反应机制分析任务考察模型从反应物转化为产物的步骤分析能力。

综上所述，ChemEval 通过精心设计的任务和数据集，覆盖了化学研究的多个层面。如图 1 所示，ChemEval 包含化学领域的 4 个关键层级，评估了 12 个维度的 LLM 能力，涵盖了 42 个独特的化学任务。

这些任务由开源数据和化学专家精心设计的数据构成，确保了任务的实用价值，并能有效评估 LLM 的能力。fenye图 2：任务层级及任务类型

数据集构建过程

这项研究对大模型进行了全面的评估工作，其中数据来源主要包括开源数据和领域专家数据。

开源数据通过关键词检索并下载相关的开源数据集，从中筛选化学评估方向的下游任务，并下载这些任务的官方数据集。
同时，领域专家从科学文献、专业教材以及化学实验数据中手动构建了部分任务类型对应的问答对。

在数据处理阶段，需要对化学领域原始数据进行了仔细筛选和过滤，以适应多样的任务需求。

对于高级知识问答，主要从本科和研究生教材及教辅材料中编制了广泛的问答对，涵盖有机化学、无机化学、材料化学等七个类别，确保化学概念和原理的多样性。

对于文献理解，从科学文献中提取相关片段和问题，结合任务特定答案创建测试集。分子理解和科学知识推演则结合开放数据集与实验室专有数据，设计测试集以满足下游任务的评估需求。

实验结果

在 ChemEval 的基准测试中，一共评估了 12 个主流的 LLMs，包括 8 个通用模型和 4 个化学领域模型。

实验结果表明，尽管像 GPT-4 和 Claude-3.5 这样的通用 LLMs 在文献理解和指令遵循方面表现出色，但它们在需要高级化学知识的任务上表现不佳。

相反，化学的领域 LLMs 表现出更强的化学能力，但它们的文献理解能力有所下降。

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

图 3：主要实验结果。

结论：

化学领域模型在需要深层化学知识的任务上优于通用模型。
大语言模型难以在没有严格格式化约束的情况下一致地生成准确的化学公式。
化学领域模型在遵循指令方面的能力明显低于通用模型。

详情：

任务设计、评估指标和子任务实验结果参见 ChemEval 原文。

意义：

这项工作提供了以下见解：

LLMs 在化学研究中的应用
LLMs 在化学领域的优化和应用

团队介绍：

认知智能全国重点实验室

主页：https://cogskl.iflytek.com/
由科大讯飞和中国科学技术大学联合共建
国家级科研平台，2025 年入选全国重点实验室

科大讯飞研究院

成立于 2005 年
专注于人工智能核心技术研究
在智能语音、计算机视觉、自然语言处理等领域取得领先成果

以上就是中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准的详细内容，更多请关注其它相关文章！

# 多个 # 诸暨网站建设报价 # 白城短视频营销推广招聘 # 动易网站建设视频 # 叶县网站优化电话 # 乐从南海网站建设 # 泰安商务网站建设费用 # 营销方式营销推广模式 # 荆州网站建设工作 # 咸宁市网站建设空间优化 # 建设网站配色笔记 # 知识问答 # 理论 # 自然语言 # 科学知识 # 分子结构 # 开源 # 中国 # 科大 # 关键词 # 多维 # claude # git

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-10-05

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。