大规模语言模型(LLMs)在许多重要任务中展现出了引人注目的能力,包括自然语言理解、语言生成和复杂推理,并对社会产生了深远的影响。然而,这些出色的能力却需要大量的训练资源(如左图所示)和较长的推理时间(如右图所示)。因此,研究人员需要开发有效的技术手段来解决它们的效率问题。
此外,从图的右侧还可以看出,一些高效的LLMs(Language Models)如Mistral-7B,已经成功应用于LLMs的设计和部署中。这些高效的LLMs在保持与LLaMA1-33B相近的准确性的同时,能够大大减少推理内存使用和降低推理时延。这表明已经有一些可行的高效方法成功地应用于LLMs的设计和使用上。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在本综述中,来自俄亥俄州立大学、帝国理工学院、密歇根州立大学、密西根大学、亚马逊、谷歌、Boson AI、微软亚研院的研究者提供了对高效 LLMs 研究的系统全面调查。他们将现有优化 LLMs 效率的技术分成了三个类别,包括以模型为中心、以数据为中心和以框架为中心,总结并讨论了当下最前沿的相关技术。

为了方便整理综述中所涉及的论文,并保持更新,研究者创建了一个 GitHub 仓库,并积极维护。他们希望这个仓库能够帮助研究人员和从业者系统地了解高效 LLMs 的研究和发展,并激发他们为这个重要而令人兴奋的领域做出贡献。
仓库的网址是https://github.com/aiot-mlsys-lab/efficient-llms-survey。在这个仓库中,你可以找到关于高效低功耗机器学习系统的调查的相关内容。这个仓库提供了一些研究论文、代码和文档,帮助人们更好地了解和探索高效低功耗的机器学习系统。如果你对这个领域感兴趣,可以通过访问这个仓库来获取更多的信息。
TTSMaker
TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。
2275
查看详情
以模型为中心的方法关注算法层面和系统层面的高效技术,其中模型本身是焦点。由于 LLMs 具有数十亿甚至数万亿的参数,与规模较小的模型相比,它们具有诸如涌现等独特的特征,因此需要开发新的技术来优化 LLMs 的效率。本文详细讨论了五类以模型为中心的方法,包括模型压缩、高效预训练、高效微调、高效推理和高效模型架构设计。
1. 压缩模型 在机器学习领域,模型的大小通常是一个重要的考量因素。大型的模型往往需要更多的存储空间和计算资源,而且在移动设备上运行时可能会遇到限制。因此,压缩模型是一种常用的技术,可以减小模型的大小
模型压缩技术主要分为了四类:量化、参数剪枝、低秩估计和知识蒸馏(参见下图),其中量化会把模型的权重或者激活值从高精度压缩到低精度,参数剪枝会搜索并删除模型权重中较为冗余的部分,低秩估计会将模型的权重矩阵转化为若干低秩小矩阵的乘积,知识蒸馏则是直接用大模型来训练小模型,从而使得小模型在做某些任务的时候具有替代大模型的能力。

2. 高效预训练
预训练 LLMs 的成本非常昂贵。高效预训练旨在提高效率并降低 LLMs 预训练过程的成本。高效预训练又可以分为混合精度加速、模型缩放、初始化技术、优化策略和系统层级的加速。
混合精度加速通过使用低精度权重计算梯度、权重和激活值,然后在将其转换回高精度并应用于更新原始权重,从而提高预训练的效率。模型缩放通过使用小型模型的参数来扩展到大型模型,加速预训练的收敛并降低训练成本。初始化技术通过设计模型的初始化取值来加快模型的收敛速度。优化策略是重在设计轻量的优化器来降低模型训练过程中的内存消耗,系统层级的加速则是通过分布式等技术来从系统层面加速模型的预训练。

3. 高效微调
高效微调旨在提高 LLMs 微调过程的效率。常见的高效微调技术分为了两类,一类是基于参数高效的微调,一类是基于内存高效的微调。
基于参数高效微调(PEFT)的目标是通过冻结整个 LLM 主干,仅更新一小组额外的参数,将 LLM 调整到下游任务。在论文中,我们又将 PEFT 详细分成了基于适配器的微调、低秩适配、前缀微调和提示词微调。
基于内存的高效微调则是重在降低整个 LLM 微调过程中的内存消耗,比如减少优化器状态和激活值等消耗的内存。

4. 高效推
理
高效推理旨在提高 LLMs 推理过程的效率。研究者将常见的高效推理技术分成了两大类,一类是算法层级的推理加速,一类是系统层级的推理加速。
算法层级的推理加速又可以分成两类:投机解码和 KV - 缓存优化。投机解码通过使用较小的草稿模型并行计算令牌,为较大目标模型创建猜测性前缀,从而以加速采样过程。KV - 缓存优化指的是优化在 LLMs 推理过程中 Key-Value(KV)对的重复计算。
系统层级的推理加速则是在指定硬件上优化内存访问次数,增大算法并行量等来加速 LLM 的推理。

5. 高效模型架构设计
对 LLMs 进行高效架构设计是指通过策略性优化模型结构和计算过程,以提高性能和可扩展性,同时最小化资源消耗。我们将高效的模型架构设计依据模型的种类分成了四大类:高效注意力模块、混合专家模型、长文本大模型以及可替代 transformer 的架构。
高效注意力模块旨在优化注意力模块中的复杂计算及内存占用,混合专家模型(MoE)则是通过将 LLMs 的某些模块的推理决策使用多个小的专家模型来替代从而达到整体的稀疏化,长文本大模型是专门设计来高效处理超长文本的 LLMs, 可替代 transformer 的架构则是通过重新设计模型架构,来降低模型的复杂度并达到后 transformer 架构相当的推理能力。

以数据为中心方法侧重于数据的质量和结构在提高 LLMs 效率方面的作用。研究者在本文中详细讨论了两类以数据为中心的方法,包括数据选择和提示词工程。
1. 数据选择
LLMs 的数据选择旨在对预训练 / 微调数据进行清洗和选择,例如去除冗余和无效数据,达到加快训练过程的目的。

2. 提示词工程
提示词工程通过设计有效的输入(提示词)来引导 LLMs 生成期望的输出,它的高效之处在于可以通过设计提示词,来达到和经过将繁琐的微调相当的模型表现。研究者将常见的的提示词工程技术分成了三大类:少样本的提示词工程、提示词压缩和提示词生成。
少样本的提示词工程通过向 LLM 提供有限的示例集以引导其对需要执行的任务进行理解。提示词压缩是通过压缩冗长的提示输入或学习和使用提示表示,加速 LLMs 对输入的处理。提示词生成旨在自动创建有效的提示,引导模型生成具体且相关的响应,而不是使用手动标注的数据。


研究者调查了近来较为流行的高效 LLMs 框架,并列举了它们所能优化的高效任务,包括预训练、微调和推理(如下图所示)。

在这份调查中,研究者为大家提供了一份关于高效 LLMs 的系统性回顾,这是一个致力于使 LLMs 更加民主化的重要研究领域。他们一开始就解释了为什么需要高效 LLMs。在一个有序的框架下,本文分别从以模型的中心、以数据的中心和以框架为中心的角度分别调查了 LLMs 的算法层面和系统层面的高效技术。
研究者相信,在 LLMs 和以 LLMs 为导向的系统中,效率将发挥越来越重要的作用。他们希望这份调查能够帮助研究人员和实践者迅速进入这一领域,并成为激发新的高效 LLMs 研究的催化剂。
以上就是深入探讨模型、数据和框架:一份详尽的54页高效大语言模型综述的详细内容,更多请关注其它相关文章!
# 研究
# 调查
# llama
# 有份
# 则是
# ai
# 无锡网站建设公司效果
# 网站建设公司标语
# 投资广告推广哪个网站好
# 光伏营销推广资格
# 丹东seo优化咨询热线
# 天津互联网网站推广行业
# 天门网站推广哪里好做呢
# 婚庆行业营销推广找谁
# 营销推广平台电话多少
# 网站运营简历优化靠谱
# 谁能
# 可以通过
# 过程中
# 两类
# 是一个
# 所示
# 开源
# 成了
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
"探索Meta发布的Quest MR/VR视频录制与拍摄指南"
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
AI 作画工具 Midjourney 推出“pan”功能,可平移扩展图片外场景
XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由
科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元
生成式人工智能如何改变云安全的游戏规则
华为即将推出HarmonyOS 4,再度领先行业的AI技术
实践J*a开发,构建高性能的MongoDB数据迁移工具
AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会
Meta发布音频AI模型,仅需2秒片段模拟真人语音
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话
美图设计室2.0新增哪些功能
Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码
工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链
人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的
焊接协作机器人或将成为26届埃森展最大看点
AI无法对传统文化符号进行解构和创新
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
构建人机交互创新模式,微美全息研究AIGC智能交互界面生成技术
AI工具助力公司实施每周4.5天工作制,带来巨大效益
自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
AI时代,企业需要什么样的员工?
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
对话式论文阅读工具PaperMate上线,综述细节AI告诉你
长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”
ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息
人工智能如何与智能家居集成
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
抢占新赛道 加快机器人产业集聚发展
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
华为云天筹AI求解器荣获世界人工智能大会最高奖
360发布数字安全和人工智能的强大结合:360安全大模型
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
MiracleVision视觉大模型
无人机在电力巡检中的应用:全面解析高效巡检流程
学生作文评分的新趋势:教师与AI的合作模式
物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络
零数科技CTO兰春嘉:区块链与人工智能的结合点在数据
小岛秀夫不反对使用AI 但认为人类应该凌驾于AI
宇宙探索下一阶段,机器代替人类,AI会在太空探索中取代人类吗?
刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence
麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管
埃森哲俞毅:AI时代我们需要新的“摩尔定律”
2024-01-14
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。