清华大学陈键飞团队推出sageattention2:实现4-bit即插即用注意力机制,显著提升大模型推理速度
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果。 近年来,该专栏已发表2000余篇学术技术文章,涵盖众多高校和企业实验室的先进研究。 欢迎优秀研究者投稿或联系报道 (邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com)。
论文共同一作张金涛和黄浩峰分别来自清华大学计算机系和交叉信息研究院,通讯作者陈键飞副教授及其他合作者均来自清华大学计算机系。
大模型线性层的低比特量化已日趋成熟,但注意力模块仍普遍采用高精度计算(如FP16或FP32),尤其在长序列处理中,注意力机制的计算成本日益突出。
此前,陈键飞团队提出的8-bit即插即用注意力机制SageAttention (https://www.php.cn/link/8928157317a66f146e4f2d5617537336),通过将QK^T量化至INT8,保持PV精度为FP16,并结合Smooth K技术,实现了2倍于FlashAttention2的速度提升,同时保持了端到端精度。SageAttention已广泛应用于CogvideoX、Mochi、Flux、Llama3、Qwen等开源及商业大模型。
最新研究成果SageAttention2进一步将注意力机制量化至4-bit,相较于FlashAttention2和xformers分别实现了3倍和4.5倍的即插即用推理加速,并同样在各种大模型上保持了端到端精度。

即插即用特性
Tunee AI
新一代AI音乐智能体
1104
查看详情
SageAttention2提供高效的注意力算子,实现即插即用加速。 只需输入Q, K, V矩阵,即可快速获得注意力输出(O)。 克隆仓库 (git clone https://www.php.cn/link/b0263bc40e0ff50f481b85a968c30ac1) 并执行 python setup.py install 后,一行代码即可替换模型中的注意力函数:


以CogvideoX-1.5-5B为例,SageAttention2实现了1.8倍的端到端加速,且视频生成质量无损:
全精度 Attention
SageAttention2
SageAttention2还扩展了硬件支持,在不同GPU平台上均有显著加速效果。

(后续内容,由于篇幅限制,此处省略对前言、挑战、技术方案和实验效果的详细描述,但图片链接保留,读者可自行参考原文深入了解。)
(此处保留原文中所有图片链接)
以上就是4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级的详细内容,更多请关注其它相关文章!
# 官网
# 三明seo优化多少钱
# 媒体网络营销推广
# 抖音seo
# 南通网站搜索优化方案
# 渭南谷歌seo公司
# 简述seo的优点和缺点
# 手机短信营销推广
# 淘宝seo搜索优化方案
# 网站优化推广方法包括
# 怎么样建设网站
# 开源
# 实现了
# 端到
# 工程
# 不掉
# 清华大学
# 清华
# 工作流
# 即插
# 即用
# llama
# qwen
# 邮箱
# ai
# qq
# git
# python
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?
MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
懒人必备的家居清洁好物,石头自清洁扫拖机器人G20
华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会
磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元
苹果式 AI 哲学:不着一字,处处落子
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联
Moka AI产品后观察:HR SaaS迈进AGI时代
美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力
你大脑中的画面,现在可以高清还原了
国内通用人形机器人将发布、产业加速突破
东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代
“风乌”气象大模型科学家团队:用AI预报极端天气未来不是梦!
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员
AI立法迫在眉睫,如何看对行业影响?
不到2S创作AI图像!Snap发布图像生成器SnapFusion
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
视觉中国推出付费AI绘图功能:无版权可用
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
GPT-4不能在麻省理工学院获得计算机科学学位
超级智能到底是什么?
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
世界水下机器人大赛:9国青年携手逐梦深蓝
AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标
全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会
普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景
AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作
即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元
Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元
北交大推出国内首个开源交通大模型TransGPT,可免费商用
售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信
令人惊叹!AI模型能够以iPhone照片为基础创作诗歌
OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API
V社谈AI制作游戏被ban:为确保开发者有素材所有权
AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?
生成式AI对云运维的3大挑战
「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行
好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”
讯飞星火大模型实现升级 助力通用人工智能人才培养
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
2024-12-26
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。