RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多


在大模型内卷的同时,transformer的地位也接连受到挑战。

近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出,在英语测试中与顶尖模型不相上下。

同时,Eagle 7B用的是RNN架构,相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布,我们先提供RWKV的论文,这是第一个将参数扩展到数百亿的非Transformer架构。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

论文地址:https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2025录用了这篇工作,作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图,表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的,1.1T(万亿)个Token的训练数据,在下图的多语言基准测试中,Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa,涵盖了23种语言,以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一,尽管有一项没打过Mistral-7B,屈居第二,但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中,Eagle 7B的水平接近Falcon(1.5T)、LLaMA2(2T)、Mistral(>2T),与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

并且,在两种测试中,新的v5架构相比于之前的v4,有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管,以Apache 2.0许可证授权,可以不受限制地用于个人或商业用途。

多语言支持

前面说了,Eagle 7B的训练数据来自100多种语言,而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

虽然取得了第一名的成绩,但总的来说,Eagle 7B是吃亏的,毕竟,基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜,如果集中在英语,可能会获得比现在更好的成绩。

——那么,RWKV为什么要这么做呢?官方对此表示:

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中,最常见的是:

多语言方法损害了模型的英语评估分数,并减缓了线性Transformer的发展;

让多语言模型与纯英语模型,比较多语言性能是不公平的

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

官方表示,「在大多数情况下,我们同意这些意见,」

「但我们没有计划改变这一点,因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

2025年,世界上只有17%的人口会说英语(大约13亿人),但是,通过支持世界上排名前25位的语言,模型可以覆盖大约40亿人,即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助,比如让模型可以在低端硬件上以低廉的价格运行,比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集,以支持更广泛的语言,并慢慢将覆盖范围扩大到世界上100%的地区,——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中,有一个值得注意的现象:

随着训练数据规模不断增加,模型的性能逐渐进步,当训练数据达到300B左右时,模型显示出与pythia-6.9b 相似的性能,而后者的训练数据量为300B。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同,——也就是说,在训练数据规模相同的情况下,像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问,如果确实如此,那么是不是相比于确切的架构,数据反而对模型的性能提升更加重要?

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

我们知道,Transformer类的模型,计算和存储代价是平方级别的,而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构,以提高可访问性,降低每个人的人工智能成本,并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN,同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入,RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题,研究人员提出了多种架构:

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成,每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素,右边为RWKV残差块,以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值(如下图中的对角线所示),可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量,以补偿潜在的退化。

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化(矩阵乘法)。

在循环网络中,通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显,它要求在输入下一步之前计算每个令牌,从而使RWKV能够利用其类似RNN的结构,称为时间顺序模式。

在这种情况下,RWKV可以方便地递归表述,以便在推理过程中进行解码,它利用了每个输出令牌仅依赖于最新状态的优势,状态的大小是恒定的,而与序列长度无关。

然后充当RNN解码器,相对于序列长度产生恒定的速度和内存占用,从而能够更有效地处理较长的序列。

相比之下,自注意力的KV缓存相对于序列长度不断增长,从而导致效率下降,并随着序列的延长而增加内存占用和时间。

参考资料:

https://www.php.cn/link/fda2217a3921c464be73975603df7510

以上就是RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多的详细内容,更多请关注其它相关文章!


# 丰田  # 肇庆百度霸屏营销推广  # 锦州企业网站建设企业  # 临沂建设网站方式  # 丰都企业网站建设  # seo赣州  # 关于网店建设的网站  # 如何在网上运用seo  # 青海seo技巧哪个好用  # 衢州seo优化自学技巧  # 新沂seo多少钱  # 每个人  # 图中  # 模型  # 中国科学院  # 的是  # 世界上  # 多语言  # 递归  # 英语  # 最多  # follow  # llama  # 内存占用  # rnn  # eagle 7b 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  映宇宙数字人“映映”亮相ChinaJoy,展示AI黑科技实现用户互动  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  AI拉动PCB发展|行业发现  智能手机应用中的人工智能的重要性  令人震惊的特斯拉机器人  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像  下一个前沿:量子机器学习和人工智能的未来  埃森哲俞毅:AI时代我们需要新的“摩尔定律”  《上古卷轴5》AI高清材质包优化游戏中所有怪物  学而思网校推出首个基于自研大模型的《人工智能第一课》  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!  马斯克回应人工智能拯救世界:人类已处于“半机器人”状态  AI立法迫在眉睫,如何看对行业影响?  当一切设备都受到人工智能的控制  人工智能改变网络安全和用户体验的三种方式  Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术  Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API  数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  陈根:AI工具为游戏软件实时3D内容助力  提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用  人工智能的变革之路:通过OpenAI的GPT-4漫游  AI和ML推动联网设备的增长  阿里云AI绘画创作大模型通义万相发布 已开启定向邀测  原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人  你大脑中的画面,现在可以高清还原了  如何用户外电源给无人机实现持久续航  OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作  华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余  英伟达CEO宣称生成式AI已迎来“划时代时刻”  美图秀秀“AI 扩图”功能上线,可根据图像生成更大画幅  阿里达摩院向公众免费开放100项AI专利许可  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  微幼科技晨检机器人与人工晨检相比,有何优势  CharacterAI - 也许会成为会话人工智能的未来  生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  苹果AR头显商标与华为撞车,在中国或改名  ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严  笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据 

 2024-02-19

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.