首页 > 营销学院 > IT资讯

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

在大模型内卷的同时，transformer的地位也接连受到挑战。

近日，RWKV发布了Eagle 7B模型，基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出，在英语测试中与顶尖模型不相上下。

同时，Eagle 7B用的是RNN架构，相比于同尺寸的Transformer模型，推理成本降低了10-100倍以上，可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布，我们先提供RWKV的论文，这是第一个将参数扩展到数百亿的非Transformer架构。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

图片

论文地址：https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2025录用了这篇工作，作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图，表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的，1.1T（万亿）个Token的训练数据，在下图的多语言基准测试中，Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa，涵盖了23种语言，以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一，尽管有一项没打过Mistral-7B，屈居第二，但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中，Eagle 7B的水平接近Falcon（1.5T）、LLaMA2（2T）、Mistral（>2T），与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

并且，在两种测试中，新的v5架构相比于之前的v4，有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管，以Apache 2.0许可证授权，可以不受限制地用于个人或商业用途。

多语言支持

前面说了，Eagle 7B的训练数据来自100多种语言，而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

虽然取得了第一名的成绩，但总的来说，Eagle 7B是吃亏的，毕竟，基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜，如果集中在英语，可能会获得比现在更好的成绩。

——那么，RWKV为什么要这么做呢？官方对此表示：

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中，最常见的是：

多语言方法损害了模型的英语评估分数，并减缓了线性Transformer的发展；

让多语言模型与纯英语模型，比较多语言性能是不公平的

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

官方表示，「在大多数情况下，我们同意这些意见，」

「但我们没有计划改变这一点，因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

2025年，世界上只有17%的人口会说英语（大约13亿人），但是，通过支持世界上排名前25位的语言，模型可以覆盖大约40亿人，即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助，比如让模型可以在低端硬件上以低廉的价格运行，比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集，以支持更广泛的语言，并慢慢将覆盖范围扩大到世界上100%的地区，——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中，有一个值得注意的现象：

随着训练数据规模不断增加，模型的性能逐渐进步，当训练数据达到300B左右时，模型显示出与pythia-6.9b 相似的性能，而后者的训练数据量为300B。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同，——也就是说，在训练数据规模相同的情况下，像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问，如果确实如此，那么是不是相比于确切的架构，数据反而对模型的性能提升更加重要？

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

我们知道，Transformer类的模型，计算和存储代价是平方级别的，而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构，以提高可访问性，降低每个人的人工智能成本，并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN，同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入，RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题，研究人员提出了多种架构：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成，每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素，右边为RWKV残差块，以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值（如下图中的对角线所示），可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量，以补偿潜在的退化。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化（矩阵乘法）。

在循环网络中，通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显，它要求在输入下一步之前计算每个令牌，从而使RWKV能够利用其类似RNN的结构，称为时间顺序模式。

在这种情况下，RWKV可以方便地递归表述，以便在推理过程中进行解码，它利用了每个输出令牌仅依赖于最新状态的优势，状态的大小是恒定的，而与序列长度无关。

然后充当RNN解码器，相对于序列长度产生恒定的速度和内存占用，从而能够更有效地处理较长的序列。

相比之下，自注意力的KV缓存相对于序列长度不断增长，从而导致效率下降，并随着序列的延长而增加内存占用和时间。

参考资料：

https://www.php.cn/link/fda2217a3921c464be73975603df7510

以上就是RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多的详细内容，更多请关注其它相关文章！

# 丰田 # 肇庆百度霸屏营销推广 # 锦州企业网站建设企业 # 临沂建设网站方式 # 丰都企业网站建设 # seo赣州 # 关于网店建设的网站 # 如何在网上运用seo # 青海seo技巧哪个好用 # 衢州seo优化自学技巧 # 新沂seo多少钱 # 每个人 # 图中 # 模型 # 中国科学院 # 的是 # 世界上 # 多语言 # 递归 # 英语 # 最多 # follow # llama # 内存占用 # rnn # eagle 7b

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-02-19

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。