今年 2 月,Meta 发布的 LLaMA 大型语言模型系列,成功推动了开源聊天机器人的发展。因为 LLaMA 比之前发布的很多大模型参数少(参数量从 70 亿到 650 亿不等),但性能更好,例如,最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B,所以一经发布让很多研究者兴奋不已。
然而,LLaMA 仅授权给学术界的研发人员使用,从而限制了该模型的商业应用。
因而,研究者开始寻找那些可用于商业用途的 LLaMA,UC 伯克利的博士生 Hao Liu 发起的项目 OpenLLaMA,就是其中一个比较热门的 LLaMA 开源复制品,其使用了与原始 LLaMA 完全相同的预处理和训练超参数,可以说 OpenLLaMA 完全按照 LLaMA 的训练步骤来的。最重要的一点是,该模型可商用。
OpenLLaMA 在 Together 公司发布的 RedPajama 数据集上训练完成,有三个模型版本,分别为 3B、7B 和 13B,这些模型都经过了 1T tokens 的训练。结果显示,OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当,甚至有超越的情况。
除了不断发布新模型,研究者对模型处理 token 的能力探索不断。
几天前,田渊栋团队的最新研究用不到 1000 步微调,将 LLaMA 上下文扩展到 32K。再往前追溯,GPT-4 支持 32k token(这相当于 50 页的文字) ,Claude 可以处理 100k token (大概相当于一键总结《哈利波特》第一部)等等。
现在,一个新的基于 OpenLLaMA 大型语言模型来了,它将上下文的长度扩展到 256k token,甚至更多。该研究由 IDEAS NCBR 、波兰科学院、华沙大学、 Google DeepMind 联合完成。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
LongLLaMA 基于 OpenLLaMA 完成,微调方法采用 FOT ( Focused Transformer )。本文表明,FOT 可以用于对已经存在的大型模型进行微调,以扩展其上下文长度。
该研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点,并使用 FOT 对它们进行微调。由此产生的模型称之为 LONGLLAMAs,能够在其训练上下文长度之外进行外推(甚至可以达到 256K),并且在短上下文任务上还能保持性能。
有人将这一研究形容为 OpenLLaMA 的无限上下文版本,借助 FOT,模型很容易外推到更长的序列,例如在
8K token 上训练的模型,可以很容易外推到 256K 窗口大小。
图片
本文用到了 FOT 方法,它是 Transformer 模型中一种即插即用的扩展,可用于训练新模型,也可对现有的较大模型进行更长上下文微调。
为了达到这一目的,FOT 使用了记忆注意力层和跨批次(crossbatch)训练过程:
有关 FOT 架构的概述,请参见图 2:
图片
下表为 LongLLaMA 的一些模型信息:
图片
最后,该项目还提供了 LongLLaMA 与原始 OpenLLaMA 模型的比较结果。
下图为 LongLLaMA 一些实验结果,在密码检索任务上,LongLLaMA 取得了良好的性能。具体而言,LongLLaMA 3B 模型远远超出了它的训练上下文长度 8K,对于 token 为 100k 时,准确率达到 94.5%,当 token 为 256k 时,准确率为 73%。
图片
下表为 LongLLaMA 3B 模型在两个下游任务(TREC 问题分类和 WebQS 问题回答)上的结果,结果显示,在使用长上下文时,LongLLaMA 性能改进明显。
图片
下表显示了即使在不需要长上下文的任务上,LongLLaMA 也能表现良好。实验在零样本设置下,对 LongLLaMA 和 OpenLLaMA 进行了比较。
图片
了解更多细节,可参考原论文与项目。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
以上就是将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?的详细内容,更多请关注其它相关文章!
# 华沙
# 不错的单页网站建设
# seo选关键词的原则
# 网站建设 搞笑笑话
# seo做法哪里找
# 外贸付费seo
# 宣城seo怎么选
# 新品牌营销推广策划书怎么写
# 专注于SEO
# 合肥婚恋网站建设
# seo全新技术
# 推到
# 模型
# 很容易
# 下表
# 丰田
# 这一
# 中国科学院
# 开源
# 扩展到
# 来了
# llama
# claude
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
深企派遣无人机救援队赴京津冀开展防汛救灾任务
借力AI!PCB全球巨头,有爆发潜质吗?
云南首例达芬奇机器人微创心脏手术成功开展
脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果
人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势
美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验
印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案
常见的五个人工智能误解
IBM和NASA合作发布可追踪碳排放的开源AI基础模型
AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场
斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验
Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器
智能机器人正在彻底改变客户服务
聚焦人工智能大模型、AIGC 徐汇十余场重磅论坛等你来
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit
提升工作效率的智能工具:Zapier 让工作变得更简单!
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
人工智能和神经网络有什么联系与区别?
「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事
聚焦WAIC|AI技术支撑大模型探索未来
小艺主导智慧交互升级,借助AI大模型增强能力
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
Midjourney创始人:AI应该成为人类思想的延伸
面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络
美图第二届影像节发布七款AI影像创作工具
英伟达CEO宣称生成式AI已迎来“划时代时刻”
WHEE使用教程
调研海尔智家:AI名,家电命?
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
应对算力挑战,亚马逊云科技发力AI基础设施建设
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
高质量数据推动AI场景化应用快速发展及落地
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
智能技术提高现代商业运营的7七种方式
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
了解 AGI:智能的未来?
令人惊叹!AI模型能够以iPhone照片为基础创作诗歌
全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
调查显示:实际上没有那么多人在用 ChatGPT
跑不动的元宇宙,虚拟世界比现实更冷酷
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元
2023-07-11
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。