在我们之前的文章中,我们介绍了研究人员提出了一种挑战transformer的新架构mamba。
他们的研究表明,Mamba是一种状态空间模型(SSM),在多种模式(如语言、音频和时间序列)中展现出了卓越的性能。为了证明这一点,研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了同等大小的Transformer模型,并且在预训练和下游评估期间,其表现与大小为其两倍的Transformer模型相当。
Mamba的独特之处在于其快速处理能力、选择性SSM层以及受FlashAttention启发的硬件友好设计。这些特点使Mamba超越了Transformer(Transformer没有传统的注意力和MLP块)。
许多人希望亲自测试Mamba的效果,因此本文整理了一个可以在Colab上完整运行的Mamba代码示例,并使用了Mamba官方的3B模型进行实际运行测试。
首先,我们需要安装依赖,这是官网推荐的:
!pip install causal-conv1d==1.0.0 !pip install mamba-ssm==1.0.1
接下来,直接使用transformers库读取预训练的Mamba-3B模型:
import torch
import os
from transformers import AutoTokenizer
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
model = MambaLMHeadModel.from_pretrained(os.path.expanduser("state-spaces/mamba-2.8b"), device="cuda", dtype=torch.bfloat16)可以看到,3B的模型大小为11G。
伴江行购物联盟(多用户)美化修改
功能完善、展示信息丰富的电子商店销售平台;针对企业与个人的网上销售系统;开放式远程商店管理;完善的订单管理、销售统计、结算系统;强力搜索引擎支持;提供网上多种在线支付方式解决方案;强大的技术应用能力和网络安全系统,完美的傻瓜开店功能,自主经营,管理后台登陆账号:admin 密码:admin 登陆地址/admin/login.asp商家测试帐号:admin 密码:admin 登陆地址/user/ad
0
查看详情

然后进行内容生成测试:
tokens = tokenizer("What is the meaning of life", return_tensors="pt")
input_ids = tokens.input_ids.to(device="cuda")
max_length = input_ids.shape[1] + 80
fn = lambda: model.generate(
input_ids=input_ids, max_length=max_length, cg=True,
return_dict_in_generate=True, output_scores=True,
enable_timing=False, temperature=0.1, top_k=10, top_p=0.1,
)
out = fn()
print(tokenizer.decode(out[0][0]))这里还有一个聊天示例:
import torch
from transformers import AutoTokenizer
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained("h*enhq/mamba-chat")
tokenizer.eos_token = ""
tokenizer.pad_token = tokenizer.eos_token
tokenizer.chat_template = AutoTokenizer.from_pretrained("HuggingFaceH4/zephyr-7b-beta").chat_template
model = MambaLMHeadModel.from_pretrained("h*enhq/mamba-chat", device="cuda", dtype=torch.float16)
messages = []
user_message = """What is the date for announcement On August 10 said that its arm JSW Neo Energy has agreed to buy a portfolio of 1753 mega watt renewable energy generation capacity from Mytrah Energy India Pvt Ltd for Rs 10,530 crore."""
messages.append(dict(role="user", content=user_message))
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to("cuda")
out = model.generate(input_ids=input_ids, max_length=2000, temperature=0.9, top_p=0.7, eos_token_id=tokenizer.eos_token_id)
decoded = tokenizer.batch_decode(out)
messages.append(dict(role="assistant", content=decoded[0].split("\n")[-1]))
print("Model:", decoded[0].split("\n")[-1])我已经将所有代码整理成Colab Notebook,有兴趣的可以直接使用:
https://www.php.cn/link/767593ee1911f484bc931f9a10f34b66
以上就是在Colab上测试Mamba的详细内容,更多请关注其它相关文章!
# ai
# 汕头seo科技
# 佛山百度推广网站多少钱
# 他们的
# 年前
# 堪比
# 这是
# 远程控制
# 中国
# 已成
# 立竿见影
# 已有
# 多用户
# 测试
# 桔子seo会员
# 东莞比较好seo公司
# 网站推广优化怎么做的好
# 南康网站建设推广
# SEO 管理
# 盐业化工产品营销推广方案
# 汇报营销产品宣传推广ppt范文
# 营销推广模拟项目总结
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
OpenAI首席执行官表态支持欧盟AI监管
“长沙造”无人机,领先的不止植保
世界人工智能大会上,科大讯飞宣布与华为联手
微盟宣布联合腾讯云共建行业大模型:加快激活AI大模型智能应用
国产医疗企业的人工智能
大型无人机FH-98国内首次夜航转场成功
人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
看似低调,实则稳健:字节在AI路上会遇到什么?
华为发布大模型时代AI存储新品
这效果能打几分?AI真人化《名侦探柯南》
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
一文读懂自动驾驶的激光雷达与视觉融合感知
彬州市第三届青少年机器人创新大赛成功举办
华为小艺AI助手将实现强大的大模型能力
中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范
再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务
微软向美国政府提供GPT大模型,如何保证安全性?
令人震惊的特斯拉机器人
梦想实现!硬核科幻大片VR智能头盔即将问世
人工智能如何用于家庭安全
食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心
VMS的应用:提升多品牌设备管理效能
小艺主导智慧交互升级,借助AI大模型增强能力
人工智能改变网络安全和用户体验的三种方式
湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式
家电行业观察:AI加持下,全屋智能将成为智能家电未来?
「社交达人」GPT-4!解读表情、揣测心理全都会
WHEE上线时间介绍
2025 年开发者必须知道的六个 AI 工具
全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人
江永:精准施训提升通信无人机应急救援能力
无人机协助盐城交通执法的协同训练
人工智能赋能广西自然资源领域监测监管
微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展
布局智能物联新时代,中国移动“5G+物联网”亮相2025 MWC
华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能
微软Xbox称VR和AR还需要时间 先玩大的
首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工
微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测
如何用AI重塑你的工作流(一)
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
苹果头显降临,AI虚拟人的救星还是流星?
美图设计室2.0新增哪些功能
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
2025-04-27
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。