补齐Transformer规划短板,田渊栋团队的Searchformer火了


transformer 强大的泛化能力再次得到证明!

近年来,基于Transformer的结构在各种任务中展现出色的性能,引起了全球的关注。利用这种结构并结合大量数据,产生的大型语言模型(LLM)等模型可以很好地适用于实际应用场景。

尽管在某些领域取得了成功,但基于 Transformer 的结构和 LLM 仍然面临挑战,尤其是在处理规划和推理任务方面。先前的研究表明,LLM 在应对多步规划任务或高阶推理任务时存在困难。

为了提升 Transformer 的推理和规划性能,近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程:先生成中间「思维」,然后再输出响应。比如思维链(CoT)提示法就是鼓励模型预测中间步骤,进行按步骤的「思考」。思维树(ToT)则使用了分支策略和评判方法,让模型生成多个不同的思维路径,然后从中选出最佳路径。尽管这些技术通常是有效的,但也有研究表明,在很多案例中,这些方法会让模型的性能下降,原因包括自我强制(self-enforcing)。

在某个数据集上表现良好的技术,可能在处理其他数据集时效果不佳。这可能是因为所需的推理类型发生了变化,例如从空间推理转变为数学推理或常识推理。

相比之下,传统的符号式规划和搜索技术展现出了出色的推理能力。此外,这些传统方法所计算出的解决方案通常拥有形式上的保证,因为符号规划算法通常遵循着明确定义的基于规则的搜索过程。

为了让 Transformer 具备复杂推理能力,Meta FAIR 田渊栋团队近日提出了 Searchformer。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

补齐Transformer规划短板,田渊栋团队的Searchformer火了

  • 论文标题:Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping

  • 论文地址:https://arxiv.org/pdf/2402.14083.pdf

Searchformer 是一种 Transformer 模型,但针对迷宫导航和推箱子等多步规划任务,它却能计算出最优规划并且所用搜索步骤数也能远少于 A∗ 搜索等符号规划算法。

为了做到这一点,该团队提出了一种新方法:搜索动态引导(search dynamics bootstrapping)。该方法首先是训练一个 Transformer 模型来模仿 A∗ 的搜索过程(如图 1 所示,然后对其进行微调,使其能用更少的搜索步数找到最优规划。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

更详细地说,第一步,训练一个模仿 A∗ 搜索的 Transformer 模型。这里,该团队的做法是针对随机生成的规划任务实例运行 A* 搜索。在执行 A∗ 时,该团队会记录执行的计算和最优规划并将其整理成词序列,即 token。这样一来,所得到的训练数据集就包含了 A∗ 的执行轨迹并编码了有关 A∗ 本身的搜索动态的信息。然后,训练一个 Transformer 模型,让其能针对任意规划任务沿最优规划生成这些 token 序列。

第二步,使用专家迭代(expert iteration)方法进一步提升使用上述经过搜索增强的序列(包含 A∗ 的执行轨迹)训练的 Searchformer。专家迭代方法可让 Transformer 凭借更少的搜索步骤生成最优解。这个过程会得到一种神经规划算法,其隐式地编码在该 Transformer 的网络权重之中,并且它有很高的概率以少于 A∗ 搜索的搜索步数找到最优规划。比如说,在执行推箱子任务时,新模型能解答 93.7% 的测试任务,同时搜索步数比 A∗ 搜索平均少 26.8%。

该团队表示:这为 Transformer 超越传统符号规划算法铺平了道路。

实验

为了更好地理解训练数据和模型参数量对所得模型性能的影响,他们进行了一些消融研究。

他们使用了两类数据集训练模型:一种的 token 序列中只包含解(solution-only,其中只有任务描述和最终规划);另一种则是搜索增强型序列(search-augmented,其中包含任务描述、搜索树动态和最终规划)。

实验中,该团队使用了 A∗ 搜索的一种确定性和非确定性变体来生成每个序列数据集。

迷宫导航

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

在第一个实验中,该团队训练了一组编码器 - 解码器 Transformer 模型来预测 30×30 迷宫中的最优路径。

图 4 表明,通过预测中间计算步骤,可在数据量少时获得更稳健的性能表现。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 5 给出了仅使用解训练的模型的性能。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 6 展示了任务难度对每个模型的性能的影响。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

整体而言,尽管当使用的训练数据集足够大和足够多样化时,仅使用解训练的模型也能预测得到最优规划,但当数据量少时,经过搜索增强的模型的表现明显好得多,并且也能更好地扩展用于更困难的任务。

推箱子

补齐Transformer规划短板,田渊栋团队的Searchformer火了

为了测试能否在不同且更复杂的任务(具有不同的 token 化模式)上得到类似的结果,该团队还生成了一个推箱子的规划数据集进行测试。

图 7 展示了每种模型针对每个测试任务生成正确规划的概率。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

可以看到,和上一个实验一样,通过使用执行轨迹进行训练,搜索增强型模型的表现优于仅使用解训练的模型。

Searchformer:通过引导方法提升搜索动态

最后一个实验,该团队研究了搜索增强型模型可以如何迭代提升,从而凭借更少的搜索步数计算出最优规划。这里的目标是在缩短搜索轨迹长度的同时依然得到最优解。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 8 表明,新提出的搜索动态引导方法能够迭代式地缩短 Searchformer 模型生成的序列的长度。

以上就是补齐Transformer规划短板,田渊栋团队的Searchformer火了的详细内容,更多请关注其它相关文章!


# 是在  # 重庆李洁seo  # 海南外贸网站优化价格  # 网站推广是指啥  # 新乡哪里有网站推广技巧  # 梅州seo优化软件  # 辽宁咨询网站建设优点  # 宝山网站建设制作  # 柳州推广工作招聘网站  # 漯河网络推广员招聘网站  # 苏州招聘seo  # 产业  # 迭代  # 推箱子  # 本田  # 提出了  # 也能  # 短板  # 补齐  # 火了  # 最优  # type 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  人工智能时代 数字文明对话向“尼”走来  当一个网站的内容被 AI 完全接管  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  Bing Chat 和 Bing Search 正式引入深色模式  亚马逊确认今年不举办re:MARS人工智能大会  万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  首届全国体育人工智能大会在首都体育学院召开  【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态  脑机接口产业联盟发布十大脑机接口关键技术  ChatGPT会成为你家新的语音助手吗?  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  视觉中国推出付费AI绘图功能:无版权可用  苹果头显降临,AI虚拟人的救星还是流星?  B站内测 AI 搜索功能,输入“?”即可体验  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力  阿里达摩院发布免费开放100项AI专利许可的动机是什么?  微软宣布为 Azure AI 添加男性声线,增强文本转语音功能  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  无人机协助盐城交通执法的协同训练  360发布数字安全和人工智能的强大结合:360安全大模型  智能技术提高现代商业运营的7七种方式  Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元  物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络  AI技术改变*,新骗局来袭,*成功率接近100%  IBM CEO克里希纳:人工智能潜在创新无法被监管  华为HarmonyOS 4将集|成人|工智能大型模型  V社悄悄封禁使用AI生成美术素材的游戏  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  人工智能和神经网络有什么联系与区别?  给小朋友最好的科技礼物:乐天派桌面机器人  如何用户外电源给无人机实现持久续航  阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够  将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  微软新出热乎论文:Transformer扩展到10亿token  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  如何成功实施人工智能?  脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果 

 2024-02-26

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.