ACM MM2025 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

acm mm2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

1. 第32届ACM国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)公布论文接收结果,网易伏羲最新研究成果《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》入选。
  1. 该论文研究方向涉及视觉语言预训练(VLP)、跨模态图文检索(CMITR)等领域。此次入选标志着网易伏羲实验室多模态能力再受国际认可,目前相关技术已应用至网易伏羲自研多模态智能体助手“丹青约”。
  2. ACM MM由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域最具影响力的国际顶级会议,也是中国计算机学会推荐的多媒体领域A类国际学术会议。作为领域内的顶级会议,ACM MM 受到国内外知名厂商和学者广泛关注。本届ACM MM共收到有效稿件4385篇,其中1149篇被大会接收,接收率为26.20%。

    ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

    作为国内领先的人工智能研究机构,网易伏羲在大规模模型研究领域已有近六年的深厚积累,具备丰富的算法和工程经验,先后打造了数十个文本和多模态预训练模型,包括文本理解和生成大模型、图文理解大模型、图文生成大模型等。这些成果不仅有效推动了大模型在游戏领域的应用,也为跨模态理解能力的发展奠定了坚实的基础。跨模态理解能力有助于更好地融合多种领域知识,并对齐丰富的数据模态及信息。

在此基础上,网易伏羲基于图文理解大模型进一步创新,提出一种基于关键局部信息的选取与重建的跨模态检索方法,为多模态智能体解决特定领域下的图像文本交互问题奠定技术基础。

以下为本次入选论文概要:

《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》

关键局部信息的选取与重建:一种新颖的特定领域图文检索方法

关键词:关键局部信息,细粒度,可解释

涉及领域:视觉语言预训练(VLP),跨模态图文检索(CMITR)

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

近年来,随着视觉语言预训练 (Vision-Language Pretraining, VLP) 模型的兴起,跨模态图像文本检索 (Cross-Modal Image-Text Retrieval, CMITR) 领域取得了显著进展。尽管像 CLIP 这样的 VLP 模型在一般领域的 CMITR 任务中表现出色,但在特定领域图像文本检索 (Specific Domain Image-Text Retrieval, SDITR) 中,其性能往往会存在不足。这是因为特定领域通常具有独特的数据特征,这些特征区别于一般领域。

在特定领域内,图像之间可能展现出高度的视觉相似性,而语义差异则往往集中在关键的局部细节上,例如图像中的特定对象区域或文本中含义丰富的词汇。即使是这些局部片段的细微变化也可能对整个内容产生显著影响,从而凸显了这些关键局部信息的重要性。因此,SDITR 要求模型专注于关键的局部信息片段,以增强图像与文本特征在共享表示空间中的表达,进而改进图像与文本之间的对齐精度。

本课题通过探索视觉语言预训练模型在特定领域图像-文本检索任务中的应用,研究了特定领域图像-文本检索任务中的局部特征利用问题。主要贡献在于提出了一种利用具有判别性的细粒度局部信息的方法,优化图像与文本在共享表示空间中的对齐。

为此,我们设计了显式关键局部信息选择和重建框架和基于多模态交互的关键局部段重构策略,这些方法有效地利用了具有判别性的细粒度局部信息,从而显著提升了图像与文本在共享空间中的对齐质量,广泛和充分的实验证明了所提出策略的先进性和有效性。

在此特别感谢西安电子科技大学IPIU实验室对本论文的大力支持与重要研究贡献。

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

此项研究成果不仅标志着网易伏羲在多模态研究领域再次取得重要突破,也为特定领域的跨模态理解提供了全新的视角和技术支撑。优化图像与文本在特定场景下的交互准确度,这项工作为跨模态理解技术在实际应用场景中的提升奠定了坚实的基础。
目前,网易伏羲的多模态理解能力已在网易集团的多个业务部门得到广泛应用,包括网易雷火、网易云音乐、网易元气等。这些应用覆盖了诸如游戏创新性文字捏脸玩法、跨模态资源搜索、个性化内容推荐等多种场景,展现了巨大的业务价值。
未来,随着研究的深入与技术进步,该成果有望促进人工智能技术在教育、医疗、电子商务等多个行业的广泛应用,为用户提供更加个性化和智能化的服务体验。网易伏羲也将持续深化与国内外顶尖学术机构的交流与合作,在更多前沿研究领域展开深入探索,共同推动人工智能技术的发展,为构建一个更高效、更智能的社会贡献力量。
扫描下方二维码,立即体验“丹青约”,享受“更懂你”的图文并茂的多模交互体验!

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

以上就是ACM MM2025 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破的详细内容,更多请关注其它相关文章!


# 丹青约  # 学术会议  # 重构  # 研究领域  # 多个  # 新突破  # 多模  # 模态  # 伏羲  # 关键词  # 网易  # 人工智能  # 花束推广视频素材下载网站  # 网站推广需要具备的技能  # 网站制作推广报价怎么算  # 网站制作推广公司报价  # 沙河网站建设网站推广  # 德州网站内容优化  # 南宁网站优化常识  # seo排行榜原理  # 保定营销推广推荐  # 百度营销推广怎么登录 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: “图壤·阅读元宇宙”亮相北京国际图书博览会  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  美图设计室2.0什么时候上线  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取  2025“春晖杯”人工智能专场对接活动举办  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平  人形机器人概念集体爆发,能买吗?  AI立法迫在眉睫,如何看对行业影响?  人工智能在服务优化方面优缺点有哪些  人工智能产业协同创新中心:全产业链资源在这里汇聚  Vision Pro头显重磅发布;苹果收购AR厂商Mira  热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据  Meta将VR头显最低年龄限制从13岁降至10岁  智能手机应用中的人工智能的重要性  AI创作广告文案等同2.47年工作经验,且消费者无法区分|AI营销前沿  陈根:ChatGPT和人类合作开发机器人  马斯克回应人工智能拯救世界:人类已处于“半机器人”状态  零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作  亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升  “五年内人类程序员将消失”预言引争议,AI真的那么强大了吗?  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  2025世界人工智能大会成功召开  一文看懂被英伟达看中的九号机器人移动底盘  全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  一文读懂自动驾驶的激光雷达与视觉融合感知  深剖Apple Vision Pro中暗藏的“AI”  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  令人震惊的特斯拉机器人  世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  黄仁勋:5年前,我们对AI抱有巨大期望  提升工作效率的智能工具:Zapier 让工作变得更简单!  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  标小智LOGO推出AI公司起名生成器“Name.GPT”  马斯克称人类是半机器人,记忆外包给了电脑  Bing Chat 和 Bing Search 正式引入深色模式  软通动力天枢元宇宙研究院签约落户江宁高新区  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  OpenAI宣布组建新团队 以控制“超级智能”人工智能  实测 AI 建筑设计软件的自动生成效果图能力  大厂出品!这个AI网站太顶了,所有功能免费用 

 2024-08-08

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.