北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 cvpr 2025 正式公布了最佳论文等奖项。
今年共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,另外还有2篇最佳论文提名和4篇最佳学生论文提名。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

计算机视觉(CV)领域的顶级会议是CVPR,每年都会吸引大量研究机构和高校参会。据统计,今年共提交了11532份论文,2719篇被接收,录用率为23.6%。
根据佐治亚理工学院对CVPR 2025的数据统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,共329篇。

今年的参会总人数高于往年,且越来越多的人选择了线下参会。

最佳论文
论文 1:Generative Image Dynamics
作者:Zhengqi Li、Richard Tucker、Noah Sn*ely、Aleksander Holynski
机构:谷歌研究院
论文地址:https://arxiv.org/pdf/2309.07906

Zhengqi Li(李正奇)是 Google DeepMind 的一名研究科学家。此前,他在康奈尔大学获得了计算机科学博士学位,师从 Noah Sn*ely 教授。他的研究成果曾多次获奖,包括 2025 年 Google 博
士奖学金、2025 年 Adobe 研究奖学金、CVPR 2019 和 CVPR 2025 最佳论文荣誉奖、ICCV 2025 最佳学生论文奖。
摘要:该研究提出了一种对场景运动建模图像 - 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的运动轨迹,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该研究建模傅立叶域中密集的长期运动作为频谱体积(spectral volume),研究团队发现这非常适合用扩散模型预测。

给定单个图像,该研究训练的模型使用频率协调扩散采样过程来预测频谱体积,还可以转换为跨越整个视频的运动纹理(motion texture)。

该研究可以通过调整运动纹理的幅度来缩小(顶部)或放大(底部)动画运动。
与基于图像的渲染模块一起,预测的运动表征可用于许多下游应用,例如将静止图像变成无缝循环视频,或者允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。

论文 2:Rich Human Feedback for Text-to-Image Generation
作者:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等
机构:加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学
论文地址:https://arxiv.org/pdf/2312.10240

从论文作者一栏我们可以看到,这项研究有多位华人参与,其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生,在此之前,他是华南农业大学信息与计算机科学专业的本科生;Junfeng He 来自谷歌,此前他硕士毕业于清华大学。
摘要:最近,文本到图像(T2I)生成模型取得重大进展,能够根据文本描述生成高分辨率图像。然而,许多生成的图像仍然存在伪影 / 不可信、与事实不符、美观度低等问题。
受人类反馈强化学习(RLHF)成功用于大型语言模型的启发,该研究通过以下方式来丰富反馈信号:
用文本标记不可信或不对齐的图像区域;
对文本 prompt 中的单词在图像上被歪曲或缺失的情况,进行注释。

该研究创建了 18K 生成图像数据集 RichHF-18K,并在 RichHF-18K 上收集了丰富的人类反馈,并训练多模态 transformer 来自动预测反馈。该研究证明预测的人类反馈可用于改进图像生成,例如通过选择高质量的训练数据微调和改进生成模型,或者通过创建掩码来修复有问题的图像区域。

最佳论文亚军
论文 1:EventPS: Real-Time Photometric Stereo Using an Event Camera
作者:Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi
机构:北京大学、上海交通大学等
论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2025_paper.pdf

论文 2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
作者:D*id Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann
机构:MIT、西蒙菲莎大学、多伦多大学
论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2025_paper.pdf

最佳学生论文
论文 1:BioCLIP: A Vision Foundation Model for the Tree of Life
作者:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 D*id Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su
机构:俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院
论文地址:https://arxiv.org/pdf/2311.18803
摘要:从无人机到个人手机,各种相机收集的自然世界图像日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长,特别是计算机视觉,用于从科学和保护图像中提取生物学相关信息。然而,其中大多数都是为特定任务设计的定制方法,不容易适应或扩展到新的问题、上下文和数据集。研究者急需一个用于图像上一般生物体生物学问题的视觉模型。
为了实现这一目标,该研究策划并发布了 TREEOFLIFE-10M,这是规模最大、最多样化的生物图像数据集 ML-ready。基于此,研究者开发了基础模型 BIOCLIP,主要用于构建生命之树(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物学独特属性,即植物、动物和真菌图像的丰富性和多样性,以及丰富的结构化生物学知识。

TREEOFLIFE-10M 中 108 个门的树状图。
研究者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试,发现 BIOCLIP 的表现始终显著优于现有基线(绝对值高出 16% 到 17%)。
内在评估表明,BIOCLIP 已经学会了符合生命之树的分层表示,这揭示了其强大的通用性。
码上飞
码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。
430
查看详情
论文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting
论文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
机构:图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学
论文地址:https://arxiv.org/abs/2311.16493

摘要:最近,3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果,达到了高保真度和效率水平。然而,当改变采样率时(例如通过改变焦距或摄像机距离),强烈的伪影现象可能会出现。

3D 高斯泼溅通过将 3D 对象表示为被投影到图像平面上的 3D 高斯函数,随后在屏幕空间中进行 2D 膨胀处理,如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制,如图 (b) 中的 δ 函数所示,而由于膨胀操作,其渲染效果类似于 2D。然而,当改变采样率(通过焦距或相机距离)时,会观察到强烈的膨胀效应(c)和高频伪影(d)。
该研究团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题,他们引入了一种 3D smoothing filter,该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小,从而在放大时消除高频伪影。
此外,作者团队用 2D Mip filter 替换 2D dilation filter,这种滤波器模拟了 2D box filter,有效地缓解了走样和膨胀问题。研究者根据评估,包括在单尺度图像上训练和多尺度测试等场景,验证了这种方法的有效性。
最佳学生论文亚军
论文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
作者:Paul Roetzer 、Florian Bernard
机构:波恩大学
链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2025_paper.pdf

论文:Image Processing GNN: Breaking Rigidity in Super-Resolution
作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
机构:北京大学、华为诺亚方舟实验室
链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2025_paper.pdf

论文:Objects as volumes: A stochastic geometry view of opaque solids
作者:Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
机构:卡耐基梅隆大学
链接:https://arxiv.org/pdf/2312.15406v2

论文:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
作者:Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin
机构:俄勒冈州立大学
链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2025_paper.pdf

其他奖项
大会还公布了 PAMI TC 奖,包括 Longuet-Higgins 奖、青年研究者奖、Thomas S. Huang 纪念奖三项。

Longuet-Higgins 奖
Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。
今年获奖的论文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。

作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
机构:UC 伯克利
论文链接:https://arxiv.org/abs/1311.2524
青年研究者奖
青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。
今年获奖者为 Angjoo Kanazawa(UC 伯克利)和 Carl Vondrick(哥伦比亚大学)。

另外,Katie Bouman(加州理工学院)获得了青年研究者奖荣誉提名。

Thomas Huang 纪念奖
在 CVPR 2025 上,为了纪念 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2025 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。
今年的获奖者是牛津大学教授 Andrea Vedaldi。

更多信息可参考:https://media.eventhosts.cc/Conferences/CVPR2025/OpeningRemarkSlides.pdf
参考链接:
https://public.tableau.com/views/CVPR2025/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
以上就是CVPR 2025全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖的详细内容,更多请关注其它相关文章!
# 北京大学
# 鄠邑区视频营销推广
# 百度推广代运营营销
# 绍兴互联网推广营销招聘
# 江苏非遗推广官方网站下载
# 蓬莱专业网站推广
# 网站建设招聘文案范文
# seo搜索引擎优化自学
# 怀化整合营销推广
# 东莞政府类网站建设流程
# 沙河高端网站建设
# 一名
# 入门
# 丰田
# 博士学位
# 高斯
# 加利福尼亚
# 歌华
# 获最佳
# 参会
# 万人
# tome
# lsp
# access
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
AI拉动PCB发展|行业发现
亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会
实践J*a开发,构建高性能的MongoDB数据迁移工具
华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会
【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
李开复:未来几年,人工智能会革了所有人的命,除非你这么做
云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营
跟着AI大热的“光模块”到底是什么?
普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景
CharacterAI - 也许会成为会话人工智能的未来
五款 AI 网站构建器,任何人都能快速构建网站
SnapFusion技术大幅提升AI图像生成速度
携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实
鸿蒙4即将支持大规模AI模型
花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?
中国最强AI研究院的大模型为何迟到了
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作
微软bing聊天推出AI购物工具 可进行比价并查看历史最低价
大型无人机FH-98国内首次夜航转场成功
商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛
云鲸发布全新的扫拖机器人J4系列
城市在采用人工智能方面进展如何?
英伟达的AI领域垄断地位:一直无法撼动吗?
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
智能手机应用中的人工智能的重要性
Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光
人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新
2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩
大模型新品出现井喷,AI产业迎来新时代
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?
PHP和OpenCV库:如何实现人脸识别
阿里云推出通义万相AI绘画大模型
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
RoboNeo什么时候上线
马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了
人工智能正在弥合认知和表达之间的鸿沟
苹果CEO库克:持续研究生成式人工智能技术
创新全场景清洁方案!海尔商用机器人首发上市
北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感
谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍
2024-06-20
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。