单目动态场景(monocular dynamic scene)是指使用单眼摄像头观察和分析的动态环境,其中物体可以在场景中自由移动。单目动态场景重建在理解环境中的动态变化、预测物体运动轨迹以及生成动态数字资产等任务中具有关键意义。利用单目视觉技术,可以实现动态场景的三维重建和模型估计,帮助我们更好地理解和处理动态环境中的各种情况。这种技术不仅可应用于计算机视觉领域,还可以在自动驾驶、增强现实和虚拟现实等领域发挥重要作用。通过单目动态场景重建,我们可以更准确地捕捉环境中物体的运动
随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。
来自浙江大学和字节跳动的研究团队指出,上述问题的核心在于基于光线投射(ray casting)的 NeRF pipeline 通过逆向映射(backward-flow)将观测空间(observation space)映射到规范空间(canonical space)时出现了准确性和清晰性方面的挑战。逆向映射对于学习结构的收敛并不理想,导致目前的方法在 D-NeRF 数据集上仅能达到 30+ 级别的 PSNR 渲染指标。
为了解决这个挑战,该研究团队提出了一种基于光栅化的单目动态场景建模流程。他们首次将变形场与3D高斯结合,创造了一种新的方法,实现了高质量的重建和新视角渲染。这项研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉领域顶级国际学术会议CVPR 2025接受。这项工作中独特的地方在于,它是首个将变形场应用于3D高斯以拓展到单目动态场景的研究。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

项目主页:https://ingra14m.github.io/Deformable-Gaussians/
论文链接:https://arxiv.org/abs/2309.13101
代码:https://github.com/ingra14m/Deformable-3D-Gaussians
实验结果表明,变形场能够有效地将规范空间中的3D高斯前向映射精确地映射到观测空间。在D-NeRF数据集上,实现了10%以上的PSNR提升。此外,在真实场景中即使相机位姿不够准确,也能够增加渲染细节。

图 1 HyperNeRF 真实场景的实验结果。
相关工作
动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染,动态重建领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场,实现了稳健的动态场景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。
3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量,还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。
研究思想
Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式,不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。
该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说,该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间,随后通过变形场,以规范空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场,该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline,经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。
此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代,规范空间的 3D 高斯的位置参数几乎不再变化。
研究团队发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(Multilayer Perceptron,MLP),是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。
为了缓解这个问题,该研究创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。
图 2 展示了该研究的 pipeline,详情请参见论文原文。

Machine Translation
聚合多个来源的AI翻译
49
查看详情
图 2 该研究的 pipeline。
结果展示
该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。


图 3 该研究在 D-NeRF 数据集上的定性实验对比结果。
该研究提出的方法不仅在视觉效果上取得了大幅度的提升,在渲染的定量指标上也有着相应的改进。值得注意的是,研究团队发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较,该研究使用了 Lego 的验证集作为指标测量的基准。

图 4 在合成数据集上的定量比较。
如图 4 所示,该研究在全分辨率(800x800)下对比了 SOTA 方法,其中包括了 CVPR 2025 的 D-NeRF,Sig Asia 2025 的 TiNeuVox 和 CVPR2025 的 Tensor4D,K-planes。该研究提出的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。
该研究提出的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示,该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明,即使没有对高光反射表面进行特殊处理,该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS,取得了最佳的渲染效果。

图 5 真实场景方法对比。
依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400x400),68(800x800)。
图6 深度可视化。
作者简介
论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。
Email: jin@cad.zju.edu.cn
个人主页:http://www.cad.zju.edu.cn/home/jin/
以上就是CVPR 2025满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法的详细内容,更多请关注其它相关文章!
# 单目动态场景
# 市南区网站建设与管理
# 网站建设工作室定制
# 日本SEO 大阪
# 珠海网站推广平台
# 如何查看成交关键词排名
# 网站建设几大技巧
# 贵阳大宇SEO优化
# 网站收录排名关键词
# seo 查询网站收录标题语句
# 取得了
# 所示
# 应用于
# 如图
# 中国科学院
# 这一
# 实现了
# 浙江大学
# 高质量
# 高斯
# 工程
# 孝感网站建设详细内容
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
两型无人机完成交付!国家级机动观测业务正式启动
无需照相馆,AI证件照生成软件即将推出
苹果头显降临,AI虚拟人的救星还是流星?
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了
V社谈AI制作游戏被ban:为确保开发者有素材所有权
遵义市首次引入手术机器人,成功实施全膝关节置换术
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
重塑未来生活的五项技术趋势
人才智能平台转型中的人工智能的关键角色
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待
美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用
AI会帮我们把活干完吗?
如何用户外电源给无人机实现持久续航
英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏
自然语言生成在智能家居设备中的应用
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
RoboNeo操作教程
人工智能驱动艺术,打开达利的超现实想象
国产医疗企业的人工智能
AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布
高质量数据推动AI场景化应用快速发展及落地
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
人工智能在交通领域的革新:智能解决方案彻底改变交通方式
传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
优傲机器人的人机协作技术 助力中小企发展
李开复:未来几年,人工智能会革了所有人的命,除非你这么做
研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
基于预训练模型的金融事件分析及应用
上天下海登极,青岛与昇腾AI握手一起探索星辰大海
美图公司吴欣鸿:AI技术重构影像产业
pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
AI与5G的强强联合:唤醒数字时代的无尽潜能
乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联
世界周刊丨AI“棱镜”?
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
北交大推出国内首个开源交通大模型TransGPT,可免费商用
两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
美图开拍使用教程
在心理治疗中用VR技术,治疗成效显著提高
一文看懂被英伟达看中的九号机器人移动底盘
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
大厂出品!这个AI网站太顶了,所有功能免费用
2024-03-05
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。