首页 > 营销学院 > IT资讯

CVPR 2025满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

单目动态场景（monocular dynamic scene）是指使用单眼摄像头观察和分析的动态环境，其中物体可以在场景中自由移动。单目动态场景重建在理解环境中的动态变化、预测物体运动轨迹以及生成动态数字资产等任务中具有关键意义。利用单目视觉技术，可以实现动态场景的三维重建和模型估计，帮助我们更好地理解和处理动态环境中的各种情况。这种技术不仅可应用于计算机视觉领域，还可以在自动驾驶、增强现实和虚拟现实等领域发挥重要作用。通过单目动态场景重建，我们可以更准确地捕捉环境中物体的运动

随着以神经辐射场（Neural Radiance Field, NeRF）为代表的神经渲染的兴起，越来越多的工作开始使用隐式表征（implicit representation）进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作，如 D-NeRF，Nerfies，K-planes 等已经取得了令人满意的渲染质量，他们仍然距离真正的照片级真实渲染（photo-realistic rendering）存在一定的距离。

来自浙江大学和字节跳动的研究团队指出，上述问题的核心在于基于光线投射（ray casting）的 NeRF pipeline 通过逆向映射（backward-flow）将观测空间（observation space）映射到规范空间（canonical space）时出现了准确性和清晰性方面的挑战。逆向映射对于学习结构的收敛并不理想，导致目前的方法在 D-NeRF 数据集上仅能达到 30+ 级别的 PSNR 渲染指标。

为了解决这个挑战，该研究团队提出了一种基于光栅化的单目动态场景建模流程。他们首次将变形场与3D高斯结合，创造了一种新的方法，实现了高质量的重建和新视角渲染。这项研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉领域顶级国际学术会议CVPR 2025接受。这项工作中独特的地方在于，它是首个将变形场应用于3D高斯以拓展到单目动态场景的研究。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

项目主页：https://ingra14m.github.io/Deformable-Gaussians/
论文链接：https://arxiv.org/abs/2309.13101
代码：https://github.com/ingra14m/Deformable-3D-Gaussians

实验结果表明，变形场能够有效地将规范空间中的3D高斯前向映射精确地映射到观测空间。在D-NeRF数据集上，实现了10%以上的PSNR提升。此外，在真实场景中即使相机位姿不够准确，也能够增加渲染细节。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 1 HyperNeRF 真实场景的实验结果。}

相关工作

动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染，动态重建领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场，实现了稳健的动态场景重建。TiNeuVox，K-Planes 和 Hexplanes 在此基础上引入了网格结构，大大加速了模型的训练过程，渲染速度有一定的提高。然而这些方法都基于逆向映射，无法真正实现高质量的规范空间和变形场的解耦。

3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量，还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而，其只能处理多目场景非常严重地制约了其应用于更通用的情况，如手机拍摄等单目场景。

研究思想

Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置，旋转，缩放，不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式，不难发现，随时间变化的位置，以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而，不同于传统的基于点云的渲染方法，3D 高斯在初始化之后，位置，透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。

该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说，该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间，随后通过变形场，以规范空间中 3D 高斯的坐标信息作为输入，预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场，该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline，经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。

此外，引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高，从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新，但实验结果表明，这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代，规范空间的 3D 高斯的位置参数几乎不再变化。

研究团队发现真实场景的相机位姿往往不够准确，而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响，因为神经辐射场基于多层感知机（Multilayer Perceptron，MLP），是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构，略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。

为了缓解这个问题，该研究创新地引入了退火平滑训练（Annealing Smooth Training，AST）。该训练机制旨在初期平滑 3D 高斯的学习，在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量，而且大幅度提高了时间插值任务的稳定性与平滑性。

图 2 展示了该研究的 pipeline，详情请参见论文原文。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

^{图 2 该研究的 pipeline。}

结果展示

该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出，Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 3 该研究在 D-NeRF 数据集上的定性实验对比结果。}

该研究提出的方法不仅在视觉效果上取得了大幅度的提升，在渲染的定量指标上也有着相应的改进。值得注意的是，研究团队发现 D-NeRF 数据集的 Lego 场景存在错误，即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较，该研究使用了 Lego 的验证集作为指标测量的基准。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 4 在合成数据集上的定量比较。}

如图 4 所示，该研究在全分辨率（800x800）下对比了 SOTA 方法，其中包括了 CVPR 2025 的 D-NeRF，Sig Asia 2025 的 TiNeuVox 和 CVPR2025 的 Tensor4D，K-planes。该研究提出的方法在各个渲染指标（PSNR、SSIM、LPIPS），各个场景下都取得了大幅度的提高。

该研究提出的方法不仅能够适用于合成场景，在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示，该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明，即使没有对高光反射表面进行特殊处理，该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS，取得了最佳的渲染效果。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 5 真实场景方法对比。}

虽然 MLP 的引入增加了渲染开销，但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构，我们

依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85（400x400），68（800x800）。

此外，该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示，该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务，例如逆向渲染（Inverse Rendering），SLAM 与自动驾驶等。

^{图6 深度可视化。}

作者简介

论文第一作者：杨子逸，浙江大学硕士二年级，主要研究方向为三维高斯、神经辐射场、实时渲染等。

论文其他作者：高新宇，浙江大学硕士三年级，主要研究方向为神经辐射场，隐式场景组合。

张宇晴：浙江大学硕士二年级，主要研究方向为 3D 生成，逆向渲染。

论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。

Email: jin@cad.zju.edu.cn
个人主页：http://www.cad.zju.edu.cn/home/jin/

以上就是CVPR 2025满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法的详细内容，更多请关注其它相关文章！

# 单目动态场景 # 市南区网站建设与管理 # 网站建设工作室定制 # 日本SEO 大阪 # 珠海网站推广平台 # 如何查看成交关键词排名 # 网站建设几大技巧 # 贵阳大宇SEO优化 # 网站收录排名关键词 # seo 查询网站收录标题语句 # 取得了 # 所示 # 应用于 # 如图 # 中国科学院 # 这一 # 实现了 # 浙江大学 # 高质量 # 高斯 # 工程 # 孝感网站建设详细内容

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-03-05

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。