提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。
下面一起来阅读一下这项工作~
标题:DepthFM: Fast Monocular Depth Estimation with Flow Matching
作者:Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
机构:MCML
原文链接:https://arxiv.org/abs/2403.13788
代码链接:https://github.com/CompVis/depth-fm
官方主页:https://depthfm.github.io/
针对许多下游观光任务和应用至关重要。目前针对此问题的判别式方法受到模糊伪影的限制,而最先进的生成方法由于其SDE性质导致训练样本速度缓慢。我们不是从噪声开始,而是寻求从输入图像到深度图像的直接映射。我们观察到这可通过流匹配来有效地构建,因为其在解空间中的直线轨迹提供了效率和高质量。我们的研究表明,预先训练的图像扩散模型可用于作为流匹配深度模型的充分先验知识。在复杂自然场景的基准测试中,尽管仅在少量合成数据上进行训练,我们的轻量级方法以有利的低计算成本表现出最先进的性能。
DepthFM是一种具有强零样本泛化能力的快速推理流匹配模型,可利用强大的先验知识,并且很容易地泛化到未知的真实图像中。在合成数据上进行训练后,模型可以很好地泛化到未知的真实图像中,并对深度图像进行精确匹配。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
与其他最先进的模型相比,DepthFM仅用一个函数评估就获得了明显更清晰的图像。Marigold的深度估计耗时是DepthFM的两倍,但无法生成相同粒度的深度图。

(1)提出了DepthFM,一种最先进的、多功能的、快速的单目深度估计模型。除了传统的深度估计任务外,DepthFM还展
示了在深度修补和深度条件图像合成等下游任务中的最新能力。
(2)展示了将强大的图像先验从扩散模型成功转移到流匹配模型,几乎不依赖于训练数据,也不需要真实世界的图像。
(3)表明,流匹配模型高效,并能在单个推理步骤内合成深度图。
(4)尽管仅在合成数据上进行训练,但DepthFM在基准数据集和自然图像上表现出色。
Machine Translation
聚合多个来源的AI翻译
49
查看详情
(5)将表面法线损失作为辅助目标,以获得更准确的深度估计。
(6)除了深度估计,还可可靠地预测其预测的置信度。
训练Pipeline。 训练受到流匹配和表面法向损失的限制:对于流匹配,使用数据依赖的流匹配来回归地面真实深度与对应图像之间的向量场。此外,通过一个表面法向损失来实现几何真实感。

数据相关的流匹配: DepthFM通过利用图像到深度对,回归出图像分布和深度分布之间的直线向量场。这种方法在不牺牲性能的情况下促进了高效的几步推理。
从扩散先验微调: 作者展示了成功将强大的图像先验从基础图像合成扩散模型(Stable Diffusion v2-1)转移到流匹配模型,几乎不依赖训练数据,并且不需要真实世界的图像。
辅助表面法线损失: 考虑到DepthFM只在合成数据上进行训练,大多数合成数据集提供了地面真实表面法线,将表面法线损失作为辅助目标,以增强DepthFM深度估计的准确性。
DepthFM通过仅在63k纯合成样本上进行训练展现出了显著的泛化能力,并且能够在室内外数据集上进行零-shot深度估计。表1定性地展示了DepthFM与最先进的对应模型的性能对比。虽然其他模型通常依赖于大量数据集进行训练,但DepthFM利用了基于扩散的基础模型中固有的丰富知识。这种方法不仅节省了计算资源,而且强调了模型的适应性和训练效率。

对基于扩散的Marigold深度估计、流匹配(FM)基准和DepthFM模型进行比较。每种方法仅使用一个集合成员进行评估,并针对两个常见基准数据集进行不同数量的函数评估(NFE)。与FM基准相比,DepthFM集成了训练过程中的法线损失和数据相关的耦合。

对于Marigold和的DepthFM模型在不同数量的功能评估中的定性结果。值得注意的是,通过一步推断,Marigold并没有给出任何有意义的结果,而DepthFM的结果已经显示了真实的深度图。

在Hypersim上进行深度补全。左:给予部分深度。中:深度估计从给定的部分深度。右:真值深度。

DepthFM,一种用于单目深度估计的流匹配方法。通过学习输入图像和深度之间的直接映射,而不是将正态分布去噪为深度图,该方法明显比当前基于扩散的解决方案更高效,同时仍提供细粒度的深度图,而不会出现判别式范式的常见伪影。DepthFM使用预先训练好的图像扩散模型作为先验,有效地转移到了深度流匹配模型中。因此,DepthFM只在合成数据上进行了训练,但在推断期间仍然能很好地推广到自然图像。此外,辅助表面法线损失已被证明能改善深度估计。DepthFM的轻量级方法具有竞争力,速度快,并提供可靠的置信度估计。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文
以上就是开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计!的详细内容,更多请关注其它相关文章!
# 只在
# 养生馆推广营销策划方案
# 北京网站推广服务公司
# 一站式营销推广价钱
# 官网seo公司
# 网站优化课程培训
# 推广软件的朋友圈营销文案
# 揭阳谷歌seo厂家
# 长春短视频seo贵不贵
# 铜梁区网站建设费用
# 西藏seo快排软件
# 中国
# 数据
# 有效地
# 多功能
# 提出了
# 很好
# 本田
# 展示了
# 最先进
# 开源
# stable diffusion
# 训练
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
微软新出热乎论文:Transformer扩展到10亿token
世界上第一个完全由人工智能驱动的图像编辑器!
城市在采用人工智能方面进展如何?
Meta 人工智能业务落后竞争对手,研究人员大量离职成重要原因
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!
南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台
“一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”
微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测
麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管
聚焦人工智能大模型、AIGC 徐汇十余场重磅论坛等你来
Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
人工智能在重症监护室的未来
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
AI生成新闻网站数量激增,正在疯狂赚取广告收入
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
美图公司:Wink国内首发AI画面拓展功能
携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐
静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!
Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”
科技有狠活|时光修复师 :用AI让昨日重现
本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
在心理治疗中用VR技术,治疗成效显著提高
【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了
美妆行业在AI时代蓬勃发展
网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准
换流站无线物联网络为新型电力系统铺设“数字之路”
AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲
《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
这效果能打几分?AI真人化《名侦探柯南》
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗
IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步
《共同的演化》展览启幕,重新思考人类与人工智能关系
AI立法迫在眉睫,如何看对行业影响?
特斯拉人形机器人将亮相 预计售价不超过15万元
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%
酒店业将如何受益于人工智能的改变?
社区里,孩子们体验“机器人竞技”
2024-04-03
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。