OccNeRF：完全无需激光雷达数据监督

写在前面&笔者的个人总结

近年来，自动驾驶领域的3D占据预测任务因其独特的优势受到学术界和工业界的广泛关注。该任务通过重建周围环境的3D结构，为自动驾驶的规划和导航提供详细信息。然而，目前主流的方法大多依赖于基于激光雷达（LiDAR）点云生成的标签来监督网络训练。在最近的OccNeRF研究中，作者提出了一种自监督的多相机占据预测方法，名为参数化占据场（Parameterized Occupancy Fields）。该方法解决了室外场景中无边界的问题，并重新组织了采样策略。然后，通过体渲染（Volume Rendering）技术，将占据场转换为多相机深度图，并通过多帧光度一致性（Photometric Error）进行监督。此外，该方法还利用预训练的开放词汇语义分割模型来生成2D语义标签，以赋予占据场语义信息。这种开放词汇语义分割模型能够对场景中的不同物体进行分割，并为每个物体分配语义标签。通过将这些语义标签与占据场结合，模型能够更好地理解环境并做出更准确的预测。总之，OccNeRF方法通过参数化占据场、体渲染和多帧光度一致性的组合使用，以及与开放词汇语义分割模型的结合，实现了自动驾驶场景中的高精度占据预测。这种方法为自动驾驶系统提供了更多的环境信息，有望提高自动驾驶的安全性和可靠性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

occnerf：完全无需激光雷达数据监督

论文链接：https://arxiv.org/pdf/2312.09243.pdf
代码链接：https://github.com/LinShan-Bin/OccNeRF

OccNeRF问题背景

近年来，随着人工智能技术的飞速发展，自动驾驶领域也取得了巨大进展。3D 感知是实现自动驾驶的基础，为后续的规划决策提供必要信息。传统方法中，激光雷达能直接捕获精确的 3D 数据，但传感器成本高且扫描点稀疏，限制了其落地应用。相比之下，基于图像的 3D 感知方法成本低且有效，受到越来越多的关注。多相机 3D 目标检测在一段时间内是 3D 场景理解任务的主流，但它无法应对现实世界中无限的类别，并受到数据长尾分布的影响。

3D 占据预测能很好地弥补这些缺点，它通过多视角输入直接重建周围场景的几何结构。大多数现有方法关注于模型设计与性能优化，依赖 LiDAR 点云生成的标签来监督网络训练，这在基于图像的系统中是不可用的。换言之，我们仍需要利用昂贵的数据采集车来收集训练数据，并浪费大量没有 LiDAR 点云辅助标注的真实数据，这一定程度上限制了 3D 占据预测的发展。因此探索自监督 3D 占据预测是一个非常有价值的方向。

详解OccNeRF算法

下图展示了 OccNeRF 方法的基本流程。模型以多摄像头图像作为输入，首先使用 2D backbone 提取 N 个图片的特征，随后直接通过简单的投影与双线性插值获 3D 特征（在参数化空间下），最后通过 3D CNN 网络优化 3D 特征并输出预测结果。为了训练模型，OccNeRF 方法通过体渲染生成当前帧的深度图，并引入前后帧来计算光度损失。为了引入更多的时序信息，OccNeRF 会使用一个占据场渲染多帧深度图并计算损失函数。同时，OccNeRF 还同时渲染 2D 语义图，并通过开放词汇语义分割模型进行监督。

OccNeRF：完全无需激光雷达数据监督

Parameterized Occupancy Fields

Parameterized Occupancy Fields 的提出是为了解决相机与占据网格之间存在感知范围差距这一问题。理论上来讲，相机可以拍摄到无穷远处的物体，而以往的占据预测模型都只考虑较近的空间（例如 40 m 范围内）。在有监督方法中，模型可以根据监督信号学会忽略远处的物体；而在无监督方法中，若仍然只考虑近处的空间，则图像中存在的大量超出范围的物体将对优化过程产生负面影响。基于此，OccNeRF 采用了 Parameterized Occupancy Fields 来建模范围无限的室外场景。

OccNeRF：完全无需激光雷达数据监督

OccNeRF 中的参数化空间分为内部和外部。内部空间是原始坐标的线性映射，保持了较高的分辨率；而外部空间表示了无穷大的范围。具体来说，OccNeRF 分别对 3D 空间中点的坐标做如下变化：

其中为坐标，，是可调节的参数，表示内部空间对应的边界值，也是可调节的参数，表示内部空间占据的比例。在生成 parameterized occupancy fields 时，OccNeRF 先在参数化空间中采样，通过逆变换得到原始坐标，然后将原始坐标投影到图像平面上，最后通过采样和三维卷积得到占据场。

Multi-frame Depth Estimation

为了实现训练 occupancy 网络，OccNeRF选择利用体渲染将 occupancy 转换为深度图，并通过光度损失函数来监督。渲染深度图时采样策略很重要。在参数化空间中，若直接根据深度或视差均匀采样，都会造成采样点在内部或外部空间分布不均匀，进而影响优化过程。因此，OccNeRF 提出在相机中心离原点较近的前提下，可直接在参数化空间中均匀采样。此外，OccNeRF 在训练时会渲染并监督多帧深度图。

下图直观地展示了使用参数化空间表示占据的优势。（其中第三行使用了参数化空间，第二行没有使用。）

OccNeRF：完全无需激光雷达数据监督

Semantic Label Generation

OccNeRF 使用预训练的 GroundedSAM (Grounding DINO + SAM) 生成 2D 语义标签。为了生成高质量的标签，OccNeRF 采用了两个策略，一是提示词优化，用精确的描述替换掉 nuScenes 中模糊的类别。OccNeRF中使用了三种策略优化提示词：歧义词替换（car 替换为 sedan）、单词变多词（manmade 替换为 building, billboard and bridge）和额外信息引入（bicycle 替换为 bicycle, bicyclist）。二是根据 Grounding DINO 中检测框的置信度而不是 SAM 给出的逐像素置信度来决定类别。OccNeRF 生成的语义标签效果如下：

OccNeRF：完全无需激光雷达数据监督

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

OccNeRF实验结果

OccNeRF 在 nuScenes 上进行实验，并主要完成了多视角自监督深度估计和 3D 占据预测任务。

多视角自监督深度估计

OccNeRF 在 nuScenes 上多视角自监督深度估计性能如下表所示。可以看到基于 3D 建模的 OccNeRF 显著超过了 2D 方法，也超过了 SimpleOcc，很大程度上是由于 OccNeRF 针对室外场景建模了无限的空间范围。

OccNeRF：完全无需激光雷达数据监督

论文中的部分可视化效果如下：

OccNeRF：完全无需激光雷达数据监督

3D 占据预测

OccNeRF 在 nuScenes 上 3D 占据预测性能如下表所示。由于 OccNeRF 完全不使用标注数据，其性能与有监督方法仍有差距。但部分类别（如 drivable surface 与 manmade）已达到与有监督方法可比的性能。

OccNeRF：完全无需激光雷达数据监督

文中的部分可视化效果如下：

OccNeRF：完全无需激光雷达数据监督

总结

在许多汽车厂商都尝试去掉 LiDAR 传感器的当下，如何利用好成千上万无标注的图像数据，是一个重要的课题。而 OccNeRF 给我们带来了一个很有价值的尝试。

OccNeRF：完全无需激光雷达数据监督

原文链接：https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

以上就是OccNeRF：完全无需激光雷达数据监督的详细内容，更多请关注其它相关文章！

# 转换为 # 关键词排名优化排名公司 # 雅客seo # 南昌推广营销 # 酷爱购物网站建设 # 广州市企业网站推广平台 # 江门网站建设总部电话 # 网站排名搜索推广价格 # seo教程搜索引擎优化 # 揭阳seo整站排名 # 济南全网seo推广 # 室外 # 3d # 好用 # 景中 # 所示 # 采用了 # 十大 # 这一 # 前十 # 多相 # tome # 自动驾驶

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-02-07

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。