案例中心
您当前的位置 : 首 页 > 案例展示 > 使用 Transformers 进行实时多模态 3D 物体检测

资料下载Download

D

联系我们Contact Us

上海巨视安全防范技术有限公司

电 话:021-64192060

无人机:13311882358(孙总)

交换机:18017588179(孙经理)

邮 箱:service@covond.com

地 址:上海市闵行区中春路4999号

           莘庄商务楼1326室

使用 Transformers 进行实时多模态 3D 物体检测

2025-06-15 01:21:00
6次

三维物体检测作为一种尖端的计算机视觉技术,旨在准确识别和分类三维空间内的物体。3D 物体检测的应用非常广泛。例如,在自动驾驶中,必须识别各种物体的位置和类别。在增强现实 (AR) 中,需要增强场景识别和理解 。此外,对于机器人物体操控等任务,需要了解物体的位置和类别。由于需要估计现实世界空间中的物体形状和方向,3D 物体检测技术最近越来越受欢迎。

 

如今,激光雷达传感器正在推动该技术的发展,它通过将深度捕获为点云,可以在不同光照条件下提供可靠的物体定位。尽管取得了进展,但由于采样密度稀疏,基于激光雷达的检测性能对于远距离物体会下降。相反,彩色图像传感器可以提供高分辨率采样和丰富的上下文数据,从而弥补激光雷达的局限性。RGB图像和LiDAR数据的融合通常可以增强3D检测性能。

 

当前的 LiDAR–相机融合方法大致可分为三类:结果级、提案级和点级。

l结果级技术 ,例如 FPointNet 和 RoarNet ,利用预先存在的 2D 检测器来启动 3D 提案,随后采用 PointNet 进行对象定位。

l提案级融合技术,包括 MV3D 和 AVOD,通过在每种模态中为共享提案实现 RoIPool 来在区域提案级别执行融合。然而,由于矩形感兴趣区域 (RoI) 中通常存在高水平的背景噪声,因此这些粗粒度融合技术已显示出次优结果。

l最近,大多数方法都尝试了点级融合,并取得了有希望的结果。这些方法首先基于校准矩阵在 LiDAR 点和图像像素之间建立牢固的关联,然后通过逐点连接使用关联像素的分割分数或 CNN 特征增强 LiDAR 特征。类似地,一些研究首先将点云投影到鸟瞰图 (BEV) 平面上,然后将图像特征与 BEV 像素融合。

 

融合作为 进的技术之一,是使用两个 Transformer 解码器层作为检测头的 研究之一。它重新定位了融合过程的重点,从硬关联到软关联,从而对图像质量下降和传感器错位具有鲁棒性。

 

尽管 Transfusion 的检测准确率高于其他模型,但它的推理时间较长。这是因为 Transfusion 面临着三个主要挑战,阻碍了它的广泛应用。首先,模型的主干未经优化,导致特征提取效率低下。其次,传统解码器的多尺度特征融合机制也带来了显著的计算开销。最后,Transfusion 的设计包括一些难以优化的查询,从而减慢了模型的推理速度。因此,由于计算成本高,Transfusion 成为模型的计算瓶颈。


 3D AP 方面,多模态模型优于仅使用 LiDAR 的模型;然而,它们的推理速度较慢,尤其是基于 Transformer 的多模态模型 Transfusion。尽管 Transfusion 的检测准确率较高,但它较慢的推理速度限制了它在未来应用中的实际效用。

 

使用 Transformers 进行实时多模态 3D 物体检测1.png 

image.png 

n基于 LiDAR 的 3D 物体检测

近年来,基于 LiDAR 的 3D 物体检测引起了广泛关注,标志着该领域取得了重大进步。根据不同的实现途径,基于 LiDAR 的 3D 检测方法可分为三类:点云方法、体素化方法和深度图方法。

PointNet 和 PointNet++ 是直接从点云中提取特征的方法,可以完成点云的分类和分割等。传统方法通常涉及将 LiDAR 点云投影到 2D 平面上,例如鸟瞰图 (BEV) 或范围视图图像,以便于 3D 物体检测 。

这种方法虽然有效,但简化了数据中固有的复杂空间关系。最近的研究致力于直接处理原始点云,绕过数据量化的需要,从而保留了空间信息的丰富性。这些系统的检测头设计通常与 2D 检测框架中使用的设计相似,严重依赖锚框来识别物体边界。

然而,创新方法已经出现,利用基于中心的表示来简化 3D 检测过程。尽管 Transformer 架构在 2D 检测中具有变革性影响,但它们在 3D 物体检测中的应用(尤其是在户外环境中)主要局限于特征提取阶段 。Transformer 的注意力机制对计算的需求非常大,尤其是当应用于 LiDAR 系统生成的海量数据时。因此,需要一种可以节省大量计算资源的策略。

 

为应对这些挑战,本文提出了一种新颖的组合,即用于特征提取的 QConv 主干与配备一组简明的对象查询用于检测的 EH 解码器。这种混合方法显著减少了计算负担,使其成为实时应用的可行解决方案。尽管如此,必须承认一个持续存在的挑战:LiDAR 系统的扫描分辨率固有较低,尤其是对于远距离物体,这加剧了数据稀疏性问题。我们的研究提出了一种创新的解决方案,即 LiDAR-摄像机融合方法,通过精心关联和融合对象查询来集成 RGB 图像数据,增强了模型有效检测和解释稀疏 LiDAR 数据的能力。该策略不仅减轻了 LiDAR 分辨率带来的限制,而且丰富了检测框架,提供了更稳健、更准确的检测系统 。

 

n基于图像的 3D 物体检测

基于图像的 3D 物体检测方法已经迅速发展,单目和双目视觉技术之间存在显著区别。最直接的方法是使用神经网络直接从图像中估计 3D 框参数 。这些方法从 2D 物体检测网络的架构设计中汲取灵感,例如快速 RCNN ,这些网络已证明能够有效促进端到端训练。

基于单目视觉的检测系统主要利用包括深度估计、关键点检测和利用基于 CAD 的先验信息等方法。单目图像的根本挑战在于其内在的局限性:它们仅提供 3D 世界的 2D 投影,本质上缺乏深度信息。这一限制严重限制了深度感知的准确性和可靠性,进而限制了 3D 物体检测的有效性。

相比之下,基于双目视觉的检测方法试图通过利用两个有利位置之间的差异来克服这些限制,模拟人类的立体视觉来推断深度。这种方法导致了创新框架和算法的发展,旨在从双目图像生成更  3D 数据。其中值得注意的是 Chen 等人提出的 3DOP 系统,该系统从双目图像估计点云,以及 Xu 和 Chen 提出的 MLF 方法,该方法从双目图像计算视差图以重建深度图和点云。

此外,Li 等人提出的 CGStereo 系统,通过语义分割监督增强,显著提高了前景深度估计的精度。此外,Chen 等人开发了一种名为伪立体的技术,可以从双目图像估计深度图,Peng 等人开发了一种名为伪立体的技术,介绍了一种利用双分支网络的 SIDE 生成伪雷达和目标级深度估计的方法 。

尽管取得了这些进展,但从 2D 图像中准确捕获 3D 信息的固有挑战仍然是一个重大障碍。在不依赖其他模态的情况下,从 2D 图像中 提取深度和其他 3D 信息是不现实的。因此,虽然这些方法标志着该领域的进步,但通过基于图像的方法提高检测精度的追求仍然是一个复杂且不断发展的挑战。

n多模态 3D 物体检测

基于视觉图像的方法擅长提供丰富的纹理细节,但在提供深度线索方面有所欠缺。相反,基于点云的方法提供了空间几何洞察,但缺乏纹理背景。纹理细节对于准确的物体检测和分类至关重要,而深度信息对于估计物体的空间定位至关重要。

多传感器3D检测方法能够整合来自不同传感器的信息,为解决激光雷达和基于摄像头的检测方法中遇到的挑战提供了解决方案。图像和点云特征的协同组合体现了传感器融合的重要性,而多传感器的集成有助于减轻单传感器故障并增强在不同环境中的适应性。目前,通过整合图像和激光雷达数据来提高整体性能代表了多模态3D物体检测方法领域一个很有前途的研究方向

由于点云和图像的协同特性,LiDAR-相机 3D 检测引起了广泛关注。最初的研究主要采用结果级或提案级融合技术,其特点是融合粒度相对较粗,未充分利用两种模态的潜力。PointPainting的出现标志着向点级融合方法的转变,这些方法已显示出显著的优势和令人鼓舞的结果。然而,这些方法容易受到由校准矩阵定义的刚性点-像素关联引起的传感器错位问题的影响 。此外,简单的逐点连接忽略了模态之间的完整性和上下文相互作用,当图像特征不理想时会导致性能下降。最近,引入了 进的技术 Transfusion,它已成为一种更为强大和有效的融合机制,解决了 LiDAR-相机融合中的这些挑战。

尽管 Transfusion (SOTA) 在多模态物体检测方面表现出色,但其推理速度与单模态检测方法相比有所落后。这种差异部分是由于处理多模态固有的计算需求,部分是由于 Transfusion 架构内部有待优化的低效率。

因此,本文提出了QConv,EH解码器和半动态查询选择三种方法来优化Transfusion以实现快速Transfusion。

lTransfusion 对传统卷积神经网络主干的依赖,由于跨通道特征映射的冗余而引入了大量的计算开销,而固定的卷积结构在捕捉几何变换方面自然受到限制,这也会降低准确性。

lTransfusion 中多尺度特征的集成虽然提高了解码器的性能和收敛速度,但同时也增加了计算成本。虽然可变形注意机制在一定程度上减轻了这些成本,但将多尺度特征纳入解码器仍然会带来巨大的计算负担。

l虽然Transfusion改进了Object Query的初始化,将其扩展到内容查询和位置查询(anchor),但是由于分类分数和位置置信度的分布不一致,一些预测框虽然分数很高,但与GT框距离并不近,导致分数高而IoU分数低的框被选中,而分数低而IoU分数高的框被丢弃,从而影响检测器的性能。


标签

image.png     微信二维码.jpg

           公众号                              扫码咨询

联系我们
上海市闵行区中春路4999号莘庄商务楼1326室
service@covond.com
www.covond.com

交换机:18017588179(孙经理)   

无人机:13311882358(孙总)

底部导航

首页                    高精度定位

工业物联网          智能设备箱

工业交换机          案例中心   

新闻中心  

Copyright © 上海巨视安全防范技术有限公司 主要从事于徐州uwb定位,徐州高精度室内定位,徐州工业通讯网关, 欢迎来电咨询! 沪ICP备18000433号