由于需要对现实世界空间中的物体形状和方向进行估计,三维物体检测技术最近越来越受欢迎。3D物体检测包括识别物体类别和位置。3D物体检测在医疗诊断、工业生产检查、监控等许多领域都至关重要。
3D 检测正在医疗领域应用于内脏器官疾病检测。在医疗领域,3D CNN 用于通过计算机断层扫描 (CT)、扩散张量成像 (DTI)、磁共振成像 (MRI)、功能性磁共振成像和超声获得的 3D 图像 。
n基于深度学习的 2D 物体检测方法:
卷积神经网络( CNN )是这些算法的基础。CNN可以检测不同物体的模式和形状。虽然 2D 物体检测可以精 确检测物体,但缺乏深度和高度信息。深度和高度信息在避障、自动驾驶汽车导航、家用机器人、医疗手术等方面至关重要。
与 2D 物体检测不同,3D 物体检测在模型训练、数据可用性、注释和处理方面更为复杂。图 1说明了汽车的 2D 和 3D 物体检测之间的区别。图 1显示,在 2D 物体检测中,物体以二维形式(图像中的长度和宽度)检测。另一方面,在 3D 物体检测中,除了长度和宽度之外,还可以预测深度。
图 1. ( a ) 汽车的二维检测;( b ) 汽车的三维检测。
n基于 LiDAR 点云的 3D 物体检测
主要是自动驾驶汽车导航的 3D 物体检测。然而,除了自动驾驶之外,3D 物体检测最近在其他应用领域也正在发展。精准农业、家用机器人、监控服务等都可以从 3D 物体检测中受益。随着 3D 物体检测在研究人员中迅速流行起来,也出现了一些新发现,这些发现并未包含在之前发表的评论论文中。
自 2017 年以来,我们研究并分析了 3D 物体检测技术在不同领域的应用趋势。2017 年之前,与 3D 物体检测相关的研究非常稀缺。无论是使用激光雷达、单目相机、立体相机还是雷达,每种技术都有各自的优势和局限性。缺乏一项深入的研究来描述不同领域单模和多模 3D 物体检测技术的机会和障碍。
3D物体检测需要推断物体的高度和深度信息以及物体位置。为了获取有关物体的这些知识,研究人员使用了来自不同类型设备或传感器的多种数据模态。3D 物体检测技术的不同基准数据集包含不同的模态,并且它们表现出不同的范围和约束。
许多 3D 物体检测都是从点云执行的。点云是从物体表面反射的点的照明值以及 3D 位置。带有激光器的 LiDAR 传感器可以直接产生点云。从 RGB-D 数据集的深度信息(通常由红外或飞行时间相机获得)中,通过处理推断出点云。
对于 3D 检测,点云以两种方式处理,即:i. 直接点云处理;ii. 在鸟瞰图 (BEV) 或 2D 平面上投影点云。
在直接点云处理中,点云的点信息(如强度、3D 坐标值、颜色等)由神经网络直接处理,以提取特征并预测 3D 物体边界。与基于 2D 平面投影的方法相比,网络必须处理更高维的数据。当需要单独识别每个对象时,可能需要实例分割。语义分割可以定位所有具有共同类别名称的物体的同一类,如汽车、人、自行车等,而实例分割能够区分一辆汽车与其他汽车。这在物体跟踪或监视中通常是必不可少的。
鸟瞰图 (BEV) 或二维平面中的点云投影
另一种常用的 3D 物体检测方法是将 3D 点云投影到伪 2D 或鸟瞰平面。在 2D 视图投影之后,应用神经网络提取特征并生成物体预测。
Fang, Jin 等人使用 VoxelNet 或 PointPillars 形式的 LiDAR 点云,然后在特征图中应用 3D CNN。生成热图,其中局部最 大值是对象中心。识别中心可以加快对象跟踪速度。Simon, Martin 等人(2019)从点云创建了鸟瞰图投影,然后按照 YOLO V2 技术应用复杂 YOLO 来预测对象类别。之后,使用欧拉区域提议来检测物体的方向 。
虽然将 3D 点投影到 2D 平面的研究已经成功检测到道路场景中的物体,例如车辆或行人,但数据转换到另一个平面可能会导致信息丢失并造成额外的计算损失。
基于视觉的系统已成功应用于物体检测和跟踪 。Mahayuddin 等人使用语义卷积特征执行了基于视觉的运动物体检测,并取得了比 YOLO V3 更高的检测率和比 RCNN 更快的检测率 。除了单个物体,研究人员甚至使用基于视觉的系统从无人机图像中估计动态人群 。虽然这项研究主要关注二维物体检测,但基于视觉的运动物体检测在三维空间中也是可行的。使用摄像机的三维检测可以通过两种方法进行,即 i. 单目和 ii. 立体图像。
单目相机是用于生成 2D 图像的单个相机。从单个 2D 图像,可以完成 2D 物体检测任务,即物体分类和定位。对于 3D 物体检测,可以从已知物体的几何线索、对比度或先前形状信息推断出额外的深度信息。
一些研究人员仅从单张图像执行了 3D 物体检测 。Shapii 等人(2020 年)提出了基于单目图像的 3D 重建方法,其中使用多张图像生成人类活动姿势的 3D 视图。这是最 便宜的 3D 物体检测方法。但准确度低于立体和基于 LiDAR 的检测。但是,单目图像可以与其他 3D 检测技术相结合以获得更好的精度。
双目相机
立体相机使用两个摄像头,一个摄像头拍摄左侧图像,另一个摄像头拍摄右侧图像。其工作原理与人类视觉相似。通过比较两个摄像头图像中相同像素之间的视差,可以感知物体的深度信息。立体图像已被证明可用于 3D 物体检测,但与 LiDAR 相比,其精度略有降低。立体图像可以精 确且经济地用于 3D 物体检测。
三维物体检测可以通过应用多个传感器或设备来执行。
使用 RGB 图像和深度信息进行 3D 物体检测。CNN 用于 RGB 图像以生成区域提议,然后在提议的区域中合并深度信息以创建 3D 视锥体。之后,执行 3D 实例分割和“非模态 3D 框估计”以查看障碍物后面的物体。该方法实时运行,并且即使对于检测小物体也表现出很高的召回率。但该方法严重依赖于 2D 物体检测器在开始时提出的区域。
通过在 Point-RCNN、VoxelNet 和 PointPillars中结合 RGB 图像,改进了仅使用 LiDAR 的方法(即基于点云的方法)。这些方法类似于 PointPainting 。
点云和 RGB 图像的另一种混合方法融合了点云特征和图像特征。根据集体特征,识别出感兴趣的区域。然后在这些区域中执行3D物体检测。虽然结合RGB 和 LiDAR 点云信息很复杂,但它在室外场景3D物体检测中表现出比独立的LiDAR体素方法更好的性能。
无线电探测和测距 (RADAR) 使用无线电信号感知距离。由于 RADAR 无法预测颜色信息,因此它只能假设形状或大小,而不能进行分类。与激光雷达或摄像机图像相比,RADAR 的一大优势是不易受到恶劣天气的影响。但将 RADAR 与图像相结合已成功提高 3D 物体检测的精度。从 2D 图像中检测出物体中心。然后,以该物体中心为目标,使用 RADAR 点云获取截锥形的深度信息。它改进了 nuScenes 数据集中基于图像的检测。使用 RADAR 生成的点云进行物体区域提议。然后,将该区域施加到 2D 图像上以执行 3D 检测。
图像、LiDAR和RADAR多模态
3D物体检测在各个领域越来越受欢迎。图显示了不同应用领域中 3D 物体检测的最 新研究成果。
除了上面讨论的应用之外,3D 物体检测也在最近的一些医学研究中得到应用,例如手术或诊断中的增强辅助。医学领域中 3D 物体检测的输入数据格式和采集过程与其他领域不同。计算机断层扫描 (CT)、扩散张量成像 (DTI)、磁共振成像 (MRI)、功能性磁共振成像和超声波都是三维的。三维卷积网络可以应用于这些图像,对器官进行 3D 检测,从而更好地检测疾病。三维 CNN 已成功应用于疾病严重程度预测和分类。
自动驾驶汽车导航:LiDAR 是该领域非常流行的一种模式。它既可用于单模态方法,也可用于多模态方法。LiDAR 具有远距离激光扫描功能,使其能够设计独立的端到端 3D 物体检测系统。RGB-D 传感器的探测范围较小(通常低于 10 米)。由于这一限制,自动驾驶汽车导航相关研究工作未发现使用这种模式。
在基于视觉的技术中,少数研究人员使用单目 RGB 摄像头作为单一模式,但其精度不如 LiDAR 传感器。此外,检测范围低于 LiDAR。一些研究人员提到立体摄像头是一种在自动驾驶汽车导航中具有巨大潜力的模式。甚至汽车公司特斯拉也专注于立体视觉而不是 LiDAR,认为它更自然、更经济、更接近人类视觉。然而,立体摄像头的范围远小于 LiDAR。
由于 RADAR 无法感知物体的颜色信息,因此它不能作为 3D 物体检测的单一模态系统使用。但在一些研究工作中,RADAR 与其他模态一起实施。
l机器人视觉:RGB-D 传感器是最 受欢迎的传感器,可用于机器人视觉的单一和多模态技术。这些研究工作大部分是在室内环境中进行的。因此,该领域缺乏远程检测要求。这使得 RGB-D 成为感知室内环境中物体颜色和深度信息的绝佳选择。RGB-D 相机由 RGB 相机(用于颜色感知)和红外传感器(用于深度感知)构成。
l精准农业:在农业领域,LiDAR 可用于远程 3D 检测。特别是,涉及高空无人机的精准农业受益于 LiDAR。LiDAR 已与其他传感器(如 RGB 相机或窄波束 SONAR(声音导航和测距))一起用作单一模态或多模态技术。然而,单目相机在多视图 3D 检测技术中被用作单一模态。在这种方法中,从物体周围不同角度捕获的 2D 图像有助于 3D 检测。在多模态检测的情况下,RGB 相机可与 RGB-D 传感器一起使用。单目相机的探测范围比 LiDAR 低,可用于近距离的 3D 物体检测。
l人体活动/姿势检测:单目 RGB 相机广泛用于使用多视图 3D 物体检测技术的人体姿势检测。对于远距离检测,研究人员已经使用了 LiDAR。为了增强基于 LiDAR 的检测的可检测性,现有研究工作中还使用了一些其他模式,例如惯性测量单元 (IMU)。然而,在室内机器人视觉、人类活动检测和精准农业中,RADAR 通常不是 3D 物体检测技术的首 选。原因可能是 RADAR 的空间分辨率较低(与 LiDAR 或相机相比),这使得检测细小物体或近距离物体变得困难且模糊。
多模态技术的发展充分利用了多个传感器的优势。例如,使用 LiDAR 可以很好地感知物体的结构信息,而摄像头则擅长感知精细的纹理信息。然而,多模态技术需要同步来自不同传感器的不同格式的数据,这会增加成本和复杂性。
通过分析现有研究成果的优缺点,我们得到了一些有价值的见解。具体如下:
l基于点云的 3D 物体检测可以在室内和室外环境中进行。然而,LiDAR 可以在多变的天气条件下生成更远距离的点云,而基于 RGB-D 或 Kinect 的点云在范围和天气条件方面受到限制。因此,在自动驾驶汽车导航研究中,基于点云的 3D 物体检测是在 LiDAR 传感器的帮助下进行的。然而,RGB-D 传感器价格较低,生成的点云已成功应用于精准农业或室内机器人视觉的近距离研究工作;
l深度学习极大地支持了三维物体检测技术。深度学习网络由多层神经网络组成,可以学习数据模式。在重要的 3D 物体检测网络中,例如 PointNet、PointNet++、VoxelNet、CenterNet 等,深度学习用于从点或点组中学习物体信息。此外,在最初使用 RGB 图像进行区域提议的两阶段网络中,深度学习用于预测物体区域。未来的研究工作可能包括深度学习,以利用更多机会,例如 3D 物体检测相关研究中的迁移学习;
l端到端 3D 物体检测网络的开发因其易用性而变得流行起来。端到端网络需要直接收集原始传感器数据并提供 3D 边界框输出预测。要开发这样的网络,必须选择必要的传感器类型(LiDAR、摄像头或 RADAR)、预处理数据、设计神经网络来学习数据的特征并训练、验证和评估模型。端到端网络的开发人员需要具备硬件和软件知识;
l与二维物体检测相比,三维物体检测的数据收集和注释更为复杂。三维物体检测数据收集涉及融合来自不同类型传感器的数据,例如 LiDAR、单目或立体摄像机、RADAR 等。此过程需要校准不同的设备并同步数据。三维物体检测的数据注释不仅需要描述物体的位置,还需要描述其空间维度、位置和方向。数据描述涉及物体的长度、宽度、高度、偏航、俯仰、滚动、遮挡量等参数。在三维物体检测的情况下,需要更多三维几何方面的专业知识来注释数据;
l基于点云的物体检测的局限性在于稀疏性,尤其是在室外环境中。因此,薄物体检测是该领域的一个悬而未决的研究问题。如何提高使用点云方法检测薄物体的精度是一个悬而未决的研究问题;
l数据稀缺是 3D 物体检测相关研究的主要制约因素之一。由于汽车公司在开发自动驾驶汽车方面的支持和赞助,一些丰富的基准数据集(如 KITTI、Waymo、nuScenes 等)已广泛可用。一些室内基准数据集也可用于机器人视觉研究,例如 SUN RGB-D 和 ScanNet。但其他领域缺乏开放的基准数据集。具体来说,3D 物体检测在精准农业中越来越受欢迎,但发现进行的研究工作使用的是自收集的数据集。然而,这些数据集并不公开。这是在农业领域开展 3D 物体检测研究的一个制约因素。
结论
三维物体检测在研究人员和从业人员中迅速流行起来。由于现实世界是三维的,因此深度和高度信息也至关重要。以前,计算机的计算能力低、传感器的缺乏和数据集数量较少阻碍了三维物体检测的研究。随着时间的推移,这些障碍正在减少,三维物体检测正在许多领域中得到应用。
公众号 扫码咨询
![]() |
上海市闵行区中春路4999号莘庄商务楼1326室 |
![]() |
service@covond.com |
![]() |
www.covond.com |
![]() |
交换机:18017588179(孙经理) 无人机:13311882358(孙总) |