YOLO-S：一种轻量级且准确的类 YOLO 网络，用于航空图像中的小目标检测

2025-06-14 23:36:00

220次

小目标检测仍然是一项具有挑战性的任务，尤其是在寻找移动或边缘应用的快速准确解决方案时。在这项工作中，我们提出了一个简单、快速、高效的网络 YOLO-S。它利用一个小的特征提取器，以及通过旁路和级联的跳过连接，以及一个重塑直通层来促进整个网络的特征重用，并将低级位置信息与更有意义的高级信息相结合。

在 AIRES（欧洲获得的新数据集）和 VEDAI 上评估性能，使用四个基线对提出的 YOLO-S 架构进行基准测试。还证明，基于 DOTAv2 和 VEDAI 的组合数据集上的过渡学习任务可以提高从 COCO 数据传输的更一般特征的整体准确性。YOLO-S 比 YOLOv3 快 25% 到 50%，仅比 Tiny-YOLOv3 慢 15-25%，在 VEDAI 数据集上的准确度 (mAP) 方面也比 YOLOv3 高出 15%。在 SARD 数据集上的模拟也证明了其适用于搜索和救援行动。

此外，YOLO-S 拥有 Tiny-YOLOv3 约 90% 的参数和 YOLOv3 的一半 FLOP，因此可以部署用于低功耗工业应用。

1. 简介

如今，航拍图像中的小目标检测已成为多种应用的热门研究课题。事实上，无人机( UAV ) 等数据支持技术的近期出现为广大客户群提供了一种经济高效的解决方案，可以根据摄像机、飞行器高度和所用胶片类型满足广泛且几乎无限的用户需求。此外，来自卫星或无人机搭载的传感器的数据越来越容易公开，推动了该领域的研究。

尽管如此，图像中车辆分辨率低，微小目标的辨别特征不强，车辆类型、大小和颜色多变，以及存在杂乱背景或干扰大气因素，仍然对卷积神经网络 (CNN) 的车辆检测率构成挑战。此外，集装箱、建筑物或道路标记等混淆物体的出现可能会增加误报的可能性。此外，需要在准确率和延迟时间之间进行合理的权衡。流行的物体检测器需要大量内存，通常只能在集中式高性能平台上执行。特别是双阶段检测器不适合实时检测，而单阶段检测器只有在强大的资源上才能提供实时性能。它们都不能充分用于小目标检测。

此外，许多工业应用要求在靠近数据源的边缘设备上本地部署 CNN ，因为数据处理更便宜、更快，与远程服务器的数据交换不可靠，或者存在安全和隐私问题。然而，这类设备通常具有性能、成本和能耗硬件资源有限的特点，并且不包括 GPU。因此，快速、轻量级的 CNN 是必需的，同时即使在小目标上也要保持令人满意的准确率。Tiny-YOLOv3 无法保证足够的性能，因为其主干提取的特征较差，且输出尺度较粗糙。

因此，现在逐渐出现了替代解决方案，以更精确、更快地检测小型车辆。Çintaş 等人和 Saribas 等人将 Tiny-YOLOv3 用于 UAV（无人机）物体检测，将核相关滤波器（KCF）用于图像跟踪，在Tiny-YOLOv3 在新呈现的数据集上的准确度提高了 18%，并且在分析视频时通过在 30 张连续图像上运行 YOLO 阶段一次来提高 FPS（每秒帧数）。

UAV-YOLO，它基于 YOLOv3，其中首先通过连接两个具有相同宽度和高度的 ResNet 单元来优化 darknet 中的 Resblock。然后，通过在早期层增加卷积操作来丰富空间信息，从而改进整个 darknet 结构。结果在准确率上提高了YOLOv3，但是模型体积不如Tiny-YOLOv3小。

Tan 等人提出了一个有趣的模型 EfficientDet，用于高效的物体检测。其中作者提出了两个关键优化：加权双向特征金字塔网络（BiFPN）和复合缩放方法，该方法同时均匀缩放所有主干网络、特征网络和框/类预测网络的分辨率、深度和宽度。因此，EfficientDet 的准确率与 YOLOv3 大致相同，速度提高了 28 倍，而参数仅为 6%。EfficientDet 并未针对小物体检测进行特别优化。相比之下，模型 YOLO-S 速度提高了 2 倍，使用了 YOLOv3 的 12% 的参数，但在小物体检测方面明显优于 YOLOv3；例如，在 VEDAI 数据集上，mAP 提高了 15%。

改进YOLOv5 网络，在无人机图像上将 YOLOv5 的 mAP 提高了 1%，将 YOLOv3 的 mAP 提高了 2%。何等人提出了 TF-YOLO，它保留了与 Tiny-YOLOv3 相同的主干，但像 YOLOv3 一样引入了一个输出尺度，以及多个层之间的横向连接。通过基于 Jake 距离的 k 均值聚类估计更稳健的锚点，在 NWPU VHR-10 数据集上，TF-YOLO 的表现优于 Tiny-YOLOv3，平均精度 (mAP) 高出近 6%，速度约为每秒 24 帧 (FPS)。在 VOC2007 数据集的一个子集上，TF-YOLO 获得了 31.5% 的 mAP（平均精度）和 11.1 FPS（每秒帧数），与 YOLOv3 相比，准确率降低了 24.4%，速度提高了近 30.8%；与 Tiny-YOLOv3 相比，准确率提高了 4.3%，速度降低了 10%。手动设计网络架构可能包括不重要的层。Zhang et al. 因此设想了一种自动迭代增量模型修剪程序，并将其应用于 YOLOv3-SPP3，它是 YOLOv3 的修改版本，在三个头之上添加了空间金字塔池化（SPP），以便基于四个主要步骤提取卓越的多尺度特征：（i）应用通道稀疏性来识别每个卷积层中不太重要的通道，（ii）根据预定义阈值删除无用通道，（iii）然后对模型进行微调，以及（iv）最后评估修剪后的模型以确定是否适合部署；否则，从（i）重新开始。最轻量剪枝模型 SlimYOLOv3-SPP3-95 在 VisDrone DET2018 数据集的 416 × 416 图像上获得 mAP，与 YOLOv3-SPP3 相比下降了 18%，但速度却快了 80%，占用的体积仅为 YOLOv3-SPP3 的 8%，相当于 Tiny-YOLOv3 体积的 59%。Ju 等人介绍了一个简单、快速且准确的网络，由 31 个卷积层、一个 reshape-passthrough 层和一个输出尺度组成。为了快速扩展感受野并获取更多目标周围的上下文信息避免信息丢失，他们实现了扩张卷积而不是基于步幅卷积的下采样。此外，他们使用 reshape-passthrough 层和特征融合将较早层的特征与较深层的特征合并，并提高整体定位性能。在 VEDAI（空中图像中的车辆检测）上，该网络实现了 47.8% 的 mAP，即准确率比 YOLOv3 低 8.0%，但比 Tiny-YOLOv3 高 30.0%。在 Intel i7-5930k 处理器和 TITAN X GPU 上，它可以处理近 75 FPS，速度比 YOLOv3 快约 5 倍，几乎与 Tiny-YOLOv3 一样快。

假设图像是从路边的摄像头而不是无人机获取的，背景不会发生显著变化。因此，在这种受限环境中，卷积操作后的批量归一化 (BN) 层不是必需的。因此，从 Tiny-YOLOv3 开始，手动逐步修剪 BN 层以及不在最大池化层之前的整个卷积层。他们获得的最轻的修剪网络在 BIT-vehicle 数据集上进行测试，其中目标可能延伸到图像大小的百分之几十，实现了非常接近 YOLOv3 的 mAP，速度略高于 Tiny-YOLOv3。

其他研究则以准确度换取速度。第四个输出尺度 104 × 104104×104被添加到YOLOv3中以减小感受野，尽管推理速度较慢，但在DOTA（航拍图像中目标检测数据集）上获得了3％的mAP改进。由于YOLOv3主要检测52×52规模的小目标，提出了基于52×52和104×104两个输出的YOLO-E，并实现了双向残差子模块以降低网络深度。他们还通过将交并比（IoU）度量替换为GIoU 并在YOLOv3损失函数中添加新项1—GIoU，提高了对目标位置的灵敏度。在VEDAI上，它获得了91.2％的mAP，比YOLOv3准确率提高了近五分之一，速度慢6.7％。一种基于 VGG16 架构的级联检测器，其在 VEDAI 和 Munich 数据集上的表现优于 Faster R-CNN，但推理速度要慢 20–30%。此外，低分辨率航拍图像由于车辆外观模糊且与上下文相似，不利于从车辆中提取有意义的特征。两个超分辨率和检测网络的联合学习可以在超分辨率图像中产生更有意义的目标和更高的感知质量，从而提高检测任务的准确性，并且在低分辨率航拍图像上的性能接近现有的以相应高分辨率图像为基础的最先进的方法。为了解决这个问题，提出了一种联合超分辨率和车辆检测网络 (Joint-SRVDNet)，它利用两个相互关联的超分辨率和检测任务的互补信息。Joint-SRVDNet 由两个主要模块组成：用于图像超分辨率的多尺度 MsGAN，具有 4 倍上采样因子，以及用于车辆检测的 YOLOv3。具体来说，作者证明，两个网络的联合学习可以在超分辨率图像中获得更有意义的目标和更高的感知质量，从而提高检测任务的准确性，并在低分辨率航拍图像上的表现接近现有的最先进方法，并使用相应的高分辨率航拍图像。

因此，快速准确的小型车辆检测仍然是当今一个有争议的问题，鼓励对该领域进行进一步研究。特别是，就从航拍图像中检测微小目标而言，Tiny-YOLOv3 不能保证足够的准确性。一种新型的 YOLO 类网络，即 YOLO-S 或 YOLO- small，并将其性能与一些著名的基线检测器进行比较。更具体地说，本文的贡献如下：

1. 设计了 YOLO-S，这是一个小型而快速的网络，具有单个细粒度输出尺度，并通过上采样和重塑传递层利用 4×、8× 和 16× 下采样特征图的残差连接和特征融合，以加强特征传播和重用，并相应地改善目标位置。

2. 还设计了 YOLO-L 或 YOLO- large，这是一个基线 CNN，可在三个不同的分辨率级别进行检测，分别对应 4×、8× 和 16× 缩小的层，但更注重准确性，并且由于 FPS 接近 YOLOv3，因此仅适用于离线数据处理。

3. 准备了两个不同的车辆数据集进行实验：VEDAI 和 AIRES，后者是一个用于从直升机图像中检测车辆的新数据集。此外，还在 SARD（搜索和救援图像数据集）上进行了实验，以验证 YOLO-S 如何推广到搜索和救援（SAR）环境中；

4. 将 YOLO-S 与四个基线进行了比较：YOLOv3 、Tiny-YOLOv3、 YOLO-L。实验通过应用基于滑动窗口的推理或对全尺寸图像的检测来执行；

5. 提出了一种双阶段训练程序，首先在由 DOTA 和 VEDAI 组成的数据集上进行微调，然后在感兴趣的特定车辆数据集上进行训练。事实上，领域知识迁移通常是通过从 COCO 或 ImageNet上的预训练权重开始微调学习模型来实现的。然而，由于大型公开数据集不包含来自航拍图像的小型车辆，基本的单阶段训练模型可能由于领域差距而效率较低，并且可能与所提出的双阶段训练相比表现不佳。

YOLO-S：一种轻量级且准确的类 YOLO 网络，用于航空图像中的小目标检测1.png

YOLO-S：一种轻量级且准确的类 YOLO 网络，用于航空图像中的小目标检测2.png

结果表明，YOLO-S 确实是一种适用于实际应用的经济高效的解决方案，其准确率优于其他基线，并且比 YOLOv3 快 50%，可与 Tiny-YOLOv3 相媲美。选择基于 YOLO 的方法作为基线有两个原因。第一个原因是，所提出的模型 YOLO - S/L 是定制架构，采用与 YOLOv3 相同的工作原理和相同的损失函数，因此使用 YOLOv3 作为基线是合理的。

YOLO-S，它比 Tiny-YOLOv3 还要小，但不会牺牲相对于 YOLOv3 等较大模型的准确性。事实上，Tiny-YOLOv3 虽小但速度快，但对于小物体检测来说相当不准确。另一方面，YOLO-S 与 Tiny-YOLOv3 一样小，但速度没有那么快，因为架构更复杂。因此，YOLO-S 比大模型 YOLOv3 更准确、更快，但没有 Tiny-YOLOv3 快。我们牺牲了速度来换取相对于 Tiny-YOLOv3 的准确性，仍然获得了一个非常小的模型，它比较大的模型更准确、更快。

综上所述，YOLO-S 确实能够满足准确率和实时检测的要求，因此是低功耗无 GPU 系统集成的有希望的候选方案。

	上海市闵行区中春路4999号莘庄商务楼1326室
	service@covond.com
	www.covond.com
	交换机：18017588179（孙经理）无人机：13311882358（孙总）

案例展示Case

资料下载Download

新闻资讯News

热门关键词Keywords

联系我们Contact Us

上海巨视安全防范技术有限公司-专注于无人机相关领域室内及室外低空经济解决方案的科技型企业

YOLO-S：一种轻量级且准确的类 YOLO 网络，用于航空图像中的小目标检测

1. 简介

标签