案例中心
您当前的位置 : 首 页 > 案例展示 > 无人机边缘AI-自主导航、物体跟踪等

资料下载Download

D

联系我们Contact Us

上海巨视安全防范技术有限公司

电 话:021-64192060

无人机:13311882358(孙总)

交换机:18017588179(孙经理)

邮 箱:service@covond.com

地 址:上海市闵行区中春路4999号

           莘庄商务楼1326室

无人机边缘AI-自主导航、物体跟踪等

2025-06-15 01:39:00
6次

l自主导航是这些新兴无人机实时应用的关键计算机视觉功能之一。目前,大多数无人机都是手动飞行的,电池容量将飞行时间限制在 30 到 40 分钟左右。而视觉导航则使它们能够自己规划从出发点到目的地的路线,而这种功能早已应用于引领潮流的消费级无人机中。这种无人机可以避开建筑物和树木等障碍物,并且通常能够计算出最有效的路线。自主导航不仅在某些情况下可以不再需要操作员(并且在无人机失去手动控制、不在视线范围内等情况下通常可以协助操作员),还可以延长电池寿命,从而拓宽无人机的潜在应用范围。

l物体跟踪是机载计算机视觉发挥重要作用的另一项功能。如果无人机跟踪汽车或人的移动,它必须知道该物体的样子以及如何跟踪它。目前,物体跟踪主要是手动过程;操作员通过无人机提供的视频源控制无人机。相反,在不久的将来(用于商业应用)并且已经可用(同样,在引领潮流的消费级无人机中),用户可以告诉无人机跟踪感兴趣的物体,并且无人机具有足够的内置智能来导航自身,同时保持物体在视线范围内。这种功能也有可能用于体育运动,例如,无人机可以跟踪单个运动员的动作。

实时处理已用于建筑和采矿业的资产跟踪。在这样的应用中,无人机飞过工作现场,进行图像分析,识别可移动资产(如卡车),并通知用户其状态。类似的技术也可用于零售业以评估库存水平。

 

l图像稳定性能

高质量的静态和视频源图像对于任何后续视觉处理功能的稳健实施都至关重要。直到最近,校正运动、振动和光线不足的影响还需要昂贵的机械部件,例如万向架和定制的多元件光学镜头。然而,新的电子图像和视频稳定方法可以消除对这种笨重而复杂的机械部件的需求。这些新解决方案利用多种 进的实时图像分析技术,以及通过加速度计、陀螺仪、磁力计和其他类似的“融合”传感器对无人机位置、方向和运动特性的详细了解,提供强大的图像稳定性能

无人机边缘AI-自主导航、物体跟踪等1.png 

同步可确保视频数据和传感器融合数据由同一时钟标记时间戳,从而了解无人机在捕获每个视频帧时的准确位置、方向和运动。在设计摄像机平台时需要考虑这一关键要求。

专用 DCE(失真校正引擎)是电子图像稳定硬件方法的一个例子。DCE 是一个专用硬件模块(芯片或硅 IP),可提供灵活的 2D 图像扭曲功能。它支持各种图像变形,包括镜头失真校正、视频稳定(包括同步镜头几何校正)、透视校正和鱼眼校正。先进的重采样算法使 DCE 能够以高帧速率(高达 8K @ 60 FPS)提供高分辨率视频源的高图像质量,同时功耗仅为 18 mW。

在没有专用 DCE 或等效硬件的情况下,电子图像稳定解决方案可以利用平台的 GPU 和/或其他可用的异构计算资源来实现各种功能。这种方法具有成本效益,因为它利用了现有的处理器,而不是向 SoC 和/或系统设计添加额外的资源。然而,由于能力限制,相对图像质量可能不是最优的,并且功耗也可能相应较高。

自适应视频稳定滤波器计算图像校正网格,从而在各种录制条件下实现自然的视频。它分析摄像机运动并动态修改稳定特性以提供稳定的拍摄,并在确定摄像机运动是有意还是无意时快速做出反应。这种滤波器可以利用运动传感器输入来解决单靠图像分析无法提供明确的摄像机运动估计的情况,从而进一步提高稳定性的可靠性。它还将镜头失真校正、视频稳定和滚动快门校正结合成一个统一的校正功能,以 限度地减少往返于主存储器的图像数据传输次数。这种集成方法还可以提高图像质量,而无需进行多重采样。

无人机边缘AI-自主导航、物体跟踪等2.png 

无人机边缘AI-自主导航、物体跟踪等3.png 

自主导航和防撞

一旦获得高质量的源图像,就可以进一步利用嵌入式视觉处理来实现许多其他理想的无人机功能,例如使它们无需地面飞行员干预即可飞行。利用 GPS 定位技术,无人机的简化自主导航形式已经问世一段时间了。开发一种告诉无人机前往一组特定目的地 GPS 坐标的算法相当简单,无人机将以直接和可预测的方式执行该算法……只要没有其他无人机争夺同一空域,或途中没有其他阻碍物体。

不幸的是,如今许多无人机拥有者在昂贵的无人机撞上建筑物、桥梁、树木、电线杆等后,都深刻认识到了仅使用 GPS 导航的固有局限性。还要注意的是,创建(更不用说维护)所有可能使用环境的足够详细的 3D 地图几乎是不可能的,而理论上无人机可以像完全自动驾驶汽车一样在有限位置上使用这些地图进行导航。幸运的是,视觉技术可以有效地解决导航需求,使无人机能够动态地对周围环境做出反应,从而可以从任何可能的出发地到达目的地,同时避开沿途的障碍物。

防撞不仅与完全自主导航有关,而且与无人机主要由人类控制时的“副驾驶”辅助有关,类似于当今车辆中的 ADAS(高级驾驶辅助系统)功能。例如,人类飞行员可能会误判障碍物,或者在横向、向后甚至起飞或降落时,在能见度有限或完全没有的情况下驾驶无人机。在这种情况下,飞行员可能无法清楚地看到无人机的飞行方向;无人机自身的图像捕捉和视觉处理智能子系统可以提供有用的帮助。

实现防撞功能的技术基于使用一个或多个摄像头,这些摄像头与执行图像分析的处理器相连,提取障碍物的位置、距离和大小,然后将这些信息传递给无人机的自主导航系统。集成此类技术的挑战包括需要设计一个嵌入式视觉系统,该系统能够快速可靠地执行,以便根据无人机的速度在三维空间中实现万无一失的防撞,并且不仅在无人机沿线性路径飞行时,而且在无人机与各种旋转相结合时也能实现防撞。

视觉子系统的成本、性能、功耗、尺寸和重量都需要与无人机的尺寸、目标飞行时间和能力很好地匹配。不同的嵌入式视觉摄像头、处理器和其他技术将在所有这些领域提供不同的权衡。还要记住,除了现在引领潮流的无人机中可用的静态障碍物的位置评估之外,防撞的“圣杯”还包括检测其他运动物体,如鸟类和其他无人机。这些功能将需要比今天更多的计算资源,因为反应时间需要显著改善,并且需要检测更小的物体。随着无人机和潜在障碍物的速度不断提高,对 检测和响应的需求进一步增加,因为无人机需要辨别比以前更小、更远的物体。

地形分析和主体追踪

无论是出于无人机自主飞行还是环境分析的目的,至少需要一定程度的地形理解。最基本的层面上,这些信息可能包括来自高度计(气压计)和/或 GPS 接收器的高度和/或经度和纬度。然而,嵌入式视觉可以提供更先进的地形分析见解。

例如,向下的图像传感器可以捕获和提取信息,让无人机了解其相对于下方地形的运动。通过使用光流等方法,逐帧跟踪视运动,向下的摄像头和相关处理器甚至可以追溯之前的运动路径。这种相对于地面的位置感知同样有用,例如在没有 GPS 信号的情况下,或者无人机需要能够在一个地方悬停而不漂移的情况下。

如前所述,地形图越来越多地用于商业用途,不仅需要传统的 2D、低分辨率卫星数据,而且对高分辨率甚至 3D 数据的需求也日益增加。目前有许多技术可以详细捕获和重建地形。例如,传统图像传感器可以与摄影测量技术结合使用,以将多个 2D 静态图像“拼接”成 3D 地图。摄影测量不仅涉及捕获大量原始图像数据,还需要大量的计算能力。如今,云计算主要用于生成此类 3D 模型,但随着无人机内存和计算资源在未来变得更加强大,实时无人机驻留摄影测量处理将变得越来越可行。

摄影测量的替代方案包括 LIDAR(基于激光的雷达)等方法,这种方法可以提供极高分辨率的空间 3D 表示,但代价是传感器的尺寸、重量和成本较大。单色或立体 RGB 相机对也可用于检测运动结构(本文下一节将进一步讨论),生成 3D 点云,然后用于创建地形网格模型。这种方法利用了廉价的传统图像传感器,但代价是增加了必要的计算要求。无论选择哪种图像捕获技术,地形测绘的另一个值得注意的考虑因素是可用的光照条件。是否存在可靠的环境光将决定是否可以使用无源传感器阵列,或者是否必须提供光源(可见光、红外线等)。

与地形测绘相关的功能是对象跟踪,例如消费者和专业消费者无人机中的“跟随我”功能。自主视觉方法往往优于遥控和人工引导方法,因为它们既具有相对的跟踪精度,又能够在不将发射器安装到对象上的情况下运行。对象跟踪可以通过计算机视觉算法来实现,该算法从视频帧中提取“特征”。这些特征取决于确切的方法,但通常是突出点,例如角落、高对比度区域和边缘。这些特征可以任意分配重要性,即通过在用户希望无人机跟踪的对象周围绘制边界框,或通过预跟踪对象分类。

3D 图像捕捉和数据提取

无人机要实现上述部分或全部功能,关键要求之一是它必须准确、全面地了解周围环境。无人机应该知道其他物体在完整 3D 空间中的位置,以及自己的位置、方向和速度。这些见解使无人机能够计算关键指标,例如与地面和其他物体的距离,从而计算出撞击这些物体的时间。因此,无人机可以提前规划航线,并在途中采取适当的纠正措施。

人们普遍认为,人类只用两只眼睛来感知深度信息。类似地,在计算机视觉领域,存在各种使用特殊相机来辨别距离的技术。例如,立体相机阵列利用同一场景的两个透视图之间的对应关系来计算深度信息。激光雷达通过用激光照射目标并分析反射光来测量到物体的距离。飞行时间相机测量相机和拍摄对象之间图像每个点的光信号延迟。结构光方法将一个图案投射到场景上,随后捕捉该图案,提取和解释失真以确定深度信息。

但请记住,人类闭上一只眼睛也能轻松接球。事实上,研究表明,人类主要使用单眼视觉来感知深度,这通过一种称为运动视差的线索实现。当我们四处走动时,距离我们较近的物体在我们的视野中移动得比距离我们较远的物体更远。运动结构算法利用同样的线索来感知传统单眼相机拍摄的场景中的深度。

采用运动结构方法,可能不需要对场景进行主动照明(这既会限制可用范围,又会妨碍户外使用)。由于传统摄像头(可能已经安装在无人机中,用于传统的图像捕捉和流媒体传输)就足够了,与更专业的深度感应摄像头相比,成本显著降低。利用现有的紧凑轻便摄像头还可以 限度地减少实施所需的尺寸和有效载荷,从而 限度地延长给定电池容量的飞行时间。

在比较基于 3D 传感器的方法与单目方法时,请记住前者通常可以在不了解场景中物体的情况下提供距离信息。例如,使用立体摄像机方法,您只需要知道两个摄像机之间的相对“姿势”。相反,单目技术需要知道场景中至少一个距离测量值,即场景与摄像机之间的距离测量值,以便确定任何特定场景物体的距离和速度。例如,在球的例子中,人类可以接住它,因为他或她可以根据过去的经验估计球的大小。因此,一些嵌入式视觉系统将同时采用单目和 3D 传感器方法,因为立体视觉处理(例如)在处理资源方面可能成本高昂,但其提供的结果可能更可靠。

无人机深度学习

传统的后捕获和提取图像分析方法现在正通过各种机器学习技术得到增强,这些技术在某些情况下可以带来显著的改进。例如,在无人机、车辆和其他应用中经常遇到的动态照明、天气和其他环境条件下,跟踪变得更加稳健,同时还能可靠地解释被跟踪对象的变化(例如改变姿势或以其他方式移动的人)。深度学习是一种基于神经网络的机器学习方法,它正在彻底改变我们对自主能力的看法,更广泛地说,它正在以如此稳健的方式解决各种学科中以前无法解决的问题。

基于深度学习的方法往往适用于陌生的情况,并且在面对嘈杂和不完整的输入时也具有很强的鲁棒性。这些特点使它们成为无人机和其他无法控制环境或无法在所有可能情况下提前完全描述要解决的问题的情况的良好选择。迄今为止,深度学习研究最多的应用是图像分类,即处理图像并识别其中包含的对象。事实证明,深度学习在这项特定任务上的表现明显优于传统的计算机视觉方法,在某些情况下甚至比人类更好。

 ImageNet 挑战赛为例,它展示了深度学习在图像分类中的强大功能。在这项年度竞赛中,研究人员提交了能够对图像中的物体进行分类的系统。2012 年,ImageNet 挑战赛中 基于深度学习的系统将错误率与传统计算机视觉方法相比降低了近 40%,从 26% 的错误率降至 16%。自那时起,基于深度学习的方法在竞赛中占据了主导地位,在 2015 年实现了超过人类的 3.6% 的错误率(相比之下,人类在相同图像数据集上的错误率约为 4.9%)。

受益于深度学习技术的常见现实世界无人机应用包括:

l图像分类:在例行检查中检测和分类基础设施故障

l安全:识别和跟踪感兴趣的人、定位物体并标记异常情况

l搜索和救援:寻找失踪人员

l农场动物和野生动物管理:动物追踪

深度学习在许多其他应用中也是一项宝贵的功能,例如电力线检测、作物产量分析和改良以及其他农业场景、以及导航的立体匹配和分割。

基于深度学习的工作流程与传统计算机视觉中的工作流程明显不同(而且在很多方面更简单)。传统方法要求软件工程师开发能够检测当前问题相关特征的视觉算法和流程。这需要视觉算法方面的专业知识,以及大量时间投入,以迭代方式微调性能和吞吐量,以实现所需结果。

相反,在深度学习中,数据科学家设计神经网络的拓扑结构,随后将其暴露给大型数据集(就本文的主题而言,数据集由一组图像组成),这一活动称为训练。在训练过程中,神经网络会自动学习数据集的重要特征,而无需人工干预。算法的进步,加上经济高效的高容量存储和高度并行处理架构的出现,意味着以前需要数周或数月才能训练的网络现在只需几小时或几天即可开发完成。

然后将生成的神经网络模型部署到无人机或其他目标系统上,然后将其暴露给新数据,并自动从中得出结论;例如,对机载摄像机捕获的图像中的物体进行分类。这种训练后活动称为推理,其计算量不如训练那么大,但仍需要强大的处理能力。与训练一样,推理通常受益于并行处理架构;它也可以选择在无人机本身上进行,在“云端”(如果延迟不是问题),或者在两者之间进行。一般来说,假设内存子系统带宽和其他系统参数同样能胜任这项任务,那么提高本地处理能力往往会转化为降低延迟和提高整体吞吐量。

结论

无人机是当今技术领域最热门的产品之一,无论是在当前以消费者为主导的市场,还是在众多蓬勃发展的商业应用中,无人机的未来都一片光明。视觉处理支持的功能(如防撞、更广泛的自主导航、地形分析和对象跟踪)是将当今强劲的无人机市场预测转变为未来现实的关键功能。更广泛地说,视觉技术正在使各种产品比以前更加智能、响应更快,从而对用户更有价值。视觉处理可以为现有产品添加有价值的功能。它可以为硬件、软件和半导体供应商提供重要的新市场


标签

image.png     微信二维码.jpg

           公众号                              扫码咨询

联系我们
上海市闵行区中春路4999号莘庄商务楼1326室
service@covond.com
www.covond.com

交换机:18017588179(孙经理)   

无人机:13311882358(孙总)

底部导航

首页                    高精度定位

工业物联网          智能设备箱

工业交换机          案例中心   

新闻中心  

Copyright © 上海巨视安全防范技术有限公司 主要从事于徐州uwb定位,徐州高精度室内定位,徐州工业通讯网关, 欢迎来电咨询! 沪ICP备18000433号