目标检测方法、装置、飞行设备及计算机可读存储介质与流程

文档序号：30305868发布日期：2022-06-05 05:32阅读：108来源：国知局

1.本发明涉及计算机视觉技术领域，具体而言，涉及一种目标检测方法、装置、飞行设备及计算机可读存储介质。

背景技术：

2.现有技术中，无人机执行巡检任务，通常是由无人机采集待检测视频，视频采集完成返航后，通过sd卡拷贝至分析服务器中，由分析服务器对视频进行目标检测处理。但是，这样会导致得到巡检任务结果的效率很低，无法满足用户的实时性需求。

技术实现要素：

3.本发明的目的在于提供一种目标检测方法、装置、飞行设备及计算机可读存储介质，其能够改善现有技术存在的问题。
4.本发明的实施例可以这样实现：
5.第一方面，本发明提供一种目标检测方法，应用于飞行设备，所述方法包括：
6.获取实时巡检视频对应的帧图像集合；
7.利用目标检测算法，依次对所述帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息；
8.根据所述目标检测对象的位置信息和分类信息，得到所述每一帧图像对应的检测结果图像，其中，所述检测结果图像中已标记所述目标检测对象的位置和类别；
9.依次根据每帧检测结果图像，合成已标记所述目标检测对象的目标视频。
10.在可选的实施方式中，所述利用目标检测算法，依次对所述帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息的步骤，包括：
11.针对所述每一帧图像，进行预处理；
12.对预处理后的图像中的特征进行提取，得到特征图像；
13.对所述特征图像中的全部特征，采用下采样增强语义特征，以及采用上采样增强定位特征；
14.对所述全部特征进行回归预测处理，得到所述目标检测对象的位置信息和分类信息。
15.在可选的实施方式中，在所述获取实时巡检视频对应的帧图像集合的步骤之前，所述方法还包括：
16.读取预先训练得到的权重文件，所述权重文件中包含所述目标检测算法对应的神经网络中各节点的权重信息；
17.根据所述权重文件，更新所述神经网络中各节点的权重以完成所述目标检测算法的初始化。
18.在可选的实施方式中，所述获取实时巡检视频对应的帧图像集合的步骤，包括：
19.获取所述实时巡检视频；
20.对所述实时巡检视频进行解码，获得所述实时巡检视频对应的帧图像集合。
21.在可选的实施方式中，所述方法还包括：
22.依次将所述每帧检测结果图像推流至用户端，以使所述用户端根据接收的每帧检测结果图像进行视频播放。
23.第二方面，本发明提供一种目标检测装置，应用于飞行设备，所述装置包括：
24.视频获取模块，用于获取实时巡检视频对应的帧图像集合；
25.数据处理模块，用于利用目标检测算法，依次对所述帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息；
26.所述数据处理模块，还用于根据所述目标检测对象的位置信息和分类信息，得到所述每一帧图像对应的检测结果图像，其中，所述检测结果图像中已标记所述目标检测对象的位置和类别；
27.所述数据处理模块，还用于依次根据每帧检测结果图像，合成已标记所述目标检测对象的目标视频。
28.在可选的实施方式中，所述数据处理模块，具体用于：
29.针对所述每一帧图像，进行预处理；
30.对预处理后的图像中的特征进行提取，得到特征图像；
31.对所述特征图像中的全部特征，采用下采样增强语义特征，以及采用上采样增强定位特征；
32.对所述全部特征进行回归预测处理，得到所述目标检测对象的位置信息和分类信息。
33.在可选的实施方式中，还包括模型初始化模块，所述模型初始化模块具体用于：
34.读取预先训练得到的权重文件，所述权重文件中包含所述目标检测算法对应的神经网络中各节点的权重信息；
35.根据所述权重文件，更新所述神经网络中各节点的权重以完成所述目标检测算法的初始化。
36.第三方面，本发明提供一种飞行设备，所述飞行设备包括视频采集单元及处理单元，所述视频采集单元与所述处理单元通信连接；
37.所述视频采集单元用于采集巡检视频，并将所述巡检视频编码为巡检视频数据发送至所述处理单元；
38.所述处理单元用于执行如前述实施方式任一所述的目标检测方法。
39.第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现前述实施方式任一所述的目标检测方法。
40.本发明实施例提供了一种目标检测方法、装置、飞行设备及计算机可读存储介质，首先获取实时巡检视频对应的帧图像集合，再利用目标检测算法，依次对帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息。接着根据目标检测对象的位置信息和分类信息，得到每一帧图像对应的检测结果图像。最后依次根据每帧检测结果图像，合成已标记所述目标检测对象的目标视频。其有益效果在于：飞行设备能够直接对采集到的实时巡检视频进行处理，得到已标记目标检测对象的目标视频，提高了巡检
视频处理结果的效率且满足了用户的实时处理需求。
附图说明
41.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
42.图1为本发明实施例提供了一种飞行设备的结构示意图。
43.图2为本发明实施例提供的一种目标检测方法的流程示意图之一。
44.图3为本发明实施例提供的一种目标检测方法的流程示意图之二。
45.图4为本发明实施例提供的一种目标检测算法的结构示意图。
46.图5为本发明实施例提供的一种目标检测方法的流程示意图之三。
47.图6为算法yolov5s的网络结构示意图。
48.图7为本发明实施例提供的一种目标检测方法的流程示意图之四。
49.图8为本发明实施例提供的一种目标检测装置的结构示意图。
具体实施方式
50.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
51.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
52.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
53.在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
54.需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。
55.现有技术中，用户有时会需要无人机执行巡航任务，然后对得到的视频数据处理得到巡检结果。通常是由无人机采集待检测视频，视频采集完成返航后，通过sd卡拷贝至分析服务器中，由分析服务器对视频进行目标检测处理。但是，这样会导致得到巡检任务结果的时效性很低，无法满足用户的实时性需求。
56.有鉴于此，本发明实施例提供一种目标检测方法，用以改善上述问题，以下通过实施例，并配合所附附图，进行详细说明。
57.请参见图1，图1为本发明实施例提供了一种飞行设备的结构示意图。该飞行设备
100可以包括视频采集单元110和处理单元120，视频采集单元 110与处理单元120通信连接。
58.视频采集单元110用于采集巡检视频，并将巡检视频编码为巡检视频数据发送至处理单元120。
59.处理单元120用于执行下述方法实施例的步骤。
60.在可选的示例中，飞行设备100可以是但不限于无人机、巡逻机器人等。
61.当飞行设备100为无人机时，该无人机可以用于执行巡检任务，比如使用无人机巡视水库或者河边周围是否有人徘徊或者进行野泳野钓、使用无人机巡检变电站的绝缘子是否存在破损或者异常情况等等。当飞行设备 100为巡逻机器人时，该巡逻机器人可以用于实时视频巡检，比如利用巡逻机器人检查是否有人未佩戴口罩等。
62.在可选的示例中，处理单元120可以为一种数据处理模块，该数据处理模块可以是但不限于nvidia系列边缘计算开发板、atlas 200ai加速模块等。
63.在可能的实现方式中，当飞行设备为无人机时，飞行设备的视频采集单元可以是无人机搭载的摄像头模块，飞行设备的处理单元可以是无人机搭载的边缘计算模块。atlas 200ai加速模块作为边缘计算模块与nvidia系列边缘计算开发板作为边缘计算模块相比，前者具备更高的识别速度更能满足实时性需求，而后者相比前者的成本较低，在实际应用中，可以根据实际情况进行选择，在此不作限定。
64.可以理解，图1所示的结构仅为示意，飞行设备100还可以包括比图1 中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
65.请参见图2，图2为本发明实施例提供的一种目标检测方法的流程示意图之一。该方法的执行主体为上述的飞行设备，方法的步骤包括：
66.s202、获取实时巡检视频对应的帧图像集合。
67.在本实施例中，首先需要获取到实时巡检视频对应的帧图像集合，该帧图像集合中可以包括组成实时巡检视频的多帧图像。
68.s203、利用目标检测算法，依次对帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息。
69.在本实施例中，帧图像集合中的每一帧图像依次输入目标检测算法对应的神经网络结构中，再输出每一帧图像中目标检测对象的位置信息和分类信息。
70.s204、根据目标检测对象的位置信息和分类信息，得到每一帧图像对应的检测结果图像。
71.在本实施例中，针对帧图像集合中的任意一帧图像，可以将其得到目标检测对象的位置信息和分类信息叠加至该图像中，以得到对应的检测结果图像。即，该检测结果图像中已标记目标检测对象的位置和类别。
72.s205、依次根据每帧检测结果图像，合成已标记目标检测对象的目标视频。
73.在本实施例中，可以依次将得到的每帧检测结果图像，合成为目标视频，该目标视频中包含已标记的目标检测对象的。
74.本发明实施例提供的目标检测方法，首先获取实时巡检视频对应的帧图像集合，再利用目标检测算法，依次对帧图像集合中的每一帧图像进行目标检测，得到目标检测对
象的位置信息和分类信息。接着根据目标检测对象的位置信息和分类信息，得到每一帧图像对应的检测结果图像。最后依次根据每帧检测结果图像，合成已标记所述目标检测对象的目标视频。如此，使得飞行设备能够直接对采集到的实时巡检视频进行处理，得到已标记目标检测对象的目标视频，提高了巡检视频处理结果的效率且满足了用户的实时处理需求。
75.可以理解，目标检测是一种计算机视觉技术，用以识别和定位图像或视频中的物体。目标检测可以理解为两部分，目标定位和目标分类。目标定位是预测对象在图像中的确切位置(可用边界框标注出来)，而目标分类则是识别所属的类别(例如人/车等)。
76.可以理解，目标检测算法可以是但不限于yolov3、yolov5、faster rcnn 等算法，目标检测算法的训练过程可以是在服务器中利用标注数据集进行的，训练完成后可以得到目标检测算法对应的权重文件，该权重文件中可以包含目标检测算法对应的神经网络中各节点的权重信息。
77.在可选的实施方式中，权重文件可以预先存储至飞行设备中，当需要进行巡航任务执行目标检测时，可以实时读取应用。请参见图3，图3为本发明实施例提供的一种目标检测方法的流程示意图之二，在步骤s202之前，方法还可以包括步骤：
78.s200、读取预先训练得到的权重文件。
79.在本实施例中，权重文件的文件扩展名可以是.pt格式，该权重文件可以是预先训练好存储于飞行设备的处理单元中。
80.s201、根据权重文件，更新神经网络中各节点的权重以完成目标检测算法的初始化。
81.在本实施例中，在读取预先训练得到的权重文件后，可以根据该权重文件更新神经网络中各节点的权重。
82.在可选的示例中，当目标检测算法为yolov5且飞行设备的处理单元为 atlas 200ai加速模块时，在读取预先训练得到的权重文件后，可以将该权重文件转换为om模型，然后加载om模型以更新神经网络中各节点的权重，在后续采用目标检测算法进行时，可以直接利用om模型对图像中的目标检测对象进行检测识别。如此，atlas 200ai加速模块结合yolov5算法，预先加载得到om模型，可以提高后续对帧图像集合中每一帧图像进行目标检测的速度，进一步满足用户的时效性需求。
83.需要说明的是，yolov5算法一共包含yolov5s、yolov5m、yolov5l、 yolov5x四种类型。其中，四种类型按照识别速度排序为：yolov5s＞yolov5m ＞yolov5l＞yolov5x，识别速度依次降低，而四种类型按照识别精度排序为： yolov5s＜yolov5m＜yolov5l＜yolov5x，识别精度依次增强。在可选的示例中，当目标检测算法为yolov5算法时，目标检测算法可以是yolov5s、 yolov5m、yolov5l、yolov5x中的任意一种，具体目标检测算法选择的类型可以视用户的识别速度要求和识别精度要求综合考虑。
84.请参见图4，目标检测算法的结构包含四个部分：输入端、主干网络、颈部网络、预测端。下面结合图4介绍对帧图像集合中的每一帧图像进行目标检测的过程。
85.在可选的实现方式中，对每一帧图像进行目标检测是通过目标检测算法对应的神经网络结构分步进行的。请参见图5，以目标检测算法为yolov5s 为例，针对步骤s203，其可以包括子步骤：
86.s203-a、针对每一帧图像，进行预处理。
87.其中，输入数据即为每一帧图像，预处理可以在输入端对每一帧图像的尺寸大小进行处理。在可选的示例中，进行预处理时可以将输入的图像大小缩放至608
×
608
×
3。
88.s203-b、对预处理后的图像中的特征进行提取，得到特征图像。
89.可以理解，图像中可以包含有多个目标检测对象，每种目标检测对象可以对应一组特征。主干网络可以对预处理后的图像中的特征进行提取，得到特征图像。
90.s203-c、对特征图像中的全部特征，采用下采样增强语义特征，以及采用上采样增强定位特征。
91.在本实施例中，在颈部网络可以采用下采样增强语义特征，以及采用上采样增强定位特征。
92.s203-d、对全部特征进行回归预测处理，得到目标检测对象的位置信息和分类信息。
93.在本实施例中，预测端可以包含卷积层与全连接层，通过卷积层与全连接层对全部特征进行回归预测处理，能够得到目标检测对象的位置信息和分类信息。
94.以目标检测算法为yolov5s为例，请参见图6，以下对yolov5s算法的网络结构进行介绍。
95.其中，cbl模块由卷积层、批归一化层以及leaky relu激活函数组成。res unit借鉴resnet网络中的残差结构，用来构建深层网络。csp1_x模块借鉴cspnet网络结构，该模块由cbl模块、x个res unit以及卷积层构成。csp2_x模块借鉴cspnet网络结构，该模块由卷积层和2x+1个cbl 模块构成。focus模块将多个slice(切片)结果进行concat(合并)后送入 cbl模块。spp模块采用1
×
1、5
×
5、9
×
9和13
×
13的最大池化方式构建空间金字塔，并将多尺度的特征进行融合。
96.在模型训练阶段，输入端可进行mosaic数据增强、自适应锚框计算、自适应图片缩放，当利用训练好的模型进行目标检测时，在输入端可以只进行自适应图片缩放。
97.主干网络中focus结构与csp结构相结合，用以进行特征提取，通过 spp结构增加模型的尺度不变性。
98.颈部网络中fpn+pan结构增强语义特征及定位特征，采用借鉴 cspnet设计的csp2结构，从而加强网络特征融合能力。
99.预测端采用giou损失作为boundingbox(边界框)的损失函数，多个边界框中目标边界框的确定采用diou非极大值抑制。
100.在可选的实施方式中，实时巡检视频为飞行设备的视频采集单元拍摄并传输至飞行设备的处理单元。针对步骤s202，其包括子步骤：
101.s202-a、获取实时巡检视频。
102.在本实施例中，飞行设备的视频采集单元拍摄得到实时巡检视频后可以将其编码为视频流格式，然后视频采集单元实时推流至处理单元。
103.s202-b、对实时巡检视频进行解码，获得实时巡检视频对应的帧图像集合。
104.在本实施例中，飞行设备的处理单元接收到视频流格式的实时巡检视频后，可以先进行解码，然后进一步获得对应的帧图像集合。
105.在可选的实施方式中，可以通过飞行设备的通信模块将目标视频发送至用户，使
得用户能够实时观看巡检视频的检测结果。请参见图7，该目标检测方法在步骤s205之后，还包括步骤：
106.s206、依次将每帧检测结果图像推流至用户端，以使用户端根据接收的每帧检测结果图像进行视频播放。
107.在本实施例中，每处理得到一帧检测结果图像，可以将该检测结果图像实时推流至用户端，使得用户端根据接收的每帧检测结果图像进行视频播放。该用户端可以是用户的终端或者客户端。
108.在可选的示例中，飞行设备的处理单元中可以包含通讯模块，该通讯模块可以是但不限于物联卡、4g卡、5g卡等，经由通讯模块即可将得到的每帧检测结果图像实时推流至用户端。
109.应当说明的是，本发明所述的目标检测方法并不以上述步骤的具体顺序为限制。应当理解，在其它实施例中，本发明所述的目标检测方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。
110.基于上述的目标检测方法，本发明实施例还提供一种目标检测装置300，请参见图8，图8为本发明实施例提供的一种目标检测装置的结构示意图。该目标检测装置300的执行主体为飞行设备，目标检测装置300包含视频获取模块320和数据处理模块330。
111.视频获取模块320，用于获取实时巡检视频对应的帧图像集合。
112.数据处理模块330，用于利用目标检测算法，依次对帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息。
113.数据处理模块330，还用于根据目标检测对象的位置信息和分类信息，得到每一帧图像对应的检测结果图像。
114.其中，检测结果图像中已标记目标检测对象的位置和类别。
115.数据处理模块330，还用于依次根据每帧检测结果图像，合成已标记目标检测对象的目标视频。
116.在本实施例中，视频获取模块320可以用于执行上述步骤s202，数据处理模块330可以用于上述步骤s203-s206。关于视频获取模块320、数据处理模块330的相关内容可以参照前文相应的具体描述。
117.进一步地，数据处理模块330，具体可以用于：
118.针对每一帧图像，进行预处理；
119.对预处理后的图像中的特征进行提取，得到特征图像；
120.对特征图像中的全部特征，采用下采样增强语义特征，以及采用上采样增强定位特征；
121.对全部特征进行回归预测处理，得到目标检测对象的位置信息和分类信息。
122.进一步地，目标检测装置300还包括模型初始化模块310，模型初始化模块310具体可以用于：
123.读取预先训练得到的权重文件，权重文件中包含目标检测算法对应的神经网络中各节点的权重信息；
124.根据权重文件，更新神经网络中各节点的权重以完成目标检测算法的初始化。
125.在本实施例中，模型初始化模块310可以用于执行上述步骤s200、s201，关于模型
初始化模块310的相关内容可以参照前文相应的具体描述。上述目标检测装置300用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。
126.以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，或，一个或多个微处理器(digital signal processor，简称dsp)，或，一个或者多个现场可编程门阵列(field programmable gate array，简称 fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。
127.进一步地，基于上述的目标检测方法，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例的步骤。该计算机可读存储介质可以是，但不限于，u盘、移动硬盘、rom、ram、prom、eprom、 eeprom、flash磁碟或者光盘等各种可以存储程序代码的介质。
128.综上，本发明实施例提供了一种目标检测方法、装置、飞行设备及计算机可读存储介质，首先获取实时巡检视频对应的帧图像集合，再利用目标检测算法，依次对帧图像集合中的每一帧图像进行目标检测，得到目标检测对象的位置信息和分类信息。接着根据目标检测对象的位置信息和分类信息，得到每一帧图像对应的检测结果图像。最后依次根据每帧检测结果图像，合成已标记所述目标检测对象的目标视频。如此，使得飞行设备能够直接对采集到的实时巡检视频进行处理，得到已标记目标检测对象的目标视频，提高了巡检视频处理结果的效率且满足了用户的实时处理需求。
129.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵晓丹李勇潘屹峰黄吴蒙董哲盟周成虎
技术所有人：广州中科云图智能科技有限公司
我是此专利的发明人

上一篇：一种基于XGBoost的水文预报误差校正方法
上一篇：一种纺织面料用定长切割的裁切设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。