一种图像区域检测模型构建方法、系统及设备

文档序号：37217088发布日期：2024-03-05 15:08阅读：62来源：国知局

本发明涉及计算机视觉及图像数据处理领域，尤其涉及一种适用于智能轮椅的面向小区、公园等复杂场景图像的区域检测模型构建方法、系统及设备。

背景技术：

1、随着人工智能等领域科技的快速发展，传统的工业生产及人民的日常生活都在向无人化、智能化转型。轮椅作为一些行动不便的老人的重要行动工具，如果能够像无人汽车一样具有自动驾驶的功能，将大大便利部分老年人的出行。老人的活动范围一般在小区、公园等场景。根据具体的场景，可以设计出相应的智能活动轮椅，使其具备自动获取环境信息并自动规划行动路线，并且能够根据规划的路线自动行驶。智能轮椅应该首先具备自动进行复杂场景中的不同区域的自动检测的能力。

2、传统的区域检测方法需要基于路面或相关物体的颜色、纹理，甚至微波反射信号等特征，强烈依赖于相关人员的专业知识和技术水平，而且会导致大量的检测错误。随着算力和数据的空前增加以及算法的不断发展，基于深度卷积神经网络的方法超越了传统方法。基于深度学习的语义分割和目标检测方法可以分别解决区域检测和物体检测的功能，现有的常规检测方法，不能够很好地适应小区、公园等环境情况复杂的应用场景，并且硬件传感器和数据依赖性强，且对于例如智能轮椅等设备，由于计算资源的有限性，常规识别方案的计算时间会很长，不能很好地满足实际生活中的应用需求。

3、因此，针对实际生活场景需求和智能轮椅推广的市场需求，在硬件资源有限的智能轮椅上实现及时和准确的区域检测功能的融合，成为目前亟待解决的问题。

技术实现思路

1、有鉴于此，本方案提出了一种图像区域检测模型构建方法、系统及设备，充分考虑复杂环境图像区域检测任务之间的内在联系，将区域检测和目标检测两个任务结合到一个网络当中，加快完成两个任务的速度，同时提升图像检测的精度。具体而言，本方案提供了以下技术方案：

2、一方面，本发明提供了一种图像区域检测模型构建方法，所述方法包括：

3、s1、配置网络模型，所述网络模型包括骨干网络、颈部网络、可行驶区域分割网络和障碍物检测网络；

4、获取场景图像，并将场景图像输入骨干网络进行特征提取，所述骨干网络包含多个不同层级，该多个不同层级得到多个不同尺寸特征图；

5、s2、选取s1中e个层级的多个不同尺寸特征图输入至颈部网络进行特征融合，得到多个分辨率不同的图像金字塔特征图；所述e为大于等于2且小于等于骨干网络层级数的正整数；

6、s3、将颈部网络得到的最后一层图像金字塔特征图作为待分割特征图输入可行驶区域分割网络，进行可行驶区域分割；

7、将图像金字塔特征图输入障碍物检测网络进行特征融合，并进行障碍物检测，得到障碍物检测结果；

8、s4、基于损失函数，分析网络模型是否收敛。

9、优选地，所述颈部网络包括空间金字塔池化单元和特征金字塔网络单元。

10、优选地，所述颈部网络中的空间金字塔池化单元，接收骨干网络最后一层输出的特征图，并进行多尺度池化操作，多尺度池化操作的输出结果经融合后，形成金字塔池化特征图，同时输入特征金字塔网络单元和障碍物检测网络。这一过程有助于更有效地检测和分割各种不同大小的物体。更进一步地，多尺度池化操作可以是例如5、9和13倍的多级池化操作。

11、优选地，所述颈部网络中的特征金字塔网络单元，将所述金字塔池化特征图逐级经过上采样后与骨干网络输入的其他不同尺寸的特征图进行融合，得到多个不同分辨率的图像金字塔特征图。其中，特征金字塔网络单元得到的最后一层图像金字塔特征图（也即颈部网络得到的最后一层图像金字塔特征图）作为待分割特征图。这个融合过程逐渐向下层级扩展，每次上采样后与相应分辨率较高的特征图融合。这一策略有助于恢复和整合多尺度特征，从而提高图像金字塔特征图的质量和多尺度检测和分割性能。

12、优选地，所述图像金字塔特征图为颈部网络输出的多种尺寸的特征图。

13、优选地，所述障碍物检测网络包括路径聚合网络单元和多个检测头。

14、优选地，所述骨干网络得到的多个不同尺寸特征图大小依次减半，通道数依次加倍。

15、优选地，所述s3中，所述可行驶区域分割网络经过连续上采样，将所述待分割特征图恢复至原图大小，并调整通道数为2，计算语义概率输出，并将语义概率输出映射至[0,1]之间，完成可行驶区域分割。

16、优选地，所述s3中，所述障碍物检测进一步包括：

17、将所述图像金字塔特征图划分为k×k个单元格，通道数设置为b×(5+c)；

18、其中，b表示每个单元格的预测边界框数量，每个预测边界框有(5+c)个属性，分别为预测边界框的中心点坐标、宽度、高度、预测边界框中存在物体的概率以及类别属于c个类别中某一类的置信度；

19、对于各单元格，通过障碍物检测网络进行障碍物检测，得到障碍物中心点坐标以及预测边界框的长度和宽度。

20、优选地，对于各单元格中的每个边界框，通过障碍物检测网络输出的参数（即由障碍物检测网络中的检测头输出的参数）完成目标检测结果的后处理，得到障碍物中心点坐标以及障碍物实际检测框的长度和宽度，过程如下所示：

21、；

22、；

23、；

24、；

25、其中，bx和by分别表示预测障碍物目标框的中心坐标，bw表示障碍物实际检测框的宽度，bh表示障碍物实际检测框的高度，tx 、ty 、tw 和th分别是网络的输出的参数，cx 和cy表示单元格左上角的坐标，pw和ph表示路径聚合网络各层的输出特征图的尺寸。表示障碍物相对于单元格左上角的偏移位置；表示预测边界框与真实值的高宽比值；函数表示t相对于单元格左上角的位置偏移。

26、优选地，所述s4中的损失函数loss表示为：

27、；

28、其中，表示检测损失，表示分割损失，、为可调整的平衡参数，平衡总体联合函数中的检测损失和分割损失。

29、优选地，所述检测损失的计算方式为：

30、；

31、其中，表示置信度损失，表示类别损失，表示位置损失，、、分别表示可设置的调整参数。

32、优选地，所述分割损失的计算方式为：

33、；

34、其中，与分别表示像素的标签值与预测值，n表示像素总数。

35、优选地，基于图像金字塔特征图中预测边界框和真实边界框，确定位置损失；

36、基于图像金字塔特征图中划分的网格数据和候选边界框预测数目，确定置信度损失；

37、基于网格中物体的真实类别和网络对每种物体类别的置信度预测结果，确定类别损失。

38、第二方面，本发明还提供了一种图像区域检测模型构建系统，所述系统包括：骨干网络模块、颈部网络模块、可行驶区域分割模块和障碍物检测模块；所述骨干网络模块连接所述颈部网络模块，所述颈部网络模块分别连接所述可行驶区域分割模块和障碍物检测模块；

39、所述骨干网络模块用于对场景图像进行特征提取，所述骨干网络模块包含多个不同层级，该多个不同层级得到多个不同尺寸特征图；

40、所述颈部网络模块用于将骨干网络模块中选取的e个层级的多个不同尺寸特征图进行特征融合，得到多个分辨率不同的图像金字塔特征图；所述e为大于等于2且小于等于骨干网络层级数的正整数；

41、颈部网络模块包括空间金字塔池化单元和特征金字塔网络单元；

42、所述可行驶区域分割模块接收所述颈部网络模块得到的待分割特征图，并进行可行驶区域分割；所述待分割特征图是指颈部网络模块得到的最后一层图像金字塔特征图；

43、所述障碍物检测模块接收所述图像金字塔特征图，并进行障碍物检测，得到障碍物检测结果。

44、优选地，所述颈部网络模块中的空间金字塔池化单元，接收骨干网络模块最后一层输出的特征图，并进行多尺度池化操作，多尺度池化操作的输出结果经融合后，形成金字塔池化特征图，同时输入特征金字塔网络单元和障碍物检测模块。这一过程有助于更有效地检测和分割各种不同大小的物体。更进一步地，多尺度池化操作可以是例如5、9和13倍的多级池化操作。

45、优选地，所述颈部网络模块中的特征金字塔网络单元，将所述金字塔池化特征图逐级经过上采样后与骨干网络模块输入的其他不同尺寸的特征图进行融合，得到多个不同分辨率的图像金字塔特征图。其中，特征金字塔网络单元得到的最后一层图像金字塔特征图（也即颈部网络模块得到的最后一层图像金字塔特征图）作为待分割特征图。这个融合过程逐渐向下层级扩展，每次上采样后与相应分辨率较高的特征图融合。这一策略有助于恢复和整合多尺度特征，从而提高图像金字塔特征图的质量和多尺度检测和分割性能。

46、优选地，所述图像金字塔特征图为颈部网络输出的多种尺寸的特征图。

47、优选地，所述障碍物检测模块包括路径聚合网络单元和多个检测头。

48、优选地，所述系统还包括损失函数模块，用于计算系统的损失函数，以确定系统是否收敛。

49、第三方面，本发明还提供了一种图像区域检测模型构建设备，所述设备至少包括存储器和处理器，所述存储器中存储有可被处理器调用的计算机指令，当所述计算机指令被所述处理器调用时，可执行如上所述的图像区域检测模型构建方法。

50、与现有技术相比，本发明技术方案检测和分割任务共享一个骨干网络结构，可以显著减少计算成本、提高处理速度，在一个共享的特征提取过程中不需要多次计算。同时，本方案采用多任务学习的方法，有助于提高检测和分割的准确性，因为不同任务之间可以相互促进，提高了对复杂环境的鲁棒性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷绪成,白钰龙,马嘉威,贾若铖
技术所有人：北京科技大学
我是此专利的发明人

上一篇：一种OCX模块调用方法、装置、设备及存储介质与流程
上一篇：云接口测试方法、装置、计算机设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。