本发明涉及目标检测领域,具体涉及一种基于随机不确定性的目标检测方法。
背景技术:
1、目标检测作为计算机视觉领域的重要任务之一,被广泛应用于自动驾驶、物体跟踪等领域。近年来,基于深度学习的目标检测方法极大地提高了模型的精度和推理速度。主流的目标检测方法由两个模块组成,分别是特征提取模块与检测器模块,检测器模块通常由分类分支与回归分支组成。大多数基于深度学习的目标检测方法都提出了确定性的目标检测模型,将检测框坐标表示为确定值,将检测器分类分支的卷积采样过程建模为确定的过程。
2、然而,由于信号采集噪声、数据标注误差等与观测数据本身相关的原因,导致深度学习方法存在随机不确定性。基于深度学习的目标检测方法同样存在随机不确定性问题,根据目标检测中的回归任务和分类任务,可以将随机不确定性问题进一步分为空间不确定性和语义不确定性。
3、首先,对于回归任务,由于存在物体被截断、被遮挡、输入图像模糊等问题,导致检测框的边界是不确定的,即目标检测任务存在空间不确定性。然后,对于分类任务,输入图像中每个物体的形状是随机的,而检测器分类分支的卷积感受野是确定的,卷积特征与物体位置不对齐,导致物体的类别存在不确定性,即目标检测任务存在语义不确定性,最终导致物体的类别预测不准确。
4、其次,目标检测器的分类与回归分支的并行结构也会导致空间预测不对齐,影响模型的检测性能。
5、最后,主流的目标检测方法仅使用类别分数作为检测框的质量表示分数,而忽略了检测框的位置质量,不能准确地表示检测框质量,导致在目标检测后处理过程中存在高质量检测框被误删的现象,即目标检测结果不准确、不完整。质量指检测框的准确度和可靠性,高质量的检测框指定位准确、大小适当、目标物体类别和置信度预测准确的检测框。
技术实现思路
1、为解决上述问题,本发明提供一种基于随机不确定性的目标检测方法。
2、该方法构建一个目标检测模型,将待识别图像输入目标检测模型,输出图像中物体的类别及坐标,目标检测模型的训练包括以下步骤:
3、步骤一,准备图像数据进行目标类别及类别分数标注、检测框坐标标注,将标注过的图像预处理后作为训练数据;
4、步骤二,将训练数据输入特征提取网络提取其空间语义特征;
5、步骤三,将空间语义特征分别输入到分类分支特征提取网络和回归分支特征提取网络得到原始分类特征xcls与原始回归特征xreg;
6、步骤四,将原始分类特征xcls与原始回归特征xreg输入到自适应特征对齐模块得到优化分类特征
7、步骤五,根据原始回归特征xreg计算检测框坐标的一般分布和检测框坐标的确定值ydtrmd;
8、步骤六,将原始回归特征xreg、优化分类特征检测框坐标的确定值ydtrmd,输入到预测框加权平均模块得到优化的检测框坐标rrefine;
9、步骤七,将优化分类特征和检测框坐标的一般分布输入到目标类别预测网络得到优化的类别分数;
10、步骤八,根据分类损失函数focalloss和回归损失函数giouloss训练目标检测模型,直到达到预设的训练完成条件。
11、进一步的,步骤二具体包括,将训练数据输入到卷积特征提取网络,得到多层卷积特征,将多层卷积特征输入到空间语义特征增强网络,得到空间语义特征。
12、进一步的,卷积特征提取网络为resnet-50或resnet-101。
13、进一步的,空间语义特征增强网络为多级特征金字塔网络fpn。
14、进一步的,步骤四具体包括:
15、将原始回归特征xreg输入到卷积层,生成随机偏移量p;
16、将随机偏移量p和原始分类特征xcls进行随机采样操作,得到对齐的分类特征xalign:
17、
18、其中,m为卷积采样点个数,pi表示当前卷积核中心点所在位置,r是卷积在特性图上的采样位置集合,pm表示r上的每个位置,δpm表示pm位置学习到的偏移量,w(pm)表示卷积核上pm位置的权重;
19、将原始分类特征xcls和对齐的分类特征xalign进行融合,得到优化分类特征
20、
21、其中,α表示原始分类特征系数。
22、进一步的,步骤五具体包括:
23、定义检测框坐标的一般分布近似模型为其中,yi表示当前检测框的特征点位置到检测框边界的距离为i,p()为概率密度函数,n代表一般分布离散值的数量;
24、根据检测框坐标的一般分布近似模型,将原始回归特征xreg输入到一层卷积网络,得到特征图;
25、将特征图输入到softmax激活函数,得到检测框坐标的一般分布
26、将检测框坐标的一般分布输入到数学期望计算模块,得到检测框坐标的确定值ydtrmd。
27、进一步的,步骤六具体包括:
28、将原始回归特征xreg与优化分类特征在通道维度上进行拼接,得到融合特征xconcat;
29、将融合特征xconcat输入到一层卷积网络中,生成检测框位置采样偏移量o;
30、将检测框位置采样偏移量o和检测框坐标的确定值ydtrmd输入到一层可形变卷积网络,得到优化的检测框坐标rrefine:
31、
32、其中,j代表当前可形变卷积采样点的序列,l代表可形变卷积采样点的数量,r表示原始的预测框坐标值,x和y分别表示当前点的水平方向和垂直方向坐标,δxj和δyj分别表示当前点的水平方向和垂直方向的偏移量,k表示检测框坐标的编号。
33、进一步的,步骤七具体包括:
34、将优化分类特征输入到一层卷积神经网络得到逻辑算子,将逻辑算子输入到sigmoid激活函数得到类别分数;
35、从检测框坐标的一般分布中提取最大的三个概率值、均值、方差输入到概率引导模块,得到位置质量估计;
36、将位置质量估计乘以类别分数,得到优化的类别分数。
37、进一步的,步骤八所述根据分类损失函数focalloss和回归损失函数giouloss训练目标检测模型,具体包括:
38、分类损失函数focalloss的输入为训练数据标注的目标类别、训练数据标注的类别分数、步骤七得到的优化的类别分数;
39、回归损失函数giouloss的输入为训练数据标注的检测框坐标和优化的检测框坐标rrefine。
40、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
41、1.针对目标检测任务中存在的空间不确定性,本发明设计了基于一般分布的检测框坐标建模模块,将检测框坐标建模为概率分布的形式,能够捕捉到复杂场景下的边界不确定信息,显著改善检测框的位置质量,缓解目标检测任务中的空间不确定性问题,提高检测框位置预测准确性。
42、2.针对目标检测任务中存在的语义不确定性,本发明设计了基于随机采样的自适应特征对齐模块,能够自适应地学习卷积操作的每个采样位置的最佳偏移量,对整个特征图上的所有特征点进行对齐,对齐分类特征,提升类别预测的准确度,缓解目标检测任务的语义不确定性问题,提高类别预测准确性。
43、3.针对目标检测器的空间预测不对齐问题,本发明设计了基于随机采样的预测框加权平均模块,利用更高质量的周围检测框坐标优化当前特征点的检测框坐标,改善检测框的位置质量,提升模型精度。
44、4.针对目标检测任务中的检测框的质量表示问题,本发明设计了概率引导模块,利用检测框坐标的一般分布中包含的位置信息得到位置质量估计,进而优化检测框的质量表示,提升模型精度。
45、综上,本发明所提出的方法能够提升在复杂场景下的检测精度,预测出高质量的检测框,为目标检测任务的下游决策提供更加精准的位置信息。