本发明涉及足球比赛目标检测方法领域。
背景技术:
1、数据分析,战术研究,赛事直播是职业足球项目重要的组成部分。对足球比赛进行目标检测可以帮助球队进行球员数据分析,战术追踪,提高观众观赛体验,而足球比赛中检测球是一个极具挑战性的问题。首先,相较于足球比赛场景内其他物体,足球的尺寸显得尤为小巧,并且还会根据位置发生大幅度的变化:当球处在远端边线时,其尺寸可能仅有几个像素大小;相反靠近近端边线时,尺寸可能膨胀到20多个像素。此外球的形状也会发生变化,例如球在快速移动时会变得模糊,形状呈现非标准的圆形。并且还伴随着与球员身体遮挡的问题,这进一步增加了检测的难度。
2、现有技术中,jacek komorowski等人提出footandball探测器进行足球比赛检测,但该网络特征融合能力不足,并且其数据集大小有限,导致检测准确率不佳,之后提出的deepball探测器,准确率虽有所提高,但在足球类别的小目标检测的准确率仍有进步空间,konstantinos moutselos等人最近提出的数据集soccernet_v3_h250是使用了yolov8n模型进行检测,其全部类检测准确度map50达到70.2%,map50-90达到46.6%,其球类检测准确度map50达到42.6%,map50-90达到17.9%,目前基于深度学习的目标检测算法则主要分为单阶段和双阶段目标检测两类方法。双阶段目标检测算法的主要代表是r-cnn系列模型,包括r-cnn、fast r-cnn、faster r-cnn、mask r-cnn等,这类算法的劣势是速度较慢,对小目标与遮挡严重的目标检测效果不佳。而单阶段目标检测算法不需要进行候选区域的生成和分类,而是直接从输入图像或视频中预测物体边界框,因此通常具有更快的检测速度和较高的准确率。而随着目标检测算法的发展,yolo系列成为单阶段目标检测的经典模型,基于此,为了更准确得进行足球比赛目标检测,本发明提出了一种足球比赛目标检测方法。
技术实现思路
1、本发明的目的在于提供一种足球比赛目标检测方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,足球比赛目标检测方法,所述方法通过yolov5n_3att_bifpn模型实现,包括如下步骤:
3、步骤s1,将原始输入图像转化为多层特征图,通过所述模型的主干网络backbone进行特征提取,且在主干网络backbone中引入三重注意力机制;
4、步骤s2,通过所述模型的特征增强网络基于bifpn来融合步骤s1获取的多尺度特征;
5、步骤s3,通过所述模型的检测头head整合步骤s2提取的特征,并输出最终的检测信息。
6、优选的:所述步骤s1主干网络backbone通过卷积层和c3模块减小特征图的尺寸并增加通道数,且采用sppf模块捕捉不同尺度的特征并应用于同一张图像。
7、优选的:所述步骤s1主干网络backbone将三重注意力机制加入到空间金字塔池化sppf模块之前,且三重注意力机制由三个分支构成。
8、优选的:所述三重注意力机制每个分支的具体过程为,在第一个分支中,输入张量x∈rc×h×w,建立维度h与维度c间的交互,首先将张量x沿h轴逆时针旋转90°,得到形状为(w×h×c)的旋转张量,随后,经过z-pool处理,张量形状转变为(2×h×c),标记为接着,该张量通过一个内核大小为k×k的标准卷积层进行特征提取,并通过批处理归一化层进行规范化,得到形状为(1×h×c)的中间输出,接着该中间输出通过sigmoid激活层(σ)以生成注意力权值,最终沿h轴顺时针旋转90°,得到输出。
9、优选的:所述三重注意力机制的第二个分支中,输入张量x∈rc×h×w,建立c维度与w维度之间的交互,首先沿w轴逆时针旋转输入张量x,得到形状为(h×c×w)的旋转张量随后通过z-pool操作,张量形状转变为(2×c×w),标记为接着该张量经过内核大小为k×k的标准卷积层进行特征提取,并通过批处理归一化层进行规范化,得到形状为(1×c×w)的中间输出,接着将该中间输出传递至sigmoid激活层(σ),生成注意力权值,最后沿w轴顺时针旋转张量90°,得到输出。
10、优选的:所述三重注意力机制的在第三个分支中,输入张量x∈rc×h×w,建立h维度与w维度之间的交互,首先通过z-pool对输入张量x的通道进行简化,得到形状为(2×h×w)的简化张量,接着该简化张量经过一个核大小为k×k的标准卷积层进行特征提取,随后将卷积后的张量通过sigmoid激活层(σ),生成形状为(1×h×w)的注意力权值,最后将这些注意力权值应用于原始输入张量x,从而得到结果张量最终将上述三个分支的输出取平均值,得到张量c×h×w。
11、优选的:所述步骤s2的bifpn采用快速归一化融合方法,快速归一化如下式所示:
12、
13、上式中,ωi表示可学习的权重,使用激活函数relu来确保每个ωi的值非负,计算流程如下:首先,计算所有ωi的权重之和;接着,添加一个微小常数ε=0.0001,来避免数值不稳定;然后,对这些权重进行归一化处理;最后,利用归一化后的权重对输入特征ii进行加权,从而得到输出特征o。
14、优选的:所述步骤s2特征融合,以p6层为例,特征融合的计算公式为:
15、
16、公式(8)(9)中,conv为卷积操作,resize为上采样或下采样操作,piin为第i级的输入特征,pimid为第i级的中间特征,piout为第i级的输出特征。
17、本发明相较于现有技术,其有益效果为:
18、本发明通过将yolov5n融合三重注意力机制,显著增强了其对局部细节的表征能力,使得检测的精度得到明显提高,特别是在小目标如足球的识别方面。此外,提出的加权双向特征金字塔网络结构有效地融合了不同尺度和深度的特征信息,进一步丰富了模型的特征表示能力,使其能够更准确地捕捉目标在不同尺度下的特征,在与现有的yolov8n模型的对比中,yolov5n_3att_bifpn的全部分类的精确度提升5.3%,“球”分类的精确度提升7.8%。
1.一种足球比赛目标检测方法,所述方法通过yolov5n_3att_bifpn模型实现,其特征在于,包括如下步骤:
2.根据权利要求1所述的足球比赛目标检测方法,其特征在于:所述步骤s1主干网络backbone通过卷积层和c3模块减小特征图的尺寸并增加通道数,且采用sppf模块捕捉不同尺度的特征并应用于同一张图像。
3.根据权利要求1所述的足球比赛目标检测方法,其特征在于:所述步骤s1主干网络backbone将三重注意力机制加入到空间金字塔池化sppf模块之前,且三重注意力机制由三个分支构成。
4.根据权利要求3所述的足球比赛目标检测方法,其特征在于:所述三重注意力机制每个分支的具体过程为,在第一个分支中,输入张量x∈rc×h×w,建立维度h与维度c间的交互,首先将张量x沿h轴逆时针旋转90°,得到形状为(w×h×c)的旋转张量随后,经过z-pool处理,张量形状转变为(2×h×c),标记为接着,该张量通过一个内核大小为k×k的标准卷积层进行特征提取,并通过批处理归一化层进行规范化,得到形状为(1×h×c)的中间输出,接着该中间输出通过sigmoid激活层(σ)以生成注意力权值,最终沿h轴顺时针旋转90°,得到输出。
5.根据权利要求4所述的足球比赛目标检测方法,其特征在于:所述三重注意力机制的第二个分支中,输入张量x∈rc×h×w,建立c维度与w维度之间的交互,首先沿w轴逆时针旋转输入张量x,得到形状为(h×c×w)的旋转张量随后通过z-pool操作,张量形状转变为(2×c×w),标记为接着该张量经过内核大小为k×k的标准卷积层进行特征提取,并通过批处理归一化层进行规范化,得到形状为(1×c×w)的中间输出,接着将该中间输出传递至sigmoid激活层(σ),生成注意力权值,最后沿w轴顺时针旋转张量90°,得到输出。
6.根据权利要求5所述的足球比赛目标检测方法,其特征在于:所述三重注意力机制的在第三个分支中,输入张量x∈rc×h×w,建立h维度与w维度之间的交互,首先通过z-pool对输入张量x的通道进行简化,得到形状为(2×h×w)的简化张量,接着该简化张量经过一个核大小为k×k的标准卷积层进行特征提取,随后将卷积后的张量通过sigmoid激活层(σ),生成形状为(1×h×w)的注意力权值,最后将这些注意力权值应用于原始输入张量x,从而得到结果张量最终将上述三个分支的输出取平均值,得到张量c×h×w。
7.根据权利要求1所述的足球比赛目标检测方法,其特征在于:所述步骤s2的bifpn采用快速归一化融合方法,快速归一化如下式所示:
8.根据权利要求1所述的足球比赛目标检测方法,其特征在于:所述步骤s2特征融合,以p6层为例,特征融合的计算公式为: