一种基于改进RT-DETR网络的铁路信号机动态调整实时检测方法

文档序号:40908160发布日期:2025-02-14 21:20阅读:14来源:国知局
一种基于改进RT-DETR网络的铁路信号机动态调整实时检测方法

本发明涉及计算机视觉,涉及目标检测、深度学习和图像识别等技术,具体表现为一种基于改进rt-detr网络的铁路信号机动态调整实时检测方法。


背景技术:

1、铁路信号机检测对提升铁路系统的运行安全性能起到重要作用。铁路信号机检测能够确保信号设备正常运行,避免因设备故障或异常导致的安全事故,从而保障列车和乘客的安全。动态调整实时检测信号机的运行状态,可以帮助铁路调度系统更准确地掌握列车运情情况,优化信号控制策略,减少列车等待时间,提高铁路运输效率。

2、在实际应用中,人工目标检测存在一些局限性和挑战。首先,人工目标检测容易受到人为因素的影响,如疲劳、注意力分散等,这些因素可能导致检测结果的不准确或遗漏。其次,对于大量的图像或视频数据,人工检测不仅效率低下,而且容易出错,特别是在处理复杂场景或目标时。其他几个主流模型faster r-cnn、yolov5等算法和经典的骨干网络detnet和fishnet通过模拟人类的视觉系统,利用深度学习等算法对图像或视频进行自动分析和处理,从而实现对目标的自动检测和识别,但它们仍然需要在imagenet上进行预训练和微调,并且对于微小目标的检测精度不够高,时间成本高大,计算花销大;detr被提出后,deformable detr、conditional detr、dino等一系列工作相继被提出,不断地去解决原始的detr所暴露出来的诸多,不断将这一框架的性能逼近最优,detr的问世为广大的研究者揭示了一条新的研究路线。


技术实现思路

1、deformable detr提出了deformable attention解决标准transformer中的attention 0(某些数据点的权重可能非常接近于0,从而在数值上表现为接近忽略的状态)的问题,加快模型的收敛速度和降低算法的复杂度,同时又引入了多尺度特征解决小目标检测性能不足的问题;group detr引入多个object queries,既能保留detr的end-to-end推理的优势,同时还能利用训练中的one-to-many优势来提升性能,加快模型的收敛速度;dab-detr通过引入″去噪学习″的思想来加快detr的收敛速度,而随后的dino则彻底完善这套框架针对一种基于改进rt-detr网络的铁路信号机动态调整实时检测方法;由于现阶段传统的transformer使用标准的自注意力机制,这种机制会处理图像中的所有像素,导致计算量很大。部分上采样器由于耗时的动态卷积和用于生成动态内核的额外子网,引入了大量工作负载。现有的边界框回归的损失函数在不同的预测结果下具有相同的值,这降低了边界框回归的收敛速度和精度。

2、基于以上问题,本发明所做贡献如下:

3、本发明的目的在于,针对现有的技术缺陷,提供一种基于改进rt-detr网络的铁路信号机动态调整实时检测方法,包括如下步骤:

4、步骤1、无人机航拍采集铁路信号机数据集:

5、本发明采用的所述铁路信号机数据集来源于国内多个城市车站的铁路无人机航拍图像;这些图像不仅包含了铁路轨道的信息,且捕捉到了大量的铁路信号机;每一幅原始航拍图像的大小为4864×3648像素,分辨率高,细节清晰,为后续的目标检测提供了丰富的视觉信息。

6、步骤2、对数据集进行预处理操作:

7、对图像进行比度增强、噪声过滤、图像锐化等操作;对图像进行必要的裁剪和拼接,使用labelimg工具对预处理后的图像进行手动标注,生成对应的标签图像,以制作出一个专用于铁路信号机识别的数据集;

8、数据集包括两个子文件夹,分别为images和labels,其中images保存训练图像,labels保存与训练图像对应的xml文件;将制作好的数据集划分为训练集、测试集、验证集利用代码对相应标签框进行调整;训练集图像路径保存在train.txt,测试集图像路径保存在test.txt,验证集图像路径保存在val.txt。

9、步骤3、改进原始rt-detr网络:

10、所述铁路信号机检测模型以rt-detr网络为基础网络,所述rt-detr网络包括resnet50主干网络和高效混合编码器efficient hybrid encode,将主干网络resnet50中的部分3×3卷积替换成动态采样点的可变形动态量化采样注意机制dqsat;将高效混合编码器efficient hybrid encode中的上采样算子替换为动态分组上采样器dygsample;本发明将rt-detr的decoder网络中boundingbox的损失函数采用一种新的基于最小点距离的边界框回归损失函数lriou进行边界框回归调整;

11、所述主干网络resnet50主要由多个1×1和3×3卷积组成的瓶颈层交替而成,在此基础上引入动态量化采样注意机制dqsat能够增强模型的表示能力和特征提取能力;resnet50的主要思想是使用瓶颈层残差学习来解决深度卷积神经网络中的梯度消失问题;在瓶颈层的1×1卷积核中,由于通道数量已经被降低,在该卷积后加入的动态量化采样注意机制dqsat带来的计算量相对较少,本发明在保证主干性能的前提下增加主干网络的复杂度,提高主干网络的计算准确率和表现力;

12、所述主干网络resnet50中包括conv1、conv2_x、conv3_x、conv4_x、conv5_x五层基准模块,每层所述基准模块包括三个卷积层,将每个所述基准模块中第二个3×3卷积替换成动态采样点的可变形动态量化采样注意机制dqsat模块;

13、所述动态采样点的可变形动态量化采样注意机制dqsat模块能够动态地选择采样点,而不是固定地处理整个图像,集中地关注于那些对当前任务最重要的区域;上侧部分,一组参考点均匀地放置在特征图上,这些点的偏移量是由查询通过偏移网络学习得到的;如下侧所示,根据变形点从采样特征中投影出变形的键和值;相对位置偏差也通过变形点计算,增强了输出转换特征的多头注意力;每层输入和输出特征图的大小都有标注,这个offsetnetwork在网络的代码中需要控制可添加可不添加;动态采样点的可变形动态量化采样注意机制dqsat模块具有与pvt或swin变压器相似的计算代价;唯一的额外开销来自用于生成偏移量的子网络,整个模块的复杂性可概括为:

14、ω(dqsat)=2hwnsc+2hwc2+2nsc2+(k2+2)nsc;

15、所述动态量化采样注意机制dqsat中,offset network网络采用的prelu(参数整正线性单元)是一个具有参数的relu;如果ai=0,prelu降级为relu;如果是一个小固定值(如=0.01),prelu降级为泄漏relu(lrelu);与relu相比,lrelu对最终结果的影响不大;prelu只增加了非常少的参数,这意味着网络的计算量和过拟合的风险只增加了一点;特别是,当不同的通道使用相同的ai时,参数甚至更少;负斜率参数ai更新时,采用动态更新模式,如公式:

16、

17、所述主干网络resnet50输出的特征图进入三个阶段{s3,s4,s5},利用主干的最后三个阶段{s3,s4,s5}的特征图作为编码器的输入,利用三个阶段{s3,s4,s5}的特征图作为编码器的输入,将特征图输入高效混合编码器efficient hybrid encoder通过尺度内特征交互(aifi)和跨尺度特征融合模块(ccfm)将多尺度特征转化为图像特征序列;

18、附带dygsample的efficient hybrid encoder模块结构描述如下:三种不同尺寸(256,25,25)、(256,50,50)、(256,100,100)的特征图分别进入efficient hybrid encoder第一层的的convnormlayer模块、convnormlayer模块和cspreplayer模块;通过efficienthybrid encoder所有模块后三种尺寸的特征图进入concat模块进行拼接后进入特征图扁平化操作,最后将特征输入至ccff结构中;

19、进一步地,将所述高效混合编码器efficient hybrid encode中的上采样算子替换为动态分组上采样器dygsample;所述动态分组上采样器dygsample使用了一种基于点采样的方法,与以前的基于内核的动态分组上采样器相比,它具有更少的参数、浮点操作、gpu内存和延迟;此外,dygsample在语义分割、目标检测、实例分割、全景分割和一元深度估计等五个预测任务中的性能都优于其他上采样器(迄今为止最有效的上采样器);dygsample的实现更轻量级,不需要额外的cuda包或定制的硬件支持,这使得它很容易集成到高效的混合编码器中,而不会显著增加模型的复杂性;由于dygsample不依赖于高分辨率的特性,所以它在各种应用程序场景中都具有良好的性能;将其引入到一个高效的混合编码器中,可以使整个模型在更广泛的场景中保持高性能;与基于内核的动态分组上采样器,如carafe、fade和sapa相比,dygsample具有更少的参数、浮点操作(flops)、gpu内存和延迟;这意味着在一个高效的混合编码器c中使用dygsample其计算过程如下:

20、o=linear(x);

21、s=g+o;

22、其中,给定一个上采样尺度因子x和一个尺寸为c×h×w的特征映射x,使用一个输入和输出信道数为c和2s2的线性层产生尺寸为2s2×h×w的偏移量o,然后通过像素重组将其重组为2×sh×sw。然后采样集s是偏移量o和原始采样网格g的和。

23、步骤4、将训练集原始图像通过预训练权重在神经网络的各层进行数据变换,得到预测值y′,而训练集标签作为真实值y;将预测值y′和真实值y输入损失函数lriou中,结合损失值调整网络权重;

24、本发明将rt-detrdecoder网络中boundingbox的损失函数采用一种新的基于最小点距离的边界框回归损失函数lriou进行边界框相似性回归调整;为了充分探索水平矩形的几何特征,提出了一种基于最小点距离的边界盒相似度比较指标lriou,该指标考虑了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离、宽度和高度偏差,同时简化了计算过程;

25、在此基础上,本发明采用的基于riou的边界盒回归损失函数lriou;图像特征从所述改进rt-detr网络的decoder输出后经过用于边界框回归的新型损失函数lriou进行边界框相似性回归调整;所述边界框回归损失函数lriou是一种基于最小点距离的用于边界框回归的新型损失函数lriou,并在边界框回归过程中使用lriou作为一种新措施来比较预测边界框与地面真实边界框之间的相似性;该边界框回归损失函数lriou的公式为:

26、

27、lriou=1-riou;

28、其中,xprd,yprd,w和h分别代表预测框中心点横坐标、纵坐标、预测框的宽和高,xgt,ygt和分别代表groud truth中心点横坐标、纵坐标,iou表示预测边界框与地面真实边界框的交并比;将lriou用在rt-detr中可以显著提升模型的边界框回归精度、检测性能和计算效率,为实时目标检测任务提供更加准确和高效的解决方案;

29、步骤5、训练完成后,选择最优权重对原始信号机图像数据集进行检测,评价指标对比和损失函数可视化分析,利用公共飞机数据集rsod-dqsataset重复上述实验步骤,验证模型实时检测性能;

30、为了进一步验证本发明改进rt-detr铁路信号机检测算法的优劣,在铁路信号机检测数据集和飞机数据集rsod-dqsataset上,对不同模型训练损失函数的收敛过程进行可视化分析;为了保证无其他干扰条件,本发明损失函数可视化实验所用的不同模型都使用相同的损失函数,训练迭代次数都为100次,用来对比的网络为faster r-cnn、yolov5和原始rt-detr模型;

31、将所述改进rt-detr网络的实验结果和其他几个主流模型faster r-cnn、yolov5和原始rt-detr模型进行评价指标的对比、损失函数可视化分析。本发明选用了一系列的评价指标,包括map(mean average precision)、ap(average precision)、f1 score、precision、recall和time;由于recall和precision不像ap是一个面积的概念,因此在门限值(confidence)不同时,网络的recall和precision值是不同的;本发明计算的评价指标代表的是当门限值confidence=0.5时,所对应的指标值;与其他算法相比,本发明在保持高精度和高实时检测的同时,还能够实现较快的处理速度,这对于铁路信号机的动态调整实时检测需求具有重要意义。

32、所述训练方法为:训练时网络均使用预训练模型,学习率设置为0.01,衰减权重为5×10-4,批量大小为8;训练迭代次数为100轮,每10个epoch保存一次权重;实验配置是具有64位操作系统、inteli5 cpu和nvidia tesla t4显卡的windows 10系统;运用大疆m600无人机在400米高度进行正射拍摄时所产生的信号机原始图像数据,使用的禅思zenmuse x5s是一款高性能的相机,提供了高质量的信号机图像输出,适用于专业级的航空摄影任务训练时网络均使用预训练模型。

33、为了进一步验证本发明改进rt-detr铁路信号机检测算法的优劣,在铁路信号机检测数据集和飞机数据集rsod-dqsataset上,对不同模型训练损失函数的收敛过程进行可视化分析;为了保证无其他干扰条件,本发明损失函数可视化实验所用的不同模型都使用相同的损失函数,训练迭代次数都为100次,用来对比的网络为faster r-cnn、yolov5和原始rt-detr模型;

34、将所述改进rt-detr网络的实验结果和其他几个主流模型faster r-cnn、yolov5和原始rt-detr模型进行评价指标的对比、损失函数可视化分析;本发明选用了一系列的评价指标,包括map(mean average precision)、ap(average precision)、f1 score、precision、recall和time;由于recall和precision不像ap是一个面积的概念,因此在门限值(confidence)不同时,网络的recall和precision值是不同的;本发明计算的评价指标代表的是当门限值confidence=0.5时,所对应的指标值;与其他算法相比,本发明在保持高精度和高实时检测的同时,还能够实现较快的处理速度,这对于铁路信号机的动态调整实时检测需求具有重要意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1