本发明涉及深度学习的目标检测领域,具体是涉及一种基于混合扫描visionmamba模型的道路垃圾检测方法。
背景技术:
::1、随着城市化进程加快和生活水平提高,道路垃圾管理成为亟待解决的挑战。传统道路垃圾检测方法依赖人工和简单机械设备,效率低且准确率不足。近年来,基于深度学习的智能算法收到越来越多的关注,它们可以处理更复杂的识别任务,提升检测和分类准确性。2、transformer等新型视觉模型通过自注意力机制,更全面地捕捉图像特征,较传统卷积神经网络更强。然而,这些模型通常结构庞大、计算需求高,导致资源消耗大、训练难度高、实时性差,实际应用中存在挑战。3、为解决这些问题,本发明引入并优化了vision mamba模型,减少冗余计算,提高计算效率。但vision mamba在处理图像细节和复杂背景时仍有不足,特别是在道路垃圾检测任务中捕捉图像空间上下文信息和处理小目标的检测精度方面表现不够理想。技术实现思路1、发明目的:针对上述现有技术,提出一种基于混合扫描vision mamba模型的道路垃圾检测方法;2、技术方案:3、一种基于混合扫描vision mamba模型的道路垃圾检测方法,包括以下步骤:4、s1:构建道路垃圾检测数据集;5、s2:图像标记和数据增强;6、s3:构建基于混合扫描的改进vision mamba模型;7、s4:训练基于混合扫描的改进vision mamba模型;8、s5:使用训练好的改进vision mamba模型检测道路垃圾,并在cifar-100数据集上进行实验。9、优选的,步骤s2中,对于构建的道路垃圾检测数据集中包含的二维图像,删除模糊不明确的二维图像,然后进行去水印处理和裁剪,统一二维图像的尺寸和格式,使用stablediffusion工具对二维图像进行增强,并增加雨天、雾天和黑夜的二维图像;后续使用labelimg工具对二维图像进行标注,标注目标的分类信息、位置信息和尺度信息;最后将道路垃圾数据集按照7:2:1的比例划分训练集、验证集和测试集。10、优选的,步骤s3中,所述的改进vision mamba模型包括依次串接的线性投影层、混合扫描mamba block模块和多层感知器mlp:11、改进vision mamba模型首先对输入的二维图像进行patch划分,划分为k个大小一致的二维图像tk;再通过flatten模块将每个二维图像tk转换为扁平化的二维图像块xk,接着,通过线性投影层线性地将每个二维图像块xk投影到大小为d的向量dk;在每个向量dk的间隔中添加位置嵌入e,初始化一个与向量dk大小一致的class tokentcls,将classtokentcls嵌入到向量序列中,并且使用tcls来表示整个向量序列的预测信息,得到输入混合扫描mamba block模块的token序列tl-1;将tl-1传递给混合扫描mamba block模块的第l层,得到输出tl;最后,在完成所有混合扫描mamba block层后,得到最终的token序列,规范化输出的class tokentcls',并将其输入到多层感知器mlp中,获取最终预测p。12、优选的,token序列tl-1传入混合扫描mamba block模块得到输出tl的具体操作流程为:首先,输入的token序列tl-1通过norm模块进行标准化;接着,将标准化的序列线性映射到维度大小为e的向量x和向量z;使用包括交叉、hilbert、之字、分块的i种排序方法对向量x进行重新排序得到扫描序列xi,对xi应用一维卷积和silu激活函数,得到接着,通过状态空间模型ssm对进行特征提取,计算得出yi;最后,yi被z门控并相加得到输出token序列tl;13、状态空间模型ssm连续系统的数学形式表示为:14、h'(t)=ah(t)+bx(t),y(t)=ch(t) (1)15、其中,h(t)是隐藏状态,h'(t)表示隐藏状态随时间的变化率,a是隐藏状态的演化矩阵,b是输入向量x(t)对隐藏状态的影响矩阵,c是输出矩阵;16、接下来使用零阶保持zero-order hold,zoh对状态空间模型ssm进行离散化操作,引入一个时间尺度参数δ,用于将连续参数矩阵a和b转换为离散参数矩阵和转换公式如下:17、18、其中exp(.)表示矩阵指数,δa和δb是连续演化矩阵和输入影响矩阵的离散等效物,i是单位矩阵;19、经过离散化后,式(1)重写为:20、21、最后,模型通过全局卷积计算输出:22、23、其中x是包含t个时间步长的输入序列,m是输入序列x的长度,是构造的结构化卷积核。24、优选的,步骤s4中:初始化训练超参数如下:设置drop path比例为0.05,权重衰减率为0.05,初始学习率为0.001,batchsize设置为16,训练周期epoch为300;训练完成后保存训练好的模型权重以及训练日志以便后续分析。25、有益效果:本发明采用多种patch token扫描方式,有效缓解了vision mamba模型空间上下文的有限捕获与不对称的信息处理的问题,其中的hilbert与分块的扫描方式有效提升了vision mamba模型对小目标检测的准确度,此外在cifar-100数据集上进行消融实验,证明了该方法的泛化能力。技术特征:1.一种基于混合扫描vision mamba模型的道路垃圾检测方法,其特征在于,包括以下步骤:2.如权利要求1所述的一种基于混合扫描vision mamba模型的道路垃圾检测方法,其特征在于,步骤s2中,对于构建的道路垃圾检测数据集中包含的二维图像,删除模糊不明确的二维图像,然后进行去水印处理和裁剪,统一二维图像的尺寸和格式,使用stablediffusion工具对二维图像进行增强,并增加雨天、雾天和黑夜的二维图像;后续使用labelimg工具对二维图像进行标注,标注目标的分类信息、位置信息和尺度信息;最后将道路垃圾数据集按照7:2:1的比例划分训练集、验证集和测试集。3.如权利要求1所述的一种基于混合扫描vision mamba模型的道路垃圾检测方法,其特征在于,步骤s3中,所述的改进vision mamba模型包括依次串接的线性投影层、混合扫描mamba block模块和多层感知器mlp:4.如权利要求3所述的一种基于混合扫描vision mamba模型的道路垃圾检测方法,其特征在于,token序列tl-1传入混合扫描mamba block模块得到输出tl的具体操作流程为:首先,输入的token序列tl-1通过norm模块进行标准化;接着,将标准化的序列线性映射到维度大小为e的向量x和向量z;使用包括交叉、hilbert、之字、分块的i种排序方法对向量x进行重新排序得到扫描序列xi,对xi应用一维卷积和silu激活函数,得到接着,通过状态空间模型ssm对进行特征提取,计算得出yi;最后,yi被z门控并相加得到输出token序列tl;5.如权利要求1所述的一种基于混合扫描vision mamba模型的道路垃圾检测方法,其特征在于,步骤s4中:初始化训练超参数如下:设置drop path比例为0.05,权重衰减率为0.05,初始学习率为0.001,batchsize设置为16,训练周期epoch为300;训练完成后保存训练好的模型权重以及训练日志以便后续分析。技术总结本发明实现了一种基于混合扫描Vision Mamba模型的道路垃圾检测方法。包括以下步骤:构建道路垃圾检测数据集;图像标记和数据增强;构建基于混合扫描的改进Vision Mamba模型;训练基于混合扫描的改进Vision Mamba模型;使用训练好的改进Vision Mamba模型检测道路垃圾,并在cifar‑100数据集上进行实验。实验证明改进后的模型有效缓解了Vision Mamba模型空间上下文的有限捕获与不对称的信息处理的问题,其中的Hilbert与分块的patch tokens扫描方式提升了模型对小目标检测的准确度。技术研发人员:邵叶秦,罗泽兴,车美琴,邵骞,吕辰,孟思成受保护的技术使用者:南通大学技术研发日:技术公布日:2024/11/18