本发明属于图像数据处理,具体涉及一种基于图像文本融合的细粒度农作物病害图像分类方法。
背景技术:
1、农作物病害的侵袭常常给农业生产带来严重的损失。快速准确地识别农作物病害种类,在病害蔓延之前采取有效措施,可以减少许多不必要的损失。然而现实场景下拍摄的农作物病害图像往往具有复杂的干扰信息。为了解决该问题,采用能准确提取农作物病斑的模型对农作物病害图像分类,即训练一个可以弱化干扰信息,增强病斑和农作物信息的卷积神经网络完成农作物病害图像分类任务是一种解决方案。
2、有些农作物的不同病害类型外观相似且难以区分,单纯依靠深度视觉神经网络的特征提取能力存在性能瓶颈问题。在对图像进行特征提取的过程中,本发明添加对图像进行描述的文本线索以补充视觉特征,从而获得更具表征力的特征表示。这种融合的方法有望提高农作物病害识别系统的精确性和鲁棒性,使其能够在各种情况下有效地区分各种病害类型。
技术实现思路
1、为了解决上述问题,本发明提出了一种基于图像文本融合的细粒度农作物病害图像分类方法。首先,利用预训练的图像特征提取器获取农作物病害的高维特征,然后应用病斑提取算法削弱图像中的干扰信息,突出病斑特征。接着,通过预训练的bert模型为每张图像嵌入文本描述。在多模态特征融合阶段,将视觉和文本信息融合到统一的特征空间中,并动态调整每个模态信息的权重以优化分类性能。最终,利用融合后的特征进行农作物病害的精确分类。
2、本发明的技术方案如下:
3、一种基于图像文本融合的细粒度农作物病害图像分类方法,包括如下步骤:
4、步骤1、使用网络爬虫的方法在农业网站进行图像数据收集,并由农业领域专家进行图像数据挑选,将挑选后的图像作为农作物病害图像;
5、步骤2、利用预训练的图像特征提取器提取图像高维特征图;
6、步骤3、利用病斑提取算法削弱图像中的干扰信息,突出病斑特征;
7、步骤4、利用预训练的bert模型为每张图像嵌入文本描述,将视觉和文本信息融合到统一的特征空间中,并动态调整每个模态信息的权重;
8、步骤5、利用融合后的特征进行农作物病害的精确分类。
9、进一步地,所述步骤2的具体过程为:
10、步骤2.1、在imagenet数据集上预训练resnet50视觉特征提取模型,得到图像编码器fc;图像编码器fc由交叉熵损失函数进行微调优化;
11、步骤2.2、将农作物病害图像x输入图像编码器fc,经过最后一个卷积层后输出高维视觉特征图xc。
12、进一步地,所述步骤3的具体过程为:
13、步骤3.1、将xc通过一个卷积块进行降维操作获得降维后视觉特征图x′c,用公式表示为:
14、x′c=σ(bn(conv3*3(xc)));
15、其中,bn(·)代表归一化层;σ代表relu激活函数;conv3*3(·)为尺寸为3*3的卷积块;
16、步骤3.2、对x′c中的每个特征图提取峰值响应坐标;将坐标通过聚类算法进行聚类,最终聚类成五个簇;
17、步骤3.3、将属于同一类簇的特征图进行逐元素相加获得五个特征图,特征图表示为vc;对每个特征图使用全局平均池化操作获得每个特征图的全局表示vw;
18、步骤3.4、将全局表示vw输入全连接层学习每个簇的权重表示w1,并通过softmax操作转为0-1之间的概率分布;全连接层表示为:
19、w1=wtvw+b;
20、其中,w和b分别表示全连接层的权重和偏置;t为转置符号;
21、步骤3.5、将w1与vc相乘,获得加权特征图vc′;加权特征图的权值依据聚类结果在学习过程中自适应改变;
22、步骤3.6、将vc′与高维视觉特征图xc逐元素相乘获得处理后视觉特征图ve。
23、进一步地,所述步骤4的具体过程为:
24、步骤4.1、将图像文本对数据表示为{(i1,t1),…,(in,tn)},其中n表示图像文本对的数量;in为第n个图像;tn为第n个图像对应的文本;
25、步骤4.2、给定预训练的文本编码器表示为tc,并由交叉熵损失函数进行微调优化;将文本t通过tc获得文本编码向量tc;
26、步骤4.3、将处理后视觉特征图ve经过变形操作为ve′,并通过全连接层变换图像特征维度为与文本相同的768维;用公式表示为:
27、v′e=fc(flatten(ve));
28、其中,flatten(·)意味着将前两个维度整形为一维维度来对输入向量进行展平;fc(·)代表全连接层,用于降维;
29、步骤4.4、通过拼接操作将两种模态特征ve′和tc组成一个多模态特征序列j;然后使用一个注意力层度量各个模态的信息对分类性能的贡献程度;最后通过全连接层来学习新的多模态嵌入空间;用公式表示为:
30、j=fc(w2×concat(v′e,tc));
31、其中,w2代表注意力层权值;concat(·)代表拼接操作;
32、步骤4.5、最后在维度1上使用求和操作获得多模态特征表示j′。
33、进一步地,所述步骤5的具体过程为:获得每个图像文本对的多模态特征表示向量后,数据集表示为d={(j1′,l1),…,(jn′,ln)};jn′为第n个图像对应的图文融合特征向量;ln为第n个图像对应的类别标签;使用交叉熵损失函数来计算分类损失lossce;用公式表示为:
34、
35、其中,ji′为第i个图像对应的图文融合特征向量;li为第i个图像对应的类别标签;eθ代表模型优化前的参数;e′θ代表模型优化后的参数;v为农作物病害种类序号;m代表数据集中农作物病害种类;pi代表模型属于类别li的概率;y′是一个二进制指示符。
36、本发明所带来的有益技术效果:本发明能够有效削弱图像中的干扰信息,突出病斑特征。本发明设计了新的图像文本融合空间,并动态调整每个模态信息的权重以优化分类性能。最终,利用融合后的特征实现对农作物病害的精确分类。
1.一种基于图像文本融合的细粒度农作物病害图像分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述基于图像文本融合的细粒度农作物病害图像分类方法,其特征在于,所述步骤2的具体过程为:
3.根据权利要求2所述基于图像文本融合的细粒度农作物病害图像分类方法,其特征在于,所述步骤3的具体过程为:
4.根据权利要求3所述基于图像文本融合的细粒度农作物病害图像分类方法,其特征在于,所述步骤4的具体过程为:
5.根据权利要求4所述基于图像文本融合的细粒度农作物病害图像分类方法,其特征在于,所述步骤5的具体过程为:获得每个图像文本对的多模态特征表示向量后,数据集表示为d={(j′1,l1),…,(j′n,ln)};j′n为第n个图像对应的图文融合特征向量;ln为第n个图像对应的类别标签;使用交叉熵损失函数来计算分类损失lossce;用公式表示为: