基于图像的垃圾分类方法、装置、终端设备和存储介质与流程

文档序号:20032332发布日期:2020-02-28 10:33阅读:236来源:国知局
基于图像的垃圾分类方法、装置、终端设备和存储介质与流程

本发明涉及垃圾分类方法,特别涉及一种基于图像的垃圾分类方法、装置、终端设备和存储介质。



背景技术:

垃圾分类目的为将不同的垃圾按照材料和用途进行分类处理,来有效地减少环境污染和资源浪费,目前,垃圾图像自动分类具有广阔的应用前景。

由于垃圾图像数据具有较大的类内差异性和类间相似度,传统的图像分类算法无法解决该问题。目前,有利用双线性聚合算法对图像特征进行高阶映射,来捕捉到细粒度图像间的差异性。然而这种双线性聚合方法都忽略了一个问题:高阶映射不仅会引入更多的图像细节信息,同样也会放大噪声信息,影响特征表达能力。除此之外,由于噪声在图像表达中的存在形式具有多样性的特点,很难通过某种单一的噪声抑制机制进行有效去除。



技术实现要素:

为解决上述技术问题,本发明实施例提供了一种基于图像的垃圾分类方法、装置、终端设备和存储介质。

为达到上述目的,本发明的技术方案是这样实现的:

本发明第一方面实施例提供了一种基于图像的垃圾分类方法,所述垃圾分类方法包括:

利用基础特征网络对输入图像进行特征提取,得到垃圾图像;

利用至少三种注意力机制模块分别对所述垃圾图像进行噪声抑制,得到对应的至少三种深度特征信息;

将至少三种所述深度特征信息两两之间进行双线性聚合,得到至少三种增强信息;

融合至少三种所述增强信息,得到垃圾图像表达信息;

利用分类器对所述垃圾图像表达信息进行分类以实现对所述输入图像得分类。

进一步地,所述注意力机制模块包括:基于所述垃圾图像不同区域特征信息的空间注意力模块、基于所述垃圾图像的特征通道信息的通道注意力模块,以及基于所述垃圾图像不同区域之间关系的区域关系注意力模块。

进一步地,所述空间注意力模块的表达式为:

fs(xi)=diag(ωi)xi;

其中,diag(·)为对角化操作,将输入向量中的元素作为对角线元素生成一个矩阵,向量ωi由以下步骤得到:通过两层1×1的卷积操作和relu激活函数将特征xi映射成一个通道数为1的特征。随后用softmax操作进行特征归一化处理后得到ωi。

进一步地,所述通道注意力模块的表达式为:

fc(xi)=xidiag(ci)+xi

其中,diag(·)为对角化操作,ci由以下步骤得到:用一个全局平均池化操作将特征xi进行空间平均得到一个全局向量特征;通过两层全连接操作进行信息提炼,其维度变化分别为c→c/16和c/16→c;通过sigmoid激活函数进行归一化得到ci。

进一步地,所述区域关系注意力模块的表达式为:

其中都为xi通过卷积加池化操作得到。

进一步地,利用分类器对所述垃圾图像表达信息进行分类包括:利用交叉熵损失函数作为优化目标。

进一步地,利用分类器对所述垃圾图像表达信息进行分类包括:

对训练数据集进行数据增广;

将增广后的训练数据打乱,并按预设数量进行批次训练,同时随机在训练数据集的原图上截取预设大小的区域输入所述分类器。

本发明第二方面实施例提供了一种基于图像的垃圾分类装置,所述垃圾分类装置包括:

特征提取模块,用于利用基础特征网络对输入图像进行特征提取,得到垃圾图像;

噪声抑制模块,用于利用至少三种注意力机制模块分别对所述垃圾图像进行噪声抑制,得到对应的至少三种深度特征信息;

增强模块,用于将至少三种所述深度特征信息两两之间进行双线性聚合,得到至少三种增强信息;

融合模块,用于融合至少三种所述增强信息,得到垃圾图像表达信息;

分类模块,用于利用分类器对所述垃圾图像表达信息进行分类以实现对所述输入图像得分类。

本发明第三方面实施例提供了一种终端设备,所述终端设备包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行上述任一种所述垃圾分类方法的步骤。

本发明第四方面实施例提供了一种计算机可读取存储介质,所述存储介质存储有计算机指令,所述指令被执行时实现上述任一种所述垃圾分类方法的步骤。

本发明实施例提供了基于图像的垃圾分类方法、装置、终端设备和存储介质,一方面,能够从垃圾图像中提取多个互补的去噪图像特征,来捕捉具有区分性的图像特征;另一方面,提供了一种基于高阶映射的分级融合方法,将多个噪声抑制的图像特征进行高阶映射并有效融合,得到更鲁棒的全局图像表达并用于分类。本发明实施例的技术方案在目前三个广泛使用的基准数据集中都取得了当前最好的结果。

附图说明

图1为本发明实施例的垃圾分类方法的一个可选的流程图;

图2本发明实施例提供的垃圾分类方法的另一个可选的流程图;

图3为本发明实施例提供的空间注意力模块结构示意图;

图4为本发明实施例提供的通道注意力模块结构示意图;

图5为本发明实施例提供的区域关系注意力模块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于所描述的本发明的实施例,本领域技术人员所获得的所有其他实施例,都属于本发明保护范围。

如图1和图2所示,本发明第一方面实施例提供了一种基于图像的垃圾分类方法,该垃圾分类方法包括以下步骤:

s10、利用基础特征网络对输入图像进行特征提取,得到垃圾图像。

具体地,基础特征网络可以为任意通用卷积神经网络,即包含多个卷积操作模块,每个卷积模块中包含多个卷积层和激活函数;卷积模块之间由平均池化或最大池化层所连接,每个卷积模块内部的卷积核数量和核尺寸基本不变;不同卷积模块的卷积核数量随着网络层数的加深依次递增;这里,我们将基础特征网络最后一层的输出作为最终的图像表达特征。以vgg-16做例,基础特征网络共包含五组卷积层模块,每组卷积层模块包含数量不等的卷积和激活操作。五组模块输出的特征通道数依次为:64,128,256,512,512。随着模块的增加,输出特征的分辨率依次变小,而提取特征的语义层次会依次变高。最后我们将基础特征网络最后一层输出的特征定义为xi∈rn×c,其中n为空间像素个数,c为特征通道数目,i为样本索引。

s20、利用至少三种注意力机制模块分别对所述垃圾图像10进行噪声抑制,得到对应的至少三种深度特征信息20。

进一步地,所述注意力机制模块包括:基于所述垃圾图像不同区域特征信息的空间注意力模块、基于所述垃圾图像的特征通道信息的通道注意力模块,以及基于所述垃圾图像不同区域之间关系的区域关系注意力模块。

在本发明一个具体示例中,如图2至5所示,利用上述三种注意力机制模块来分别对图像的空间信息、特征的通道信息和区域空间关系信息进行提炼和冗余剔除。其中,图像空间信息包括图像空间重要信息,图像空间重要信息指的是,垃圾图像中哪块区域的纹理信息对于垃圾细粒度分类更加重要,如图2中的易拉罐区域。特征通道信息包括特征通道重要信息,特征通道重要信息指的是,图像特征表达中,哪些通道的信息对于垃圾分类具有区分性,比如和纹理、形状相关的通道。区域关系信息包括区域关系重要信息,区域关系重要信息指的是,垃圾图像中哪些区域之间的关系对于垃圾分类有价值,如图中拉环区域和罐身区域相互关联,表示这可能是个空易拉罐。

具体地,空间注意力模块用fs表示;通道注意力模块用fc表示;和区域关系注意力模块fr表示。

进一步地,fs首先通过两层1×1的卷积操作(conv)和relu激活函数将特征xi映射成一个通道数为1的特征。随后用softmax操作进行特征归一化处理后得到一个向量ωi,其维度为n。向量ωi中的权值对应于特征xi中的每一个像素的重要性程度:权值高的区域存在更重要的信息,权值低的区域存在更多噪声。最后将向量ωi作为权重和特征xi中的空间像素进行加权操作,空间注意力模块具体表达式为:

fs(xi)=diag(ωi)xi;

其中,diag(·)为对角化操作,将输入向量中的元素作为对角线元素生成一个矩阵。使用softmax有以下优点:1.softmax能够使ωi中的数值处于(0,1)之间,从而使大数值的权重集中在图像重要区域内;2.softmax能够抑制深度网络梯度爆炸的问题。

fc首先用一个全局平均池化操作将xi进行空间平均得到一个全局向量特征。随后通过两层全连接操作进行信息提炼,其维度变化分别为c→c/16和c/16→c。最后通过sigmoid激活函数进行归一化得到ci。通道注意力模块注意力表达式为:

fc(xi)=xidiag(ci)+xi;

优选地,此处使用残差注意力机制能够使训练更加稳定。

相比于空间注意力模块,区域关系注意力模块fr多了一个区域交互的操作。这里以外积的形式得到空间-空间之间的关系,最后通过softmax操作进行归一化,得到空间关系权重,区域关系注意力模块表达式为:

其中都为xi通过卷积加池化操作得到。这里的soffmax为沿着矩阵行向量进行操作。

s30、将至少三种所述深度特征信息两两之间进行双线性聚合,得到至少三种增强信息。

双线性聚合是一种广泛使用的特征聚合方法,该方法可以将图像的两个特征表达通过外积的操作进行通道间交互,最后进行空间平均池化得到最终表达。由于存在外积操作,该方法可将图像特征映射到高阶语义空间,得到更丰富的特征表达,因此也具有更强的区分能力。进一步地,将上述得到的三种增强后的图像表达,以图2中分级式的方法进行两两之间双线性聚合,

s40、融合至少三种所述增强信息,得到垃圾图像表达信息。

具体地,通过级联的方式得到最终表达。相比于直接级联,该方法能额外的探索以上三种特征之间隐藏关联信息,从而具有更强的区分能力:

其中为双线性聚合函数:x1,x2∈rn×c为特征级联操作。

s50、利用分类器对所述垃圾图像表达信息进行分类以实现对所述输入图像得分类。

进一步地,利用分类器对所述垃圾图像表达信息进行分类包括:利用交叉熵损失函数作为优化目标。

由于垃圾图像分类本质上是一个细粒度分类问题,因此,采用交叉熵损失函数作为优化目标,其表达式为:

其中,yi表示真实的分类结果,即标签;ai表示分类器对yi进行分类得到的各类被分数。

进一步地,为了减少模型过拟合的风险,利用分类器对所述垃圾图像表达信息进行分类包括:

对训练数据集进行数据增广(比如翻折,伸缩等);

将增广后的训练数据打乱,并按预设数量进行批次训练(例如batchsize=8),同时随机在训练数据集的原图上截取预设大小(例如448*448)的区域输入所述分类器。

训练网络时,我们采用随机梯度下降法作为优化器来,其学习率衰减策略设置为指数型衰减;初始学习率为0.01。同时,分类器前一层设置为dropout,其比率为0.5,以及l2惩罚项的系数数值设为0.0005。网络的初始化采用msra方法,其高斯参数设置为的正态分布,n为参数个数)。

为了验证本发明的有效性,我们在三个广泛使用的细粒度目标分类基准数据集上进行了评估。这三个基准数据集为别为细粒度鸟类数据集(cub-200),细粒度车类数据集(car-196),与一个动作识别任何集(mpii)。数据集具体信息如下:

1、cub-200数据集由200个类别的11788张鸟类图片所组成。数据集的训练/测试划分为:5994张训练图片和5794张测试图片;

2、car-196数据集由共196个类别的16185张车类图片所组成。数据集的训练/测试划分为:8114张训练图片和8041张测试图片;

3、mpii数据集由393个行为类别的15205张图片所组成。数据集的训练/测试划分为:8218张训练图片和6987张测试图片。

实验证明,本发明实施例的垃圾分类方法在上述三个基准数据集上取得了目前最好的实验结果。在cub-200和car-196数据集的识别准确率分别为86.2%和91.5%,在mpii数据集上的map(meanaverageprecision)指标为32.7%。

本发明第二方面实施例提供了一种基于图像的垃圾分类装置,所述垃圾分类装置包括:

特征提取模块,用于利用基础特征网络对输入图像进行特征提取,得到垃圾图像;

噪声抑制模块,用于利用至少三种注意力机制模块分别对所述垃圾图像进行噪声抑制,得到对应的至少三种深度特征信息;

增强模块,用于将至少三种所述深度特征信息两两之间进行双线性聚合,得到至少三种增强信息;

融合模块,用于融合至少三种所述增强信息,得到垃圾图像表达信息;

分类模块,用于利用分类器对所述垃圾图像表达信息进行分类以实现对所述输入图像得分类。

本发明第三方面实施例提供了一种终端设备,终端设备包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行上述任一种所述垃圾分类方法的步骤。

终端设备还可以包括网络接口、输入设备、硬盘、和显示设备。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器代表的一个或者多个中央处理器(cpu),以及由存储器代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

所述网络接口,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘中。

所述输入设备,可以接收操作人员输入的各种指令,并发送给处理器以供执行。所述输入设备可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备,可以将处理器执行指令获得的结果进行显示。

所述存储器,用于存储操作系统运行所必须的程序和数据,以及处理器计算过程中的中间结果等数据。

可以理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如浏览器(btowser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

上述处理器,当调用并执行所述存储器中所存储的应用程序和数据,具体的,可以是应用程序中存储的程序或指令时,获取全景图像;对所述全景图像进行预处理,获得待处理子图像;将所述待处理子图像输入到多路径卷积神经网络中,获得所述待处理子图像的深层特征图;对所述深层特征图进行池化处理;将经过池化处理后的深层特征图输入到全连接模型中,将所述全连接模型的输出作为重定位后的位置信息。

本发明上述实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块b组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明第四方面实施例提供了一种计算机可读取存储介质,所述存储介质存储有计算机指令,所述指令被执行时实现上述任一种所述垃圾分类方法的步骤。

可以理解的是,存储介质包括但不限于:u盘、移动硬盘、只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。

根据本发明实施例的垃圾分类的其他步骤对于本领域技术人员而言都是可以理解并且容易实现的,因此不再详细描述。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1