一种基于交叉空间池化策略的弱监督图像情感分类与定位方法与流程

文档序号:20441352发布日期:2020-04-17 22:26阅读:489来源:国知局
一种基于交叉空间池化策略的弱监督图像情感分类与定位方法与流程

本发明涉及图像处理技术领域,尤其涉及一种基于交叉空间池化策略的弱监督图像情感分类与定位方法。



背景技术:

人们越来越喜欢通过上传图片到社交媒介如twitter、微博等来主动表达情感,同时在一些安防、监控、教育等领域,也需要通过了解人们的情绪,因此图像的视觉情感分析研究越来越受关注,随着人工智能在各领域的深入,人们对计算机理解图像所传达情感的期望越来越高.深度学习在图像分类[1-3]、对象识别[4-6]和语义分割[7-9]等视觉识别任务中都取得了不错的效果,因此,深度学习的方法也被应用在图像情感分析[10-13].在图像情感分析中,基于深度特征的机器学习的效果已经优于传统手工设计特征的方法[14-17],传统手工设计特征主要考虑颜色、纹理和主成分等.

borth等[18-19]通过形容词-名词对(anps)为元素,定义了用于描述图像的视觉情感本体,基于视觉底层特征提出了sentibank来检测图像中情感的描述,在分类方面构建了视觉情感概念.ali等[20]提出在情感分析中考虑对象和场景两种高层语义概念(high-levelconcepts),图像的情感分析同时与高层语义和低层特征相关,并且不同的情感类别与不同的高层语义概念有关,首先构建高层语义与情感之间的关系,然后通过支持向量回归(svr)实现情感的预测.kosti等[21]提出了在情感预测中考虑上下文来分析图像中的人物情感,训练两个卷积神经网络,最后把两个神经网络的特征融合.peng等[17]提出了emotionroi数据集,这个数据集标注了图像中诱发情感的区域,使用欧几里德损失的全卷积网络(fcnel)预测图像情感刺激图(mse).这些基于高层语义的方法都试图从图像中情感相关的因素中学习特征来提高分类性能,图像情感相关因素的选择成为关键.通过考虑更多的因素(更多的人工注释或是检测方法)有利于分类的性能的提高,但是考虑哪些因素对情感分类是最有效的,还没有一个定论,同时也需要更大的代价来获取这些相关的因素.

卷积神经网络中的弱监督对象定位任务是指在只有图像类别的粗粒度标签情况下标注出图像中的对象(如:猫或狗),实现细粒度的标注.随着深度学习在大规模对象识别方面的成功,很多弱监督卷积神经网络的方法通过使用多样例学习(mil)算法[22]来实现目标检测,mil定义图像为一组区域,并假设标记为正数的图像包含某个类别至少一个对象实例,而标记为负数的图像不包含感兴趣类别的对象.最普遍的一个方法[23]由生成目标建议和从多个阶段的建议中提取特征组成,并在特征上采用mil从弱袋标签中确定边界盒的标签.但是,情感是更加主观的,假设一个实例(对象)只出现在一个类别中,对于情感检测是次优的.另外,也有人提出了使用统一的网络框架进行定位,把卷积滤波器作为检测器来激活深度特征图上的位置,zhou等[24]提出了类激活图(cam),通过修改网络结构为全卷积网络,在最顶层卷积层之后使用全局平均池化层来聚集特定类的激活图.selvaraju等[25]提出了梯度类激活图(grad_cam),通过反向传播来计算梯度,再与特征图相融合,计算出特定类的激活图,可以实现任意层的反向传播,但是通常都在最后一个卷积层来计算.梯度类激活图是类激活图的一个泛化,但是类激活图需要修改网络的结构.duran等[26]提出了wildcat方法,学习与类别相关的多个形态信息(如狗的头或腿),模型中明确设计了与不同类模态相关的局部特征,提出的模型能完成图像分类和弱监督的对象定位与分割.考虑对象客观信息,zhu等[27]提出了区域候选(spn)方法,首先通过图形传播算法生成候选区域,再与卷积层的特征图融合,卷积神经网络不断迭代优化,最终学到更多具有鉴别力的信息,压制噪声的干扰,在弱监督对象定位和分类性能上都有所提高.这些方法都是针对一般的分类任务,检测出图像中特定对象相关的区域,都倾向于标注出图像中的前景对象区域,其实是一个识别问题(识别图像中的猫或狗).

在观测一幅图像时,人类的情感会被激发,不同区域对诱发情感的贡献是不同的,如何自动定位图像中激发人类情感的区域就是图像情感区域定位问题.相较于对象区域定位,更加具有挑战性,因为图像的情感语义不仅仅与图像中的显著对象(前景)区域有关,还和图像所传达的整体语义信息相关.yang等[28]提出了wscnet网络架构,通过训练两个分支来完成情感检测和分类,分类的时候使用了第一个分支情感检测的结果.fan等[29]利用眼动数据来定位图像中人类关注的区域,通过设计一个卷积神经网络来实现情感显著性预测,其中包含了一个子网络用来学习图像场景的语义和空间信息.

[1]krizhevskya,sutskeveri,hintong.imagenetclassificationwithdeepconvolutionalneuralnetworks[c]//proceedingsofthe25thinternationalconferenceonneuralinformationprocessingsystems.laketahoe,acmpress,2012:1097-1105.

[2]simonyank,zissermana.verydeepconvolutionalnetworksforlarge-scaleimagerecognition[c]//proceedingsofthe3rdinternationalconferenceonlearningrepresentations.sandiego:acmpress,2015.

[3]hek,zhangx,rens,etal.deepresiduallearningforimagerecognition[c]//proceedingsofthe2016ieeeconferenceoncomputervisionandpatternrecognition.lasvegas:ieeepress,2016:770-778.

[4]girshickr,donahuej,darrellt,malikj.richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[c]//proceedingsofthe2014ieeeconferenceoncomputervisionandpatternrecognition.columbus:ieeepress,2014:580-587.

[5]girshickr.fastr-cnn[c]//proceedingsofthe2015ieeeinternationalconferenceoncomputervision.washington:ieeepress,2015:1440-1448

[6]daij.,liy,he,k,sunj.r-fcn:objectdetectionviaregion-basedfullyconvolutionalnetworks[c]//proceedingsof30thinternationalconferenceonneuralinformationprocessingsystems.barcelona:ieeepress,2016:379-387.

[7]chenlc,papandreoug,kokkinosi,etal.semanticimagesegmentationwithdeepconvolutionalnetsandfullyconnectedcrfs[c]//proceedingsofthe3rdinternationalconferenceonlearningrepresentations.sandiego,2015:357-361.

[8]longj,shelhamere,darrellt.fullyconvolutionalnetworksforsemanticsegmentation[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.boston:ieeepress,2015:3431-3440.

[9]daij,hek,liy,etal.instance-sensitivefullyconvolutionalnetworks[c]//proceedingsofthe14theuropeanconferenceofcomputervision.amsterdam:springer,cham,2016:534-549.

[10]pengkc,chent,sadovnika,etal.amixedbagofemotions:model,predict,andtransferemotiondistributions[c]//proceedingsofthe2015ieeeconferenceoncomputervisionandpatternrecognition.boston:ieeepress,2015:860-868.

[11]youq,luoj,jinh,etal.buildingalargescaledatasetforimageemotionrecognition:thefineprintandthebenchmark[c]//proceedingofthe30thconferenceonartificialintelligence.phoenix:acmpress,2016:308-314.

[12]youq,luoj,jinh,etal.quanzengyou,jieboluo,hailinjin,jianchaoyang.robustimagesentimentanalysisusingprogressivelytrainedanddomaintransferreddeepnetworks[c]//proceedingsofthe29thconferenceonartificialintelligence.austin:acmpress,2015:381-388.

[13]víctorc,brendanj,xaviergiró-i-nieto.frompixelstosentiment:fine-tuningcnnsforvisualsentimentprediction.imagevisioncomputing,2017(65):15–22.

[14]yanulevskayav,gemertjcv,rothk,etal.emotionalvalencecategorizationusingholisticimagefeatures[c]//proceedingsofthe2008ieeeinternationalconferenceonimageprocessing.sandiego:ieeepress,2008:101-104.

[15]zhaos,gaoy,jiangx,etal.exploringprinciples-of-artfeaturesforimageemotionrecognition[c]//proceedingsofthe2014acminternationalconferenceonmultimedia.orlando:acmpress,2014:47-56.

[16]machajdikj,hanburya.affectiveimageclassificationusingfeaturesinspiredbypsychologyandarttheory[c]//proceedingsofthe2010acminternationalconferenceonmultimedia.firenze:acmpress,2010:83-92.

[17]pengkc,sadovnika,gallaghera,etal.wheredoemotionscomefrom?predictingtheemotionstimulimap[c]//proceedingsofthe2016ieeeinternationalconferenceonimageprocessing.phoenix:ieeepress,2016:614-618.

[18]borthd,jir,chent,etal.large-scalevisualsentimentontologyanddetectorsusingadjectivenounpairs[c]//proceedingsofthe2013acmmultimediaconference.barcelona:acmpress,2013:223-232.

[19]chent,borthd,darrellt,etal.deepsentibank:visualsentimentconceptclassificationwithdeepconvolutionalneuralnetworks[j].computerscience,2014.

[20]aliar,shahidu,alim,etal.high-levelconceptsforaffectiveunderstandingofimages[c]//proceedingsof2017ieeewinterconferenceonapplicationsofcomputervision.santarosa:ieeepress,2017:678-687.

[21]kostir,alvarezjm,recasensa,etal.emotionrecognitionincontext[c]//proceedingsofthe2017ieeeconferenceoncomputervisionandpatternrecognition.honolulu:ieeepress,2017:1960-1968.

[22]bilenh,vedaldia.weaklysuperviseddeepdetectionnetworks[c]//proceedingsofthe2016ieeeconferenceoncomputervisionandpatternrecognition.lasvegas:ieeepress,2016:2846-2854.

[23]cinbisr.g,verbeekj,andschmidc.weaklysupervisedobjectlocalizationwithmulti-foldmultipleinstancelearning[j].ieeetransactionsonpatternanalysisandmachineintelligence,2017,39(1):189–203.

[24]zhoub,khoslaa,lapedrizaa,etal.learningdeepfeaturesfordiscriminativelocalization[c]//proceedingsofthe2016ieeeconferenceoncomputervisionandpatternrecognition.lasvegas:ieeepress,2016:2921-2929.

[25]selvarajurr,cogswellm,dasa,etal.grad-cam:visualexplanationsfromdeepnetworksviagradient-basedlocalization[c]//proceedingsofthe2017ieeeinternationalconferenceoncomputervision.venice:ieeepress,2017:618-626.

[26]durandt,mordant,thomen,etal.wildcat:weaklysupervisedlearningofdeepconvnetsforimageclassification,pointwiselocalizationandsegmentation[c]//proceedingsofthe2017ieeeconferenceoncomputervisionandpatternrecognition.honolulu:ieeepress,2017:5957-5966.

[27]zhuy,zhouy,yeq,etal.softproposalnetworksforweaklysupervisedobjectlocalization[c]//proceedingsofthe2017ieeeinternationalconferenceoncomputervision.venice:ieeepress,2017:1859-1868.

[28]yangjf,shedy,laiyk,etal.weaklysupervisedcouplednetworksforvisualsentimentanalysis[c]//proceedingsofthe2018ieeeconferenceoncomputervisionandpatternrecognition.saltlakecity:ieeepress.2018:7584-7592.

[29]fansj,shenzq,jiangm,etal.emotionalattention:astudyofimagesentimentandvisualattention[c]//proceedingsofthe2018ieeeconferenceoncomputervisionandpatternrecognition.saltlakecity:ieeepress,2018:7521-7531。



技术实现要素:

本发明的目的在于解决上述现有技术存在的缺陷,提供一种图像感情分类准确率高的基于交叉空间池化策略的弱监督图像情感分类与定位方法。

一种基于交叉空间池化策略的弱监督图像情感分类与定位方法,包括:

步骤1:基于全卷积网络resnet-101,删除该全卷积网络的池化层和全连接层,利用1×1的卷积核对resnet-101中conv5生成的特征图进行卷积操作,为每一个类别生成特定数量(k)的特征图;

步骤2:利用全局平均池化来提取每个特征图的全局信息;

步骤3:再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为sc

其中,表示f′中第c类的第j通道的特征,k表示每一个类别生成特征通道的数量,c表示第c类情感,总的情感类别数为c,gave表示全局平均池化;通过1×1的卷积后的特征记为f′;

步骤4:在imagenet上视觉识别的预训练模型权重值,分别设置全卷积层、交叉空间策略的学习率为0.0001和0.001。整个模型迭代训练30轮,每10轮,学习率下降10倍,设置decay为0.005,momentum为0.9;在训练中使用了随机水平翻转和裁剪扩充数据来降低过拟合,最终,模型输入的图片大小为448×448;

步骤5:在每个batch的前向过程中,计算交叉熵损失值

其中n是指batch的大小,表示一次前项过程中训练的样本数,yi代表第i个训练样本的真实情感标注;sl是步骤3中定义的特征向量第l个元素的值,代表第l个类别在网络中的得分;

步骤6:根据计算的损失函数值,在反向传递中使用随机梯度下降来更新权重参数;

步骤7:重复步骤5到步骤6,直到完成一轮训练,根据测试数据集,进行模型测试;

步骤8:重复步骤7,直到模型达到最优或完成总迭代轮数;

步骤9:生成图像情感激活图

有益效果:

本发明提供的基于交叉空间池化策略的弱监督图像情感分类与定位方法,利用1×1的卷积核、全局平均池化操作、最大池化操作使得卷积神经网络为每类情感学习到更具有鉴别力的信息,从而提高了情感分类性能,使得分类的准确率都有了很大的提升。

本发明在一个简单的卷积神经网络架构下,仅使用图像级别标注信息,通过提出的交叉空间池化策略,使得卷积神经网络学到更多有鉴别能力的信息,提高图像情感分类的性能,从图像的语义中理解情感,更好地实现情感相关的情感区域定位,标记出图像中每个像素对诱发图像情感的影响和贡献大小。

附图说明

图1为情感激活图的生成模型;

图2为情感区域定位性能对比图;

图3为几种对象定位方法应用到情感区域定位的结果和本发明提出方法的情感区域定位结果对比图;

图4为wscnet方法和本发明方法在情感区域定位性能上的对比图;

图5为生成的情感激活图和预测情感类别的情感特征图的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种图像情感分类和情感区域定位的方法,以解决现有图像情感分类准确率不高的问题,以及现有研究中没有涉及情感区域定位的问题。

本发明所采用的技术方案包括以下两部分:

一,交叉空间池化策略:基于全卷积网络resnet-101,删除restnet-101的后两层(全局池化层和全连接层),用本申请提出的交叉空间池化来代替resnet101中的最后两层,首先用1×1的卷积核来实现跨通道的信息整合,降低特征的通道数,为每一个类别生成特定数量的特征图,然后利用全局平均池化来提取每个特征图的全局信息,接着再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为sc

二,情感区域定位,本申请通过聚合所有的情感类别的特征图来捕获图像中诱发情感的区域.首先,针对每类情感,生成具有类别意识的响应特征图,假设情感类别数为c,则有c个响应特征图;然后,再与之对应的sc权重相结合,获取综合的定位信息,而不是从特定类的最大响应特征图获取情感区域的定位信息。

本发明在一个统一框架中实现图像情感分类和情感区域定位,生成表示诱发情感相关区域的情感激活图,在只需要图像级的标注下,就能获得一个细粒度、像素级的图像标注,表示每个像素点对图像情感分类的贡献。本发明进一步说明了图像情感激活图与图像情感类别预测结果的关系,与最后生成的情感激活图越接近的情感特征图对分类的贡献越大,在情感分类中起到了主导作用。

下面对本申请基于交叉空间池化策略的弱监督图像情感分类与定位方法进行详细的阐述,具体包括以下步骤:

步骤1:基于resnet-101,删除该网络的最后两层,用本申请提出的交叉空间池化策略取代,即首先用1×1的卷积核对resnet-101中conv5生成的特征图进行卷积操作,实现跨通道的信息整合,降低特征的通道数,为每一个类别生成特定数量(k)的特征图。通过1×1的卷积后的特征记为f′。然后利用全局平均池化来提取每个特征图的全局信息,接着再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为sc

其中,表示f′中第c类的第j通道的特征,k表示每一个类别生成特征通道的数量,c表示第c类情感,总的情感类别数为c,gave表示全局平均池化;

步骤2:初始化步骤1中提出的深度模型。初始化卷积神经网络权重参数为在imagenet上视觉识别的预训练模型权重值,分别设置全卷积层、交叉空间策略的学习率为0.0001和0.001。整个模型迭代训练30轮,每10轮,学习率下降10倍,设置decay为0.005,momentum为0.9.在训练中使用了随机水平翻转和裁剪扩充数据来降低过拟合,最终,模型输入的图片大小为448×448.

步骤3:在每个batch的前向过程中,计算交叉熵损失值

其中n是指batch的大小,表示一次前项过程中训练的样本数,yi代表第i个训练样本的真实情感标注;sl

步骤3中定义的特征向量第l个元素的值,代表第l个类别在网络中的得分;

步骤4:根据计算的损失函数值,在反向传递中使用随机梯度下降(sgd)来更新权重参数.

步骤5:重复步骤3到步骤4,直到完成一轮训练,根据测试数据集,进行模型测试.

步骤6:重复步骤5,直到模型达到最优或完成总迭代轮数.

步骤7:生成图像情感激活图

实验例1:

本发明提出的交叉空间池化策略使得卷积神经网络为没类情感学习到更具与鉴别力的信息,提高情感分类性能,如表1所示,本发明方法相较于其他方法,分类的准确率都有了很大的提升。

表1分类准确率(%)对比

实验例2:

在本发明的交叉空间池化策略中,全局平均池化操作比较于一般的平均池化操作,它增大了卷积核的感受野,更能抓取到图像中的全局语义信息,对空间转换更加鲁棒.再通过最大池化操作,为情感分类生成了一个情感向量,向量中的每一个元素和卷积层之间的特征图之间的关系更加直接,即类别与特征图之间的关系更为直接,如图1中的对应关系,用本申请提出的交叉空间池化策略代替原网络架构中的池化层和全连接层能避免resnet-101中原有的全连接层会忽略目标在图像中的空间信息,在cnn的提取特征图中,每一个特征表示了整个网络的部分特征,通过交叉空间池化策略能更好地将对象和上下文语义信息在不同特征图的信息利用起来,提取出更多对分类有鉴别力的信息,同时更好地定位图像中和情感诱发相关的区域.图2为情感区域定位性能对比图,分别对比了平均绝对误差(mae)、精确度(precision)、召回率(recall)和f1,mae越小越好,precision、recall和f1越大越好。图2中通过在几种评价机制上的数值,说明本发明的方法在弱监督学习方法中具有最佳的定位性能。

图3对比了几种对象定位方法应用到情感区域定位的结果和本发明结果的对比,在热度图上标记了几种评价机制的值,结果表明本发明方法能定位到更多与情感相关的区域,评价机制上也是recall最高,表明真实标注的情感区域更多地被定位到。图4对比了wscnet方法和本发明方法的情感区域定位,wscnet方法的precision为0.94,但是recall为0.15,本申请的方法中的precision为0.82和recall为0.85,通常presicion和recall都是矛盾的,这时使用f1(f1=(2*precision*recall)/(precision+recall))作为综合评价指标,本申请的方法的f1值为0.83,而wscnet方法的f1值为0.26,明显高于wscnet方法中f1的值.说明真实标注中的更多区域被定位为情感区域了,本申请方法在诱发情感区域上的定位性能更好。

图5对比了情感类别的情感特征图与情感激活图,5c中同时标注出了情感预测的结果和概率,5d中标注处了图像的precesion(p)和recall(r),情感激活图中的突显区域就是对情感分类贡献最大的区域,这些区域直接影响了分类的结果.与情感激活图越接近的情感特征图,在分类中的贡献越大,对分类起到了主导作用,所以对应的在情感分类中的预测值也是最高的。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1