基于多任务深度学习的自然图像美感质量评估方法

文档序号：10535381阅读：449来源：国知局

基于多任务深度学习的自然图像美感质量评估方法
【专利摘要】本发明公开了一种基于多任务深度学习的自然图像美感质量评估方法。其中，该方法包括步骤1：对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习；步骤2：针对自动学习的结果，进行基于多任务深度学习的美感分类和语义识别，从而实现对自然图像的美感质量评估。本发明利用语义信息来辅助美感特征的表达学习，从而更加有效地进行美感质量评估，并且设计多种多任务深度学习网络结构来有效地利用美感和语义信息来获得高准确率的图像美感分类。本发明能应用于涉及图像美感质量评估的众多领域，包括图像检索、摄影学及相册管理等。
【专利说明】
基于多任务深度学习的自然图像美感质量评估方法
技术领域
[0001] 本发明涉及模式识别、机器学习及计算机视觉技术领域，特别涉及一种基于多任务深度学习的自然图像美感质量评估方法。
【背景技术】
[0002] 随着数字媒体技术和计算机技术的快速发展，人们对计算机视觉、人工智能、机器感知等领域的需求与期盼也越来越高。人们不仅希望计算机能够识别出图像中的物体，给出物体的精确定位等经典的计算机视觉问题，而且开始期望计算机能够像人类视觉系统一样具有更高层次的感知能力。目前，图像美感分析已经引起了越来越多的关注，尤其是图像的美感质量评估。图像美感质量评估就是利用计算机进行智能分析进而判断图像的美感质量。传统的图像美感质量评估方法一般仅仅将图像美感质量评估当作一个孤立的任务去手工设计或使用深度网络学习特征来进行质量评估。这些特征都受到美感这一主观性因素的影响，精度也很难达到用户需求。
[0003] 对于人类视觉系统，图像的美感质量评估很难作为一个独立的任务，经常伴随着一些其他的视觉感知任务。比如，当人们准备去评价一张图片的美感质量的时候，他们已经理解了这张图片的内容，也就是说他们能够说出他们正在观看的语义信息。同时，多任务学习能够同时学习几个相关的任务，而且已经有大量研究表明多任务学习能够提高部分或全部任务的效果。
[0004] 有鉴于此，特提出本发明。

【发明内容】

[0005] 本发明提供一种基于多任务深度学习的自然图像美感质量评估方法，以解决如何提高自然图像美感质量评估的鲁棒性和精度。
[0006] 为了实现上述目的，提供以下技术方案：
[0007] -种基于多任务深度学习的自然图像美感质量评估方法，所述方法包括：
[0008] 步骤1:对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习；
[0009] 步骤2 :针对自动学习的结果，进行基于多任务深度学习的美感分类和语义识别，从而实现对所述自然图像的美感质量评估。
[0010] 本发明利用多任务学习去挖掘更有效的美感特征入手，提出了一种基于多任务深度学习并利用语义信息来辅助美感质量评估的方法，很好地弥补了美感特征表达的缺陷，得到了一种更加鲁棒并且精度更高的美感质量评估结果。本发明还能应用于涉及图像美感质量评估的众多领域，包括图像检索、摄影学及相册管理等。
【附图说明】
[0011] 图1为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估方法的流程示意图；
[0012] 图2为根据本发明实施例的多任务深度卷积神经网络的四种具体实现结构示意图；
[0013] 图3为根据本发明实施例的具有美感和语义标注的示意图；
[0014]图4a为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估结果中分类正确的高质量美感图像示意图；
[0015] 图4b为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估结果中分类正确的低质量美感图像示意图；
[0016] 图5为根据本发明一实施例的基于多任务深度学习的自然图像美感质量评估方法的训练和测试阶段的流程示意图。
【具体实施方式】
[0017] 下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，并不是全部实施例。基于本申请中的实施例，本领域普通技术人员在不付出创造性劳动的前提下，所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
[0018] 需要说明的是，在不冲突的情况下，本申请实施例及其技术特征可以相互组合而形成技术方案。
[0019] 本发明实施例的思想要点是：1)本发明实施例提出语义信息的识别是美感评估的一种相关任务，来辅助学习有效的图像美感特征表达;2)本发明实施例提出的多任务深度学习美感质量评估方法以及保持任务间平衡的策略，能够有效利用所有任务的有效信息，提升美感质量评估的精度和鲁棒性;3)本发明实施例提出通过语义信息的辅助和多任务深度学习的方法，说明语义信息在美感质量评估任务中的有效性，更加说明美感质量评估在人类视觉系统中并不是一个孤立的任务。
[0020] 图1示例性地示出了基于多任务深度学习的自然图像美感质量评估方法的流程。如图1所示，该方法包括：
[0021] S101:对自然图像进行基于多任务深度学习的美感和语义特征的自动学习。
[0022] S102:针对自动学习的结果，进行基于多任务深度学习的美感分类和语义识别，从而实现对自然图像的美感质量评估。
[0023]本发明实施例基于多任务深度学习并利用语义信息来辅助美感质量评估的方法，很好地弥补了美感特征表达的缺陷，得到了一种更加鲁棒并且精度更高的美感质量评估结果。
[0024]下面上述方法进行详细说明。该方法包括步骤S201至步骤S204。
[0025] S201 :训练数据的美感和语义标注。
[0026]大规模的可用数据是采用深度学习的前提条件。本发明实施例中采用的是同时具有美感和语义标签的大规模数据集。由于美感是一个主观性很强的属性，存在明显的个体差异。因此，对于美感的标注，一般采用多人对同一幅图像进行标注，之后取所有人的平均标注作为图像的最终标签。语义是客观的属性，所以标签是比较一致的。如图3所示，其为具有美感和语义标注的示例图像。其中，高表示高美感质量，低表示低美感质量。
[0027] S202:对图像进行预处理。
[0028]其中，将所有标注的图像采用深度学习神经网络训练之前，需要进行预处理。首先将图像归一化到统一的尺寸（比如256 X 256 )，然后将图像的减去所有图像的均值(这样可以去除光照等的影响），最后每次训练从图像中随机截取固定大小（比如227X227)的一块区域送入深度学习神经网络。随机截取图像区域的策略可以增加训练样本。其中，所有图像的均值指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均得到的结果。
[0029] S203:进行基于多任务深度学习的特征学习和模型训练。
[0030]在本步骤中，基于多任务深度学习的特征学习和模型训练是通过深度卷积神经网络来实现的。本发明提出利用语义信息来帮助美感质量评估任务，并将此问题建模为一个多任务深度学习概率模型。
[0031] 设定X表示预处理后的图像，Y表示图像对应的美感类别标记，Z表示图像对应的语义信息的标记，9代表多任务深度学习网络底层中美感分类和语义识别任务共有的参数，W 代表多任务深度学习网络高层中美感分类和语义识别任务分别的参数1=[1 3，13]，13表示多任务深度学习网络中美感分类任务特有的参数，W s表示多任务深度学习网络中语义识别任务特有的参数。
[0032] 目标就是通过对参数0，W，A寻找求取最优估计值，从而使后验概率最大化。
[0033] 目标函数如下：
[0034] 6, W,= argmax p{6, IV,, /. | A", Y,Z) (1 )
[0035]其中，A表示语义识别任务在联合学习过程中的权重系数。!)(0，1八4八，2)表示后验概率。
[0036]根据贝叶斯理论，公式(1)中的后验概率口(0，1，叫乂，￥，2)可以转换为如下公式：
[0037] p(0,ff,A|X,Y,Z)cxp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) (2)
[0038] 其中，，表示对应美感分类任务的条件概率，i?(Z| 表示对应语义识别任务的条件概率，P(9)、P(W)和p(A)分别为先验概率。
[0039] 下面以示例的方式分别介绍公式(2)中的每一项。
[0040] 1)条件概率?以|父，0，1)
[0041] 在多任务深度学习网络中利用如下公式来求解美感分类任务的条件概率：
(3)
[0043]其中，N表示全部的训练样本的个数，n表示第n个样本，n=l，2, . . .N，C表示美感质量的类别数，c表示第c种类别，c=l，2，...C，l{ ? }为指示函数，当为真时取值为1，当为假时取值为〇，yn表示第n个样本的美感类别标记。xn表示第n个样本的图像数据。
[0044]第n个样本的条件概率p(yn = c | xn，0，Wa)在多任务深度学习的网络中使用softmax 函数来求得，即： (4)
[0046]其中，1表示第1种类别，1 = 1，2, . . .C，C表示第c种美感类别对应的网络参数，把表示第1种美感类别对应的网络参数和9T分别指和9的转置。
[0047] 2)条件概率 p(Z|X，0，Ws，入）
[0048]在多任务深度学习网络中利用如下公式来求解语义识别任务的条件概率：
[0049] p(Z\X,0,Ws,l') = ?=1 m=l
[0050] 其中，M表示全部的语义属性的个数，m表示第m个语义属性，m=l，2, . . .M，<表示第n个样本的第m个语义属性的标记，取值为0或UWf表示第m个语义属性对应的网络参数。
[0051] 第n个样本的条件概率贫iff)在多任务深度学习的网络中使用 Sigmoid 函数〇(x) = l/(l+exp(-x))(其中）来求得。
[0052] 3)先验概率 p(0)、p(W)和 p(入）
[0053] 与常见的卷积神经网络相同，本发明将参数0，W都初始化为标准的正态分布，将参数入初始化为均值为y，方差为〇2的正态分布。
[0054] 最后将公式(2)中每一项的公式代入公式(2)中，并取负对数，省略常数项，可得最终的目标函数：
[0056]为了更有效地学习美感特征的表达，本发明提出一种保持目标函数(公式(6))内两个任务间平衡的策略，该策略是通过
来实现的。
[0057]公式(6)中的第一项是由公式(4)代入的，对应着美感评估任务，是通过softmax函数实现的，而softmax函数的特点是对于每个样本只计算分类正确的那一类的损失。公式 (6)中的第二项是由公式(5)代入的，对应着语义识别任务，由于每个样本都有M种语义标注，每种语义识别的任务是通过sigmoid函数实现的，所以对每个样本需要计算M个损失。
[0058] 为了使两种任务的损失在目标函数的优化中保持平衡，所以将
[0059] 上述目标函数的优化可以通过多种多任务的卷积神经网络结构来实现，如图2所示。图2中提出了 4种(MTCNN#1至MTCNN#3和增强的MTCNN)可以实现的多任务卷积神经网络。其中，MTCNN表示多任务卷积神经网络的缩写。深灰色表示卷积层，浅灰色表示全连接层。 MTCNN#1包括美感和语义任务共享的4层卷积层和2层全连接层，还有分别任务独立的一层全连接层;MTCNN#2包括美感和语义任务共享的4层卷积层和任务分别独立的3层全连接层； MTCNN#3包括美感和语义任务共享的2层卷积层，美感任务独立的2层全连接层，和语义任务独立的2层卷积层和3层全连接层;增强的MTCNN美感和语义任务共享的2层卷积层，其中一个美感任务独立的2层全连接层，另一美感任务和语义任务共享的2层卷积层和2层全连接层，和美感和语义任务分别独立的一层全连接层。以图2中的第一种网络MTCNN#1为例来优化目标函数(公式(6))。它包含的由底向上的4层卷积层和2层全连接层是两种任务共享参数的，其中参数由9表示，最上层的两层全连接层由左向右分别表示美感和语义的特有参数，美感和语义的特有参数分别由1和1表示。此网络的训练是通过反向传播算法实现的。
[0060] S204:将测试图像输入训练好的网络进行美感质量预测。
[0061] 在测试过程中，将测试图像输入上一步骤训练好的神经网络中，最后输出美感质量的预测和语义类别的预测。由于语义识别只是辅助任务，所以我们在测试的时候只关注美感质量的评估结果。图4a栏表示测试为高美感质量的图像，图4b栏表示测试为低美感质量的图像。
[0062] 图5示例性地示出了根据本发明一实施例的训练和测试阶段的流程示意图。如图5 所示，在训练阶段首先对训练图像进行美感和语义的标注，然后进行图像的预处理，最后将预处理后的图像输入多任务深度卷积神经网络进行特征学习和模型训练;在测试阶段测试图像不需要进行标注，然后进行图像预处理，接着将预处理的测试图像输入在训练阶段已训练好的多任务深度卷积神经网络进行特征提取和美感质量评估和语义识别，最后输出结果。
[0063] 下面再以一优选实施例来更好地说明本发明。
[0064]步骤S301:采集训练数据，并对每幅图像进行美感和语义的标注。
[0065] 步骤S302:图像预处理。
[0066]具体的是将每幅图像归一化到统一大小，比如256X256,并减去均值图像(均值图像指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均得到的结果），然后随机截取固定大小(比如227X227)的图像区域送入要训练的神经网络。
[0067]步骤S303:基于多任务深度学习的特征学习和模型训练。将预处理好的图像，送入事先定义好的卷积神经网络。
[0068]步骤S304:将测试图像(如图4)输入训练好的网络进行美感质量预测。
[0069] 在测试过程中，将测试图像输入上一步骤训练好的神经网络中，最后输出美感质量的预测。
[0070] 总之，本发明实施例提出了一种新的基于多任务深度学习以及利用语义信息的自然图像美感质量评估方法。本发明实施例很好地利用了语义信息来辅助美感特征的表达学习，得到更加鲁棒，精度更高的美感质量评估性能，进而说明了语义信息对于美感特征学习的有效性。
[0071] 以上所述，仅为本发明中的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。
【主权项】
1. 一种基于多任务深度学习的自然图像美感质量评估方法，其特征在于，所述方法包括：步骤1:对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习；步骤2:针对自动学习的结果，进行基于多任务深度学习的美感分类和语义识别，从而实现对所述自然图像的美感质量评估。2. 根据权利1所述的方法，其特征在于，所述步骤1包括：利用所述自然图像的语义信息，来进行基于多任务深度学习的美感特征的自动学习。3. 根据权利2所述的方法，其特征在于，所述步骤2包括：利用以下第一公式对所述自然图像进行基于多任务深度学习的美感分类和语义识别：其中，X表示自然图像;Y表示图像对应的美感类别标记;Z表示图像对应的语义信息的标记；Θ代表多任务深度学习网络底层中美感分类和语义识别任务共有的参数;W代表多任务深度学习网络高层中美感分类和语义识别任务分别的参数W= [Wa，Ws];Wa表示多任务深度学习网络中美感分类任务特有的参数;W s表示多任务深度学习网络中语义识别任务特有的参数;λ表示语义识别任务在联合学习过程中的权重系数;ρ(θ，ψ，λ|χ，Υ，Ζ)表示后验概率。4. 根据权利3所述的方法，其特征在于，所述方法还包括：根据贝叶斯理论，将所述第一公式转换为以下第二公式： p(0,ff,A|X,Y,Z)〇cp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) 其中，ΜΓ| 表示对应美感分类任务的条件概率，F(Z| 表示对应语义识别任务的条件概率，P(9)，p(W)和ρ(λ)分别为先验概率。5. 根据权利4所述的方法，其特征在于，所述美感分类任务的条件概率通过以下公式来求解：其中，N表示全部的训练样本的个数，η表示第η个样本，n=l，2,.. .N，C表示美感质量的类别数，(3表示第(3种类别，(：=1，2，...(：，1{>}为指示函数，当括号内变量为真时取值为1，当为假时取值为〇，y n表示第η个样本的美感类别标记，χη表示第η个样本的图像数据；并且，第η个样本的所述条件概率？(5^=(：|&，0，13)在所述多任务深度学习的网络中使用sof tmax函数来求得。6. 根据权利4所述的方法，其特征在于，所述语义识别任务的条件概率通过以下公式来求舻具中，M表不全部的诰乂属性的个数；m表不弟m个诰乂属性，m=l，2,. . .M;(表不第η个样本的第m个语义属性的标记，取值为0或1; 表示第m个语义属性的对应的网络参数；并且，第η个样本的所述条件概率丨在所述多任务深度学习的网络中使用Sigmoid函数来求得。7.根据权利3所述的方法，其特征在于，所述方法还包括：利用以下策略对所述第一公式进行恍仆，其中，M表示语义标注种类数量。
【文档编号】G06K9/62GK105894025SQ201610195565
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】黄凯奇, 谭铁牛, 赫然, 考月英
【申请人】中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄凯奇;谭铁牛;赫然;考月英;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

上一篇：一种基于模糊理论的体型分类方法
上一篇：基于聚簇的支持向量数据描述改进算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。