基于多任务深度学习的自然图像美感质量评估方法

文档序号:10535381阅读:426来源:国知局
基于多任务深度学习的自然图像美感质量评估方法
【专利摘要】本发明公开了一种基于多任务深度学习的自然图像美感质量评估方法。其中,该方法包括步骤1:对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习;步骤2:针对自动学习的结果,进行基于多任务深度学习的美感分类和语义识别,从而实现对自然图像的美感质量评估。本发明利用语义信息来辅助美感特征的表达学习,从而更加有效地进行美感质量评估,并且设计多种多任务深度学习网络结构来有效地利用美感和语义信息来获得高准确率的图像美感分类。本发明能应用于涉及图像美感质量评估的众多领域,包括图像检索、摄影学及相册管理等。
【专利说明】
基于多任务深度学习的自然图像美感质量评估方法
技术领域
[0001] 本发明涉及模式识别、机器学习及计算机视觉技术领域,特别涉及一种基于多任 务深度学习的自然图像美感质量评估方法。
【背景技术】
[0002] 随着数字媒体技术和计算机技术的快速发展,人们对计算机视觉、人工智能、机器 感知等领域的需求与期盼也越来越高。人们不仅希望计算机能够识别出图像中的物体,给 出物体的精确定位等经典的计算机视觉问题,而且开始期望计算机能够像人类视觉系统一 样具有更高层次的感知能力。目前,图像美感分析已经引起了越来越多的关注,尤其是图像 的美感质量评估。图像美感质量评估就是利用计算机进行智能分析进而判断图像的美感质 量。传统的图像美感质量评估方法一般仅仅将图像美感质量评估当作一个孤立的任务去手 工设计或使用深度网络学习特征来进行质量评估。这些特征都受到美感这一主观性因素的 影响,精度也很难达到用户需求。
[0003] 对于人类视觉系统,图像的美感质量评估很难作为一个独立的任务,经常伴随着 一些其他的视觉感知任务。比如,当人们准备去评价一张图片的美感质量的时候,他们已经 理解了这张图片的内容,也就是说他们能够说出他们正在观看的语义信息。同时,多任务学 习能够同时学习几个相关的任务,而且已经有大量研究表明多任务学习能够提高部分或全 部任务的效果。
[0004] 有鉴于此,特提出本发明。

【发明内容】

[0005] 本发明提供一种基于多任务深度学习的自然图像美感质量评估方法,以解决如何 提高自然图像美感质量评估的鲁棒性和精度。
[0006] 为了实现上述目的,提供以下技术方案:
[0007] -种基于多任务深度学习的自然图像美感质量评估方法,所述方法包括:
[0008] 步骤1:对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习;
[0009] 步骤2 :针对自动学习的结果,进行基于多任务深度学习的美感分类和语义识别, 从而实现对所述自然图像的美感质量评估。
[0010] 本发明利用多任务学习去挖掘更有效的美感特征入手,提出了一种基于多任务深 度学习并利用语义信息来辅助美感质量评估的方法,很好地弥补了美感特征表达的缺陷, 得到了一种更加鲁棒并且精度更高的美感质量评估结果。本发明还能应用于涉及图像美感 质量评估的众多领域,包括图像检索、摄影学及相册管理等。
【附图说明】
[0011] 图1为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估方法的 流程示意图;
[0012] 图2为根据本发明实施例的多任务深度卷积神经网络的四种具体实现结构示意 图;
[0013] 图3为根据本发明实施例的具有美感和语义标注的示意图;
[0014]图4a为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估结果 中分类正确的高质量美感图像示意图;
[0015] 图4b为根据本发明实施例的基于多任务深度学习的自然图像美感质量评估结果 中分类正确的低质量美感图像示意图;
[0016] 图5为根据本发明一实施例的基于多任务深度学习的自然图像美感质量评估方法 的训练和测试阶段的流程示意图。
【具体实施方式】
[0017] 下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方 案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部 分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造 性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。 本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
[0018] 需要说明的是,在不冲突的情况下,本申请实施例及其技术特征可以相互组合而 形成技术方案。
[0019] 本发明实施例的思想要点是:1)本发明实施例提出语义信息的识别是美感评估的 一种相关任务,来辅助学习有效的图像美感特征表达;2)本发明实施例提出的多任务深度 学习美感质量评估方法以及保持任务间平衡的策略,能够有效利用所有任务的有效信息, 提升美感质量评估的精度和鲁棒性;3)本发明实施例提出通过语义信息的辅助和多任务深 度学习的方法,说明语义信息在美感质量评估任务中的有效性,更加说明美感质量评估在 人类视觉系统中并不是一个孤立的任务。
[0020] 图1示例性地示出了基于多任务深度学习的自然图像美感质量评估方法的流程。 如图1所示,该方法包括:
[0021] S101:对自然图像进行基于多任务深度学习的美感和语义特征的自动学习。
[0022] S102:针对自动学习的结果,进行基于多任务深度学习的美感分类和语义识别,从 而实现对自然图像的美感质量评估。
[0023]本发明实施例基于多任务深度学习并利用语义信息来辅助美感质量评估的方法, 很好地弥补了美感特征表达的缺陷,得到了一种更加鲁棒并且精度更高的美感质量评估结 果。
[0024]下面上述方法进行详细说明。该方法包括步骤S201至步骤S204。
[0025] S201 :训练数据的美感和语义标注。
[0026]大规模的可用数据是采用深度学习的前提条件。本发明实施例中采用的是同时具 有美感和语义标签的大规模数据集。由于美感是一个主观性很强的属性,存在明显的个体 差异。因此,对于美感的标注,一般采用多人对同一幅图像进行标注,之后取所有人的平均 标注作为图像的最终标签。语义是客观的属性,所以标签是比较一致的。如图3所示,其为具 有美感和语义标注的示例图像。其中,高表示高美感质量,低表示低美感质量。
[0027] S202:对图像进行预处理。
[0028]其中,将所有标注的图像采用深度学习神经网络训练之前,需要进行预处理。首先 将图像归一化到统一的尺寸(比如256 X 256 ),然后将图像的减去所有图像的均值(这样可 以去除光照等的影响),最后每次训练从图像中随机截取固定大小(比如227X227)的一块 区域送入深度学习神经网络。随机截取图像区域的策略可以增加训练样本。其中,所有图像 的均值指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均得到的结 果。
[0029] S203:进行基于多任务深度学习的特征学习和模型训练。
[0030]在本步骤中,基于多任务深度学习的特征学习和模型训练是通过深度卷积神经网 络来实现的。本发明提出利用语义信息来帮助美感质量评估任务,并将此问题建模为一个 多任务深度学习概率模型。
[0031] 设定X表示预处理后的图像,Y表示图像对应的美感类别标记,Z表示图像对应的语 义信息的标记,9代表多任务深度学习网络底层中美感分类和语义识别任务共有的参数,W 代表多任务深度学习网络高层中美感分类和语义识别任务分别的参数1=[1 3,13],13表示 多任务深度学习网络中美感分类任务特有的参数,W s表示多任务深度学习网络中语义识别 任务特有的参数。
[0032] 目标就是通过对参数0,W,A寻找求取最优估计值,从而使后验概率最大化。
[0033] 目标函数如下:
[0034] 6, W,= argmax p{6, IV,, /. | A", Y,Z) (1 )
[0035]其中,A表示语义识别任务在联合学习过程中的权重系数。!)(0,1八4八,2)表示后 验概率。
[0036]根据贝叶斯理论,公式(1)中的后验概率口(0,1,叫乂,¥,2)可以转换为如下公式:
[0037] p(0,ff,A|X,Y,Z)cxp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) (2)
[0038] 其中,,表示对应美感分类任务的条件概率,i?(Z| 表示对应 语义识别任务的条件概率,P(9)、P(W)和p(A)分别为先验概率。
[0039] 下面以示例的方式分别介绍公式(2)中的每一项。
[0040] 1)条件概率?以|父,0,1)
[0041] 在多任务深度学习网络中利用如下公式来求解美感分类任务的条件概率:
(3)
[0043]其中,N表示全部的训练样本的个数,n表示第n个样本,n=l,2, . . .N,C表示美感质 量的类别数,c表示第c种类别,c=l,2,...C,l{ ? }为指示函数,当为真时取值为1,当为假 时取值为〇,yn表示第n个样本的美感类别标记。xn表示第n个样本的图像数据。
[0044]第n个样本的条件概率p(yn = c | xn,0,Wa)在多任务深度学习的网络中使用softmax 函数来求得,即: (4)
[0046]其中,1表示第1种类别,1 = 1,2, . . .C,C表示第c种美感类别对应的网络参数,把 表示第1种美感类别对应的网络参数和9T分别指和9的转置。
[0047] 2)条件概率 p(Z|X,0,Ws,入)
[0048]在多任务深度学习网络中利用如下公式来求解语义识别任务的条件概率:
[0049] p(Z\X,0,Ws,l') = ?=1 m=l
[0050] 其中,M表示全部的语义属性的个数,m表示第m个语义属性,m=l,2, . . .M,<表示 第n个样本的第m个语义属性的标记,取值为0或UWf表示第m个语义属性对应的网络参数。
[0051] 第n个样本的条件概率贫iff)在多任务深度学习的网络中使用 Sigmoid 函数 〇(x) = l/(l+exp(-x))(其中)来求得。
[0052] 3)先验概率 p(0)、p(W)和 p(入)
[0053] 与常见的卷积神经网络相同,本发明将参数0,W都初始化为标准的正态分布,将参 数入初始化为均值为y,方差为〇2的正态分布。
[0054] 最后将公式(2)中每一项的公式代入公式(2)中,并取负对数,省略常数项,可得最 终的目标函数:
[0056]为了更有效地学习美感特征的表达,本发明提出一种保持目标函数(公式(6))内 两个任务间平衡的策略,该策略是通过
来实现的。
[0057]公式(6)中的第一项是由公式(4)代入的,对应着美感评估任务,是通过softmax函 数实现的,而softmax函数的特点是对于每个样本只计算分类正确的那一类的损失。公式 (6)中的第二项是由公式(5)代入的,对应着语义识别任务,由于每个样本都有M种语义标 注,每种语义识别的任务是通过sigmoid函数实现的,所以对每个样本需要计算M个损失。
[0058] 为了使两种任务的损失在目标函数的优化中保持平衡,所以将
[0059] 上述目标函数的优化可以通过多种多任务的卷积神经网络结构来实现,如图2所 示。图2中提出了 4种(MTCNN#1至MTCNN#3和增强的MTCNN)可以实现的多任务卷积神经网络。 其中,MTCNN表示多任务卷积神经网络的缩写。深灰色表示卷积层,浅灰色表示全连接层。 MTCNN#1包括美感和语义任务共享的4层卷积层和2层全连接层,还有分别任务独立的一层 全连接层;MTCNN#2包括美感和语义任务共享的4层卷积层和任务分别独立的3层全连接层; MTCNN#3包括美感和语义任务共享的2层卷积层,美感任务独立的2层全连接层,和语义任务 独立的2层卷积层和3层全连接层;增强的MTCNN美感和语义任务共享的2层卷积层,其中一 个美感任务独立的2层全连接层,另一美感任务和语义任务共享的2层卷积层和2层全连接 层,和美感和语义任务分别独立的一层全连接层。以图2中的第一种网络MTCNN#1为例来优 化目标函数(公式(6))。它包含的由底向上的4层卷积层和2层全连接层是两种任务共享参 数的,其中参数由9表示,最上层的两层全连接层由左向右分别表示美感和语义的特有参 数,美感和语义的特有参数分别由1和1表示。此网络的训练是通过反向传播算法实现的。
[0060] S204:将测试图像输入训练好的网络进行美感质量预测。
[0061] 在测试过程中,将测试图像输入上一步骤训练好的神经网络中,最后输出美感质 量的预测和语义类别的预测。由于语义识别只是辅助任务,所以我们在测试的时候只关注 美感质量的评估结果。图4a栏表示测试为高美感质量的图像,图4b栏表示测试为低美感质 量的图像。
[0062] 图5示例性地示出了根据本发明一实施例的训练和测试阶段的流程示意图。如图5 所示,在训练阶段首先对训练图像进行美感和语义的标注,然后进行图像的预处理,最后将 预处理后的图像输入多任务深度卷积神经网络进行特征学习和模型训练;在测试阶段测试 图像不需要进行标注,然后进行图像预处理,接着将预处理的测试图像输入在训练阶段已 训练好的多任务深度卷积神经网络进行特征提取和美感质量评估和语义识别,最后输出结 果。
[0063] 下面再以一优选实施例来更好地说明本发明。
[0064]步骤S301:采集训练数据,并对每幅图像进行美感和语义的标注。
[0065] 步骤S302:图像预处理。
[0066]具体的是将每幅图像归一化到统一大小,比如256X256,并减去均值图像(均值图 像指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均得到的结果), 然后随机截取固定大小(比如227X227)的图像区域送入要训练的神经网络。
[0067]步骤S303:基于多任务深度学习的特征学习和模型训练。将预处理好的图像,送入 事先定义好的卷积神经网络。
[0068]步骤S304:将测试图像(如图4)输入训练好的网络进行美感质量预测。
[0069] 在测试过程中,将测试图像输入上一步骤训练好的神经网络中,最后输出美感质 量的预测。
[0070] 总之,本发明实施例提出了一种新的基于多任务深度学习以及利用语义信息的自 然图像美感质量评估方法。本发明实施例很好地利用了语义信息来辅助美感特征的表达学 习,得到更加鲁棒,精度更高的美感质量评估性能,进而说明了语义信息对于美感特征学习 的有效性。
[0071] 以上所述,仅为本发明中的【具体实施方式】,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
【主权项】
1. 一种基于多任务深度学习的自然图像美感质量评估方法,其特征在于,所述方法包 括: 步骤1:对所述自然图像进行基于多任务深度学习的美感和语义特征的自动学习; 步骤2:针对自动学习的结果,进行基于多任务深度学习的美感分类和语义识别,从而 实现对所述自然图像的美感质量评估。2. 根据权利1所述的方法,其特征在于,所述步骤1包括:利用所述自然图像的语义信 息,来进行基于多任务深度学习的美感特征的自动学习。3. 根据权利2所述的方法,其特征在于,所述步骤2包括: 利用以下第一公式对所述自然图像进行基于多任务深度学习的美感分类和语义识别:其中,X表示自然图像;Y表示图像对应的美感类别标记;Z表示图像对应的语义信息的 标记;Θ代表多任务深度学习网络底层中美感分类和语义识别任务共有的参数;W代表多任 务深度学习网络高层中美感分类和语义识别任务分别的参数W= [Wa,Ws];Wa表示多任务深 度学习网络中美感分类任务特有的参数;W s表示多任务深度学习网络中语义识别任务特有 的参数;λ表示语义识别任务在联合学习过程中的权重系数;ρ(θ,ψ,λ|χ,Υ,Ζ)表示后验概 率。4. 根据权利3所述的方法,其特征在于,所述方法还包括: 根据贝叶斯理论,将所述第一公式转换为以下第二公式: p(0,ff,A|X,Y,Z)〇cp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) 其中,ΜΓ| 表示对应美感分类任务的条件概率,F(Z| 表示对应语义 识别任务的条件概率,P(9),p(W)和ρ(λ)分别为先验概率。5. 根据权利4所述的方法,其特征在于,所述美感分类任务的条件概率通过以下公式来 求解:其中,N表示全部的训练样本的个数,η表示第η个样本,n=l,2,.. .N,C表示美感质量的 类别数,(3表示第(3种类别,(:=1,2,...(:,1{>}为指示函数,当括号内变量为真时取值为1, 当为假时取值为〇,y n表示第η个样本的美感类别标记,χη表示第η个样本的图像数据; 并且,第η个样本的所述条件概率?(5^=(:|&,0,13)在所述多任务深度学习的网络中使 用sof tmax函数来求得。6. 根据权利4所述的方法,其特征在于,所述语义识别任务的条件概率通过以下公式来 求舻具中,M表不全部的诰乂属性的个数;m表不弟m个诰乂属性,m=l,2,. . .M;(表不第η个 样本的第m个语义属性的标记,取值为0或1; 表示第m个语义属性的对应的网络参数; 并且,第η个样本的所述条件概率丨在所述多任务深度学习的网络中 使用Sigmoid函数来求得。7.根据权利3所述的方法,其特征在于,所述方法还包括: 利用以下策略对所述第一公式进行恍仆, 其中,M表示语义标注种类数量。
【文档编号】G06K9/62GK105894025SQ201610195565
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】黄凯奇, 谭铁牛, 赫然, 考月英
【申请人】中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1