基于主题特征和评分分布的图像美学质量评价方法及系统

文档序号:24972981发布日期:2021-05-07 22:44阅读:165来源:国知局
基于主题特征和评分分布的图像美学质量评价方法及系统

本发明涉及图像处理以及计算机视觉领域,特别涉及一种基于主题特征和评分分布的图像美学质量评价方法及系统。



背景技术:

在多媒体技术迅速发展的今天,人们接受信息的方式变得多元化,其中图像信息以其直观、包含信息量大受到了人们的欢迎。但图像数量的急剧上升以及图像质量的参差不齐,使得图像的优劣也成为了人们关注的重点。审美价值的产生是人们对视觉和精神上美学感受的追求,从美学角度来评价图像,是将其向精神方向发展的一种重要体现。图像美学质量衡量了在人类眼中一幅图像的视觉吸引力,人们都希望自己获得的图像是具有较高的视觉美学质量。人们利用计算机来模仿人类的审美过程,从而用计算方法自动预测图像的美学质量,使得计算机能够发现图像的美并且能理解图像的美。由于视觉美学是一个主观的属性,往往涉及情感、个人品味等主观因素,这使得自动评估图像美学质量成为一项非常具有挑战性的任务。目前图像美学质量评价已经应用在美学辅助图像搜索、自动照片增强、照片筛选以及相册管理等应用中。

图像美学质量评价方法分为手工提取特征方法与深度学习方法。手工提取特征方法需要手工设计和美学质量相关的多种图像特征。他们首先在图像数据集上提取这些手工设计的特征,然后利用,如支撑向量机、随机森林等机器学习方法进行分类与回归。但是手工设计的特征往往是受摄影或心理学启发,有其局限性。首先手工设计的特征范围有限,无法全面的代表美学特征;其次,这些手工设计的特征仅仅是这些规则的近似值,不能保证这些特征的有效性。

目前先进方法都是利用深度学习来自动提取图像的美学特征,深度学习强大的自动特征学习能力,不需要人们有丰富的图像美学知识和心理学知识就可以自动提取图像美学特征。近年来,研究人员对用于图像识别的多种卷积神经网络进行改造,这些深度卷积神经网络在图像美学评价方面展现出了良好的性能,深度卷积神经网络成为了解决图像美学质量评价问题的主流方法。但是过去绝大多数基于深度学习的图像美学质量评价方法只局限于学习视觉特征,虽然也有少量研究工作借助各种领域的专业知识,通过多任务等方法将这些专业知识与图像视觉特征进行融合,但是大部分基于多任务的图像美学质量评估方法只局限于最后输出特征的融合,无法充分利用深度学习中所提取的特征。我们发现美学数据集中的图像大都有相对应的用户评论,这些评论解释了他们给图像美学质量打分的理由,包含了与图像有关的重要的语义信息,所以我们可以充分利用和挖掘这些文本特征。我们提出基于主题特征和评分分布的图像美学质量评价方法,可以有效的融合图像和与图像相关重要的语义信息,提高图像美学质量评估方法的性能。



技术实现要素:

本发明的目的在于提供一种基于主题特征和评分分布的图像美学质量评价方法及系统,该方法有利于融合语义,提高图像美学质量评估方法的性能。

为实现上述目的,本发明的技术方案是:一种基于主题特征和评分分布的图像美学质量评价方法,包括如下步骤:

步骤s1、将美学图像数据集中的数据进行数据预处理,将数据集划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;

步骤s2、设计图像主题特征分类网络,使用所设计的网络训练可对美学图像进行主题特征分类的图像主题分类模型;

步骤s3、设计图像美学评分分布预测网络,使用所设计的网络训练可对美学图像进行美学评分分布预测的美学评分分布预测模型;

步骤s4、设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学评分分布预测模型通过层特征融合连接起来,使用所设计的网络训练可同时进行主题特征分类与美学评分分布预测的多任务模型;

步骤s5、将图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数。

在本发明一实施例中,所述步骤s1具体实现步骤如下:

步骤s11、将数据集按预定比例划分为训练集与测试集,并将训练集与测试集中的图像缩放到固定尺寸h×w;

步骤s12、将训练集中图像对应的所有评论文本中的数字与标点符号剔除,将其转化为空格,并将全部的单词转为小写;将经过以上处理的评论根据其对应的图像进行组合,共得到对应训练集中s幅图像的s个文档,即训练集文档d[d1,d2,…,ds];

步骤s13、使用隐含狄利克雷分布方法,根据训练集文档d建立主题模型,并计算每一个文档的主题作为与该文档对应的图像的主题,即对于第i个文档di,首先根据建立的主题模型得到其主题分布θi,取θi中数值最高的主题作为文档di的主题,假设该主题是第t个主题,则文档di和其对应的图像di对应的主题是主题t。

在本发明一实施例中,所述步骤s2具体实现步骤如下:

步骤s21、以图像分类网络为基准网络,将基准网络的最后一层替换成全连接层,全连接层输出的分类数为k,k为主题类数;

步骤s22、将经过步骤s12的训练集输入到步骤s21中的网络模型,预测得到图像主题特征分布

步骤s23、根据图像主题分类网络的损失函数,利用反向传播方法计算图像主题分类的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像主题分类网络的损失函数如下:

其中,k表示预测得到的向量长度,即主题类数;yi为步骤s13通过对应的文档计算得到的图像属于第i类主题特征的概率;为图像经主题特征分类深度网络预测获得的图像属于第i类主题特征的概率;log(·)表示对数函数log;σ(·)表示sigmod激活函数;

步骤s24、以批次为单位重复步骤s22至步骤s23,直至步骤s23中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题分类模型的训练。

在本发明一实施例中,所述步骤s3具体实现步骤如下:

步骤s31、选取与步骤s21中相同的图像分类网络作为基准网络,将基准网络的最后一层替换成全连接层和激活层,全连接层输出的分类数为a,a为美学评分分数集合中分数的个数;

步骤s32、将经过步骤s12的训练集输入到步骤s31中的网络模型,预测得到图像美学评分分布

步骤s33、根据图像美学评分分布预测网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像美学评分分布预测网络的损失函数如下:

其中,dkl(·||·)为kl散度,表示图像经过图像美学评分分布预测网络得到的美学评分分布,x表示图像真实的美学评分分布;

步骤s34、以批次为单位重复步骤s32至步骤s33,直至步骤s33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像美学评分分布预测网络的训练。

在本发明一实施例中,所述步骤s4具体实现步骤如下:

步骤s41、将步骤s2与步骤s3分别训练完成的两个网络的若干对应层利用层特征融合模块将两个基准网络连接起来;对于第i个对应层,层特征融合模块的输入是两个网络的第i个对应层的输出特征的拼接;每个层特征融合模块包括两支1×1卷积层与归一化层,其中1×1卷积层将维度为h×w×2c的拼接特征降维为维度为h×w×c的特征,层特征融合模块的表达式为:

其中,是第一个网络第i层的输出特征,其维度为h×w×c;是第二个网络第i层的输出特征,其维度为h×w×c;concat(·)表示特征按通道进行拼接;fi是拼接后的输出特征,其维度为h×w×2c;w1,b1是对应第一个网络的1×1卷积层的权重和偏置;w2,b2是对应第二个网络的1×1卷积层的权重和偏置,bn(·)表示批归一化操作;

接着,将经过层特征融合模块的输出特征分别输入到两个网络中第i个对应层的下一层;即用分别代替作为第一个和第二个网络中第i个对应层的下一层的输入;

步骤s42、对于两个网络分别做如下操作,将其中一个网络中除最后一个层特征融合模块外的每个层特征融合模块的输出通过自适应池化匹配到最后一个层特征融合模块的输出的高度和宽度,然后与两个网络最后一个对应层的层特征融合模块的输出进行拼接,再经过通道注意力模块,最后输入到两个网络最后一个对应层的后续网络中;对于第一个网络,共有k个层特征融合模块,对层特征融合模块的输出进行自适应池化和拼接的具体的表达式为:

其中,concat(·)表示特征按照通道进行拼接,ap([h,w],f)代表自适应池化模块,第一个参数为目标池化尺寸,[h,w]代表特征图的高度和宽度,第二个参数为输入的特征;[hk,wk]表示第k个特征融合模块输出特征的高度和宽度,表示输出给第一个网络的第i个特征融合模块的输出特征;

对于第一个网络,通道注意力模块的具体表达式为:

其中,表示第一个网络中k个层特征融合模块的输出特征进行拼接后的特征,fc(·)表示全连接层,gp(·)表示全局池化操作,relu(·)表示线性整流函数,σ(·)表示sigmod激活函数;fscale为各通道权重值,大小为1×1×c,其通道数c与保持一致;表示各通道权重值分别与原特征图对应通道的二维矩阵相乘;为经过通道注意力模块后的特征,该特征作为第一个网络最后一个对应层的后续网络的输入特征;

步骤s43、将经过步骤s12的训练集输入到步骤s41至步骤s42中设计的图像主题特征分类与美学评分分布预测的多任务网络,该多任务网络中两个基准网络分别使用步骤s24和步骤s34中相对应部分的参数作为初始参数,多任务网络中其它部分的参数随机初始化;使用该多任务网络预测得到美学评分分布与主题特征分布

步骤s44、根据图像主题特征分类与美学评分分布预测的多任务网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像主题特征分类与美学评分分布预测的多任务网络的损失函数如下:

l=wsls+wtlt

其中,ws与wt是各损失的权重,lt是步骤s23中的图像主题分类网络的损失函数,ls是步骤s33中的图像美学评分分布预测网络的损失函数;

步骤s45、以批次为单位重复步骤s43至步骤s44,直至步骤s44中计算得到的损失值收敛并趋于稳定,保存网络参数,完成主题特征分类与美学评分分布预测的多任务网络的训练。

在本发明一实施例中,所述步骤s5具体实现步骤如下:

步骤s51、将测试集中的图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布p与主题特征k;

步骤s52、计算美学评分分布p的平均值,得到图像美学质量分数μ;计算公式如下:

其中,psi表示评分为si的概率,si表示第i个得分,a表示分数个数。

本发明还一种基于主题特征和评分分布的图像美学质量评价系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。

相较于现有技术,本发明具有以下有益效果:本发明能有效的融合图像与图像有关的重要的语义信息,提高图像美学质量评估方法的性能。现有的大多数图像美学质量评估方法忽略了美学数据集中的图像的出处中相对应的用户评论,这些评论解释了他们给图像打分的理由,包含了与图像有关的重要的语义信息,或者只局限于最终输出特征的融合,无法充分利用深度学习中所提取出的特征。本发明提出了一种基于主题特征和评分分布预测的图像美学评价模型,能有效的融合图像与图像有关的重要的语义信息,并提高图像美学质量评估方法的性能。

附图说明

图1是本发明方法的实现流程图。

图2是本发明实施例中网络模型结构图。

图3是本发明实施例中层特征融合模块结构图。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提供一种基于主题特征和评分分布的图像美学质量评价方法,如图1-3所示,包括以下步骤:

步骤s1、将美学图像数据集中的数据进行数据预处理,将数据集划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;

步骤s2、设计图像主题特征分类网络,使用所设计的网络训练可对美学图像进行主题特征分类的图像主题分类模型;

步骤s3、设计图像美学评分分布预测网络,使用所设计的网络训练美学质量评分分布预测模型;

步骤s4、设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学质量评分分布预测模型通过层特征融合连接起来,使用所设计的网络训练可同时进行主题特征分类与美学评分分布预测的多任务模型;

步骤s5、将图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的图像美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数。

进一步地,步骤s1具体包括以下步骤:

步骤s11、将数据集按一定比例划分为训练集与测试集,并将训练集与测试集中的图像缩放到固定尺寸h×w。

步骤s12、将训练图像对应的所有评论文本中的数字与标点符号剔除,将其转化为空格,并将全部的单词转为小写。将经过以上处理的评论根据其对应的图像进行组合,共得到对应s幅训练图像的s个文档,即训练集文档d[d11d2,…,ds]。

步骤s13、使用隐含狄利克雷分布(latentdirichletallocation,lda)方法,根据训练集文档d建立主题模型,并计算每一个文档的主题作为与该文档对应的图像的主题。对于第i个文档di,首先根据建立的主题模型得到其主题分布θi,取θi中数值最高的主题作为文档di的主题,假设该主题是第t个主题,则文档di和对应的图像di对应的主题是主题t。

进一步地,步骤s2具体包括以下步骤:

步骤s21、以resnet50图像分类网络为基础,我们称之为基准网络,将基准网络的最后一层替换成全连接层,全连接层输出的分类数为k,k为主题类数。

步骤s22、将经过s12步骤的训练集输入到s21步骤中的模型,预测得到图像主题特征分布

步骤s23、根据图像主题分类网络的损失函数,利用反向传播方法计算图像主题分类的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像主题分类网络的损失函数如下:

其中,k表示预测得到的向量长度,即主题类数;yi为步骤s13通过对应的文档计算得到的图像属于第i类主题特征的概率;为图像经主题特征分类深度网络预测获得的属于第i类主题特征的概率;log(·)表示对数函数log;σ(·)表示sigmod激活函数。

步骤s24、以批次为单位重复上述步骤s22至步骤s23,直至步骤s23中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题分类模型的训练过程。

进一步地,步骤s3具体包括以下步骤:

步骤s31、将基准网络的最后一层替换成全连接层和激活层,全连接层输出的分类数为a,a为美学评分分数集合中分数的个数。如评分分数集合为{1,2,…,10}时,a为10。

步骤s32、将经过s12步骤的训练集输入到s31步骤中的模型,预测得到图像美学评分分布

步骤s33、根据图像美学评分分布预测网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像美学评分分布预测网络的损失函数如下:

其中,dkl(·‖·)为kl散度,表示图像经过图像美学评分分布预测网络得到的美学评分分布,x表示图像真实的美学评分分布。

步骤s34、以批次为单位重复上述步骤s32至步骤s33,直至步骤s33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像美学评分分布预测网络的训练过程。

进一步地,步骤s4具体包括以下步骤:

步骤s41、将s2步骤与s3步骤分别训练完成的两个基准网络的若干对应层利用层特征融合模块将两个基准网络连接起来。对于第i个对应层,层特征融合模块的输入是两个基准网络的第i个对应层的输出特征的拼接。每个层特征融合模块包括两支1×1卷积层与归一化层,其中1×1卷积层将维度为h×w×2c的拼接特征降维为维度为h×w×c的特征,层特征融合模块的表达式为:

其中,是第一个基准网络第i层的输出特征,其维度为h×w×c。是第二个基准网络第i层的输出特征,其维度为h×w×c。concat(·)表示特征按通道进行拼接。fi是拼接后的输出特征,其维度为h×w×2c。w1,b1是对应第一个基准网络的1×1卷积层的权重和偏置。w2,b2是对应第二个基准网络的1×1卷积层的权重和偏置,bn(·)表示批归一化操作。

接着,将经过层特征融合模块的输出特征分别输入到两个基准网络中第i个对应层的下一层。即用分别代替作为第一个和第二个基准网络中第i个对应层的下一层的输入。

步骤s42、对于两个基准网络分别做如下操作,将某个基准网络中除最后一个层特征融合模块外的每个层特征融合模块的输出通过自适应池化匹配到最后一个层特征融合模块的输出的高度和宽度,然后与两个基准网络最后一个对应层的层特征融合模块的输出进行拼接,再经过通道注意力模块,最后输入到两个基准网络最后一个对应层的后续网络中。以第一个基准网络为例,共有k个层特征融合模块,对层特征融合模块的输出进行自适应池化和拼接的具体的表达式为:

其中,concat(·)表示特征按照通道进行拼接,ap([h,w],f)代表自适应池化模块,第一个参数为目标池化尺寸,[h,w]代表特征图的高度和宽度,第二个参数为输入的特征。[hk,wk]表示第k个特征融合模块输出特征的高度和宽度,表示输出给第一个基准网络的第i个特征融合模块的输出特征。

以第一个基准网络为例,通道注意力模块的具体表达式为:

其中,表示第一个基准网络中k个层特征融合模块的输出特征进行拼接后的特征,fc(·)表示全连接层,gp(·)表示全局池化操作,relu(·)表示线性整流函数,σ(·)表示sigmod激活函数。特别的,fscale为各通道权重值,大小为1×1×c,其通道数c与保持一致。表示各通道权重值分别与原特征图对应通道的二维矩阵相乘。为经过通道注意力模块后的特征,该特征作为第一个基准网络最后一个对应层的后续网络的输入特征。

步骤s43、将经过s12步骤的训练集输入到步骤s41至步骤s42中设计的图像主题特征分类与美学评分分布预测多任务网络,该网络中两个基准网络分别使用步骤s24和步骤s34中相对应部分的参数作为初始参数,网络中其它部分的参数随机初始化。使用该网络预测得到图像美学评分分布与图像主题特征分布

步骤s44、根据图像主题特征分类与美学评分分布预测的多任务网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;

图像主题特征分类与美学评分分布预测的多任务网络的损失函数如下:

l=wsls+wtlt

其中,ws与wt是各损失的权重,lt是步骤s23中的图像主题分类网络的损失函数,ls是步骤s33中的图像美学评分分布预测网络的损失函数。

步骤s45、以批次为单位重复上述步骤s43至步骤s44,直至步骤s44中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题特征分类与美学评分分布预测的多任务网络的训练过程。

进一步地,步骤s5具体包括以下步骤:

步骤s51、将测试集中的图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的图像美学评分分布p与主题特征k。

步骤s52、计算美学评分分布p的平均值,得到图像美学质量分数μ。计算公式如下:

其中,psi表示评分为si的概率,si表示第i个得分,a表示分数个数。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1