1.本发明涉及多媒体质量评价技术领域,具体地,涉及一种基于深度学习的手机游戏图像的多维度美学质量评价方法、设备及介质。
背景技术:2.近年来,全球游戏产业发展迅速。随着移动互联网应用范围的扩大,手机游戏已成为全球游戏市场中规模最大、增长最快的部分。5g商用的正式落地,将以其高速便捷的网络基础,推动云游戏、电子竞技、vr等产业的快速发展。为了跟上游戏行业的发展趋势,游戏开发商需要不断提升手机游戏的质量,以在竞争中取得优势。对手机游戏画面的审美评估,对于游戏内容质量的优化、游戏类型的创新、网络云游戏的发展都有很大的帮助。因此,有必要高效、准确地评价手游画面的美学质量。
3.在过去的几十年间,研究者们提出了大量的客观图像质量评价方法,这些图像质量评价方法旨在自动评估图像的失真程度,例如图像在图像采集、压缩、处理、传输、显示等过程中发生失真。而美学质量评价希望模拟人类对美的感知和认知,自动评价图像的“美感”,这是由拍摄或渲染的图像画面的构图、色彩、光影、景深、虚拟现实等审美因素决定的,和传统的图像质量评价是有差异的。
4.传统的美学质量评价方式使用手工设计的特征,这需要大量的专业知识,例如wong等人在文章《l.-k.wong and k.-l.low,“saliency-enhanced image aesthetics class prediction,”in ieee international conference on image processing.ieee,2009,pp.997-1000.》中,提出了一种结合视觉注意力的美学评价方式,裁剪图像中显著性强的区域提取特征,然后通过svm进行质量的预测。近几年,美学质量评价以深度学习的方式为主,lu等人在文章《x.lu,z.lin,h.jin,j.yang,and j.z.wang,“rapid:rating pictorial aesthetics using deep learning,”in acm international conference onmultimedia,2014,pp.457-466.》中,提出rapid(rating pictorial aesthetics using deep learning)模型,首次尝试将cnn用在美学质量评价领域,并且设置了双路cnn进行全局特征提取和局部特征提取;talebi等人在文章《h.talebi and p.milanfar,“nima:neural image assessment,”ieee transactions on image processing,vol.27,no.8,pp.3998-4011,2018.》中提出了nima(neural image assessment)模型,以深度cnn提取特征,尝试预测质量分布;hosu等人在文章《v.hosu,b.goldlucke,and d.saupe,“effective aesthetics prediction with multi-level spatially pooled features,”in ieee/cvf conference on computer vision andpatternrecognition,2019,pp.9375-9383.》中提出了multi-level spatiallypooled(mlsp)模型,尝试使用cnn提取多层深度特征,用来表征图像美学质量。
5.尽管这些方法取得了非常不错的效果,但是目前还缺乏针对手机游戏图像的多维度美学质量评价的方法,以往的方法在手机游戏图像的评价方面缺乏很好的泛化性能,主要原因在于以往的方法主要针对于自然场景的美学质量,而手机游戏图像的内容大多是虚
拟渲染得到的,因此很难直接将以往的方法直接用于手机游戏图像;另外,大多数方法都只用到了主观评价的mos分数指导设计客观方法,并没有充分的利用主观评价的结果,实际上主观评价的结果含有更加丰富的信息;
6.总而言之,当前的针对手机图像的多维度美学质量评价客观方法非常缺乏。
技术实现要素:7.针对现有技术中存在的上述不足,本发明的目的是提供一种手机游戏图像的多维度美学质量评价方法、设备及介质。
8.本发明的第一方面,提供一种手机游戏图像的多维度美学质量评价方法,包括:
9.对手机游戏图像,采用基于深度学习的特征提取网络进行美学特征提取,并将提取的所述美学特征进行融合;
10.在所述特征提取网络连接全连接层,通过所述全连接层将融合后的所述美学特征映射到不同的美学维度,得到对应的美学分数;所述特征提取网络和所述全连接层构成质量评价模型;
11.通过多任务学习训练所述质量评价模型,使所述质量评价模型能够预测手游图像的多维度美学特征;将待评价的手机游戏图像输入到训练后的所述质量评价模型,得到多维度美学质量分数。
12.可选地,所述采用基于深度学习的特征提取网络进行美学特征提取,其中选择resnet作为特征提取网络;
13.可选地,所述选择resnet作为特征提取网络,具体选择具有50层深度的resnet-50;
14.所述resnet-50包括5个阶段,分别设为:conv1,conv2,conv3,conv4,conv5;
15.根据resnet-50的架构,第一层的特征提取表示为:
16.f1=conv 1(i;φ
conv1
)
17.其中,f1表示第一层的特征输出结果;i表示输入的图像,即手机游戏图像;conv1()表示resnet-50的第一阶段的网络结构;φ
conv1
表示该阶段的模型参数;以此类推,其余阶段的特征输出分别表示为:
18.f2=conv 2(f1;φ
conv2
)
19.f3=conv 3(f2;φ
conv3
)
20.f4=conv 4(f3;φ
conv4
)
21.f5=conv 5(f4;φ
conv5
)
22.其中,f2、f3、f4、f5分别示第二层,第三层,第四层和第五层的特征输出结果,它们分别将上一层的特征输出作为本层的输入,conv2()、conv3()、conv4()、conv5()分别表示resnet-50的第二阶段、第三阶段、第四阶段、第五阶段的网络结构;φ
convj
表示相应阶段的模型参数,j取2,3,4,5。
23.可选地,所述将提取的美学特征进行融合,包括:
24.通过全局平均池化将高维度特征降维,再将降维后的多个特征进行融合;
25.其中,所述融合的方式为水平拼接,如下所示:
26.f(i;φ)=ω[gp(f2),gp(f3),gp(f4),gp(f5)]
[0027]
其中,f(i;φ)代表输入图像i的特征表示;i表示输入的图像,手机游戏图像;φ表示整个特征提取网络的所有参数;gp()表示全局平均池化;ω()表示沿着行的方向多个尺度的特征进行拼接,拼接为一个行向量作为融合后的特征。
[0028]
可选地,通过所述全连接层将融合后的所述美学特征映射到不同的美学维度,得到对应的美学分数,其中:通过质量回归模块,使用全连接层将所述的美学特征映射到不同的美学维度,得到对应的美学分数,并且不同的美学维度共享相同的美学特征。
[0029]
可选地,所述质量回归模块,输出为5个等级,分别是1,2,3,4,5,代表手机游戏图像美学质量的不同等级;
[0030]
所述全连接层,其输出后添加softmax层,用以生成每个分数的概率;
[0031]
所述使用全连接层将所述的美学特征映射到不同的美学维度,得到对应的美学分数,过程由下式描述:
[0032][0033]
其中,t=1,2,3,4,表示不同维度的美学预测分数的分布,总共有四个维度,分别是图像细节,图像色彩,图像色彩协调和总体美学质量;fc
t
表示4个不同的全连接层网络,它们的网络参数分别是
[0034]
将分数的分布转换为单一的mos分数,以便于和主观进行分析对比,转换方式如下式所示:
[0035][0036][0037]
其中,μ表示某个美学维度分数均值,而σ2表示分数的方差,1≤i≤5,si=i表示分数的5个等级,i的取值从1到n,n=5;表示每个等级对应的概率,概率值处于0到1之间。
[0038]
可选地,所述质量评价模型,训练采用基于emd损失的损失函数,表述为如下公式:
[0039][0040][0041]
其中,表示两个分布y,之间的emd距离;n表示分数的等级数目;cdfy(k)表示y的累积分布函数。
[0042]
可选地,所述多任务学习训练中,采用自动加权损失来平衡多个任务之间的损失,具体损失加权方式如下:
[0043][0044]
其中,表示整个任务的总体损失,表示某个任务的损失,这里,t=4表
示有4个任务,分别对应预测四个维度的分数,四个维度分别是图像细节,图像色彩,图像色彩协调和总体美学质量;通过引入可学习的变量σ
t
,来对每个任务的损失进行平衡,并且引入正则项来避免某个任务的权重被过分减小。
[0045]
本发明的第二方面,提供一种多维度美学质量评价设备,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,其所述处理器执行所述程序时用于执行上述的手机游戏图像的多维度美学质量评价方法。
[0046]
本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述的手机游戏图像的多维度美学质量评价方法。
[0047]
与现有技术相比,本发明具有如下有益效果:
[0048]
本发明提供的基于深度学习的手机游戏图像的多维度美学质量评价方法,通过深度神经网络提取手机游戏图像中与美学质量相关的特征,将特征映射到多个维度的美学分数,通过多任务学习的方式进行训练,得到的深度模型可以有效地评价手游图像的美学质量,更符合人眼的主观看法。
[0049]
本发明提供的基于深度学习的手机游戏图像的多维度美学质量评价方法,经过特征回归模块将特征映射到多个维度(图像细节,图像色彩,图像色彩协调和总体美学质量)的美学分数,在多任务学习训练中,引入超参数平衡每个任务的loss,同时每个美学维度的分数预测任务共享上述的深度特征,通过这种方式对设计的深度学习网络进行训练,可以让网络具有良好的美学质量评价能力。
附图说明
[0050]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0051]
图1为本发明一实施例中手机游戏图像的多维度美学质量评价方法总体流程框图。
[0052]
图2为本发明一实施例的深度特征提取示意图。
具体实施方式
[0053]
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
[0054]
以往的方法主要针对于自然场景的美学质量,而手机游戏图像的内容大多是虚拟渲染得到的,因此很难直接将以往的方法直接用于手机游戏图像。针对此种情况,本发明实施例提供以下解决方案,用于解决针对手机游戏图像的美学质量评价。
[0055]
图1为本发明一实施例中手机游戏图像的多维度美学质量评价方法总体流程框图。参照图1所示,本实施例中手机游戏图像的多维度美学质量评价方法,包括如下步骤:
[0056]
s1:针对手机游戏图像,采用基于深度学习的特征提取网络进行美学特征提取,将提取的美学特征进行融合;美学特征是深度特征,即基于深度学习的特征提取网络的不同阶段的输出;
[0057]
s2:在特征提取网络后连接全连接层,通过全连接层将s1融合后的美学特征映射到不同的美学维度,得到对应的美学分数;特征提取网络和全连接层构成质量评价模型;
[0058]
s3:通过多任务学习训练上述的质量评价模型,使得质量评价模型可以很好的预测手游图像的多维度美学分数。将待评价的手机游戏图像输入到质量评价模型,即可得到多维度美学质量分数。
[0059]
本实施例通过基于深度学习的特征提取网络提取手机游戏图像中与美学质量相关的特征,然后将特征映射到多个维度(图像细节,图像色彩,图像色彩协调和总体美学质量)的美学分数,可以有效地评价手游图像的美学质量。采用多任务学习训练上述的质量评价模型,这种训练方式可以让模型打分更准确,更符合人眼的主观看法。
[0060]
为了执行上述步骤s1中,通过深度学习进行美学质量相关的特征提取,则首先需要选择具体的特征提取网络。当前有很多深度网络架构在计算机视觉领域取得了卓越的效果并且广泛的应用到下游任务中,本发明实施例中选择resnet作为特征提取的主干网络,原因在于resnet中的跳跃连接(skipped connection)可以显著的增加神经网络的深度,从而更好的提取图像的高层语义特征。
[0061]
进一步的,考虑到时间效率问题,在一优选实施例选择具有50层深度的resnet-50作为特征提取网络,并且不仅用到了网络的最后一层特征,同时也用到了网络的中间层特征;resnet-50包括5个阶段(stage),如下表所示:
[0062]
表1.resnet-50架构,输入图像分辨率为224x224
[0063][0064]
具体的,根据resnet-50的架构,第一层的特征提取可以表示为:
[0065]
f1=conv 1(i;φ
conv1
)
[0066]
其中,f1表示第一层的特征输出结果;i表示输入的图像,特指手机游戏图像;conv1()表示resnet-50的第一阶段的网络结构;φ
conv1
表示该阶段的模型参数。以此类推,其余阶段的特征输出可以分别表示为:
[0067]
f2=conv 2(f1;φ
conv2
)
[0068]
f3=conv 3(f2;φ
conv3
)
[0069]
f4=conv 4(f3;φ
conv4
)
[0070]
f5=conv 5(f4;φ
conv5
)
[0071]
其中,f2、f3、f4、f5分别示第二层,第三层,第四层和第五层的特征输出结果,它们
分别将上一层的特征输出作为本层的输入,conv2()、conv3()、conv4()、conv5()分别表示resnet-50的第二阶段、第三阶段、第四阶段、第五阶段的网络结构;φ
convj
表示相应阶段的模型参数,j取2,3,4,5。
[0072]
本实施例中,提取特征网络采用resnet-50,通过提取特征提取网络的各个中间层特征,然后整合为特征向量,以此充分利用深度神经网络的浅层信息和深层信息。当然,在其他实施例中,也可以采用其他的深度神经网络,并不局限于上述的resnet-50。
[0073]
在一些实施例中,执行上述步骤s1中,将提取的美学特征进行融合,可以优选以下操作,即特征融合阶段分为两个过程:
[0074]
第一,首先通过全局平均池化(global average pooling)将高维度特征降维;
[0075]
第二,将降维后的多个特征进行融合;
[0076]
具体的,上述融合的方式为水平拼接,如下所示:
[0077]
f(i;φ)=ω[gp(f2),gp(f3),gp(f4),gp(f5)]
[0078]
其中,f(i;φ)代表输入图像i的特征表示,;i表示输入的图像,特指手机游戏图像;φ表示整个特征提取模块的所有参数;gp()表示全局平均池化(global averagepooling),池化的目的在于降维;ω()表示沿着行的方向多个尺度的特征进行拼接,拼接为一个行向量作为融合后的特征。
[0079]
在一些实施例中,执行上述步骤s2,具体可以通过质量回归模块,使用全连接层将美学特征映射到不同的美学维度,得到对应的美学分数,并且不同的美学维度共享相同的美学特征,通过共享的方式可以有效地减少网络的复杂程度,并且更好让网络更好地学习不同维度之间的内在关系,以提升最终评价模型的评价的准确性。具体的,质量回归模块中,直接预测美学质量分数的分布,而不是一个单一的mos(mean opinion score)分数。原因在于,美学质量评价具有很高的主观性,单一的mos分数不足以充分反应手机游戏图像的美学质量,常见的,具有相同mos分数的手机游戏图像,众多观测者给出的评分分布可能会大不相同,有的情况下分数会比较集中,也就是方差较小,而有些情况下分数会比较分散,也就是方差很大,因此,选择各个维度分数的分布作为预测的label是符合主观评价的操作方式的,也是能够充分利用主观评分数据的。比如在一实施例中,质量回归模块的输出定为5个等级,分别是1,2,3,4,5,代表手机游戏图像美学质量的不同等级,由1到5美学质量依次提升,分别为差,较差,一般,好,很好。全连接层的输出后添加softmax层,用以生成每个分数的概率。具体的,该过程可以由下式描述:
[0080][0081]
其中,表示不同维度的美学预测分数的分布,总共有四个维度,分别是(图像细节,图像色彩,图像色彩协调和总体美学质量),fc
t
(t=1,2,3,4)表示4个不同的全连接层网络,它们的网络参数分别是在后续的处理中,将分数的分布转换为单一的mos分数,以便于和主观进行分析对比,转换方式如下式所示:
[0082]
[0083][0084]
其中,μ表示某个美学维度分数均值,而σ2表示分数的方差,si=i(1≤i≤5)表示分数的5个等级;表示每个等级对应的概率,概率值处于0到1之间。
[0085]
为了提高质量评价的性能,在执行步骤s3时,通过多任务学习训练深度模型,具体的,质量评价模型的训练需要指定损失函数,在一些实施例中,损失函数的选择为earth mover's distance (emd)损失,可以表述为如下公式:
[0086][0087][0088]
其中,表示两个分布y,之间的earth mover's distance;n表示分数的等级数目,比如,一实施例中n=5;cdfy(k)表示y的累积分布函数;在多任务学习模型的训练过程中,多个任务之间的平衡是一个非常重要的内容,在本发明在一些实施例中,采用了automatic weighted loss来平衡多个任务之间的损失,具体的,选择如下的损失加权方式:
[0089][0090]
其中,表示整个任务的总体损失,表示某个任务的损失,这里,t=4表示有4个任务,分别对应预测四个维度的分数;通过引入可以学习的变量σ
t
,来对每个任务的损失进行平衡,并且引入正则项来避免某个任务的权重被过分减小。
[0091]
质量评价模型按照上述的多任务学习方式进行训练,即可对手机游戏图像的多维度美学质量进行良好的评价。在评价过程中,需要将待评价图像输入训练好的质量评价模型,即可输出相应的多维度美学质量分数。分数和质量是正相关,分数越高,质量越好,比如,由1到5美学质量依次提升,分别为差,较差,一般,好,很好。
[0092]
基于上述相同的技术构思,在本发明另一实施例中,还提供一种多维度美学质量评价设备,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行上述任一项实施例中的手机游戏图像的多维度美学质量评价方法。
[0093]
基于上述相同的技术构思,在本发明另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述任一实施例中的手机游戏图像的多维度美学质量评价方法。
[0094]
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram),如静态随机存取存储器(英文:static random-access memory,缩写:sram),双倍数据率同步动态随机存取
存储器(英文:double data rate synchronous dynamic randomaccess memory,缩写:ddr sdram)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
[0095]
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
[0096]
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
[0097]
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
[0098]
此外,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
[0099]
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外,该asic可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
[0100]
实施效果:
[0101]
为了对本发明上述实施例中得到的质量评价模型的有效性进行验证,可以在multi-dimensional aesthetic assessment for mobile game image database(mamg)数据库上对算法进行测试。mamg数据库是一个多维度手机游戏图像质量美学评价的主观数据库,包含了从100款手机游戏中截取的1091张手机游戏画面,并进行了合理的主观实验对这些图片给出了观测者的评价。实验利用pearson linear correlation coefficients(plcc),spearman rank order correlation coefficients(srcc),kendall rank order correlation coefficient(krocc)和root mean square error(rmse)作为衡量标准,来评价算法的性能。
[0102]
性能测试结果如表1所示,从表中可以看到,上述的多维度手机游戏图像美学质量评价的方法使用十分有效的。在测试数据集上,相比其他算法,取得了最优的性能。
[0103]
表1
[0104][0105]
本发明上述优选实施例提供的基于深度学习的手机游戏图像的多维度美学质量评价方法,通过深度神经网络提取手机游戏图像中与美学质量相关的特征,然后经过特征回归模块将特征映射到多个维度(图像细节,图像色彩,图像色彩协调和总体美学质量)的美学分数。通过多任务学习的方式进行训练,并且引入超参数平衡每个任务的loss,同时每个美学维度的分数预测任务共享上述的深度特征。可以有效地对手机游戏图像的多维度美学质量进行评价。
[0106]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。