构图评价方法、摄影方法、装置、电子设备、存储介质与流程

文档序号:19282372发布日期:2019-11-29 23:05阅读:219来源:国知局
构图评价方法、摄影方法、装置、电子设备、存储介质与流程

本发明涉及自动摄影技术领域,尤指构图评价方法、摄影方法、装置、电子设备、存储介质。



背景技术:

生产生活实践中,人们采用诸如相机等摄影装置通过光学成像原理,以获取图像、影像,并记录图像、影像。一般而言,需要诸如摄影师通过人力操作摄影装置,从而获取预设拍摄目标的图像、影像。通常而言,摄影的基础在于构图,也即是选择拍摄目标及将拍摄目标以一定大小、比例置于相应的构图框中,并最终在画幅中得以展现,进而得到相应的可承载拍摄目标相关信息的材质上。

良好的构图能使照片清楚地表达意境和现场环境氛围,然而如何评价构图的好坏是一个十分困难而复杂的事情,构图评价本身是一个十分主观的问题。传统的构图评价方法,多是结合摄影师的经验,从底层视觉信息对构图做审美评价。如何从量化的角度更全面地评价构图的好坏,是一个值得进一步探索的问题。



技术实现要素:

本发明的目的之一是为了克服现有技术中存在的至少部分不足,提供构图评价方法、摄影方法、装置、电子设备、存储介质,从图像的浅层特征和深层特征对摄影构图做全面的评价,从而输出符合人类审美要求的照片。

本发明提供的技术方案如下:

一种摄影构图评价方法,包括:提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标;基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价;基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

进一步优选的,所述基于深度学习方法的构图评价模型对所述构图框进行评价之前包括:获取若干添加了构图框的图像、以及每个构图框的标签,得到构图数据集;用所述构图数据集训练深度学习网络,所述深度学习网络的深层特征用于构图评价;当所述深度学习网络收敛时,得到构图评价模型。

进一步优选的,所述的所述深度学习网络的深层特征用于构图评价还包括:所述深度学习网络的深层特征和至少一个浅层特征相结合用于构图评价。

进一步优选的,所述基于所述特征信息对所述构图框进行评价包括:基于所述特征信息的随机森林分类模型对所述构图框进行评价。

进一步优选的,所述提取构图框的框内图像的特征信息包括:根据拍摄目标的中心与构图框中九宫格的四个交叉点的距离信息,得到几何构图特征因子;和/或,当拍摄目标为单人时,根据所述拍摄目标的人脸朝向得到视觉均衡特征因子;当拍摄目标为多人时,根据所述拍摄目标的人物重心得到视觉均衡特征因子;和/或,当拍摄目标为人物时,根据所述拍摄目标的人体关键节点在构图框中的完整度,得到人体关键点的完整性特征因子;和/或,当拍摄目标为人物时,根据所述拍摄目标的表情,得到表情特征因子;和/或,当拍摄目标为人物时,根据构图框的背景像素的直方图统计,得到背景颜色简洁性特征因子。

本发明还提供一种摄影构图评价方法,包括:提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标;基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价;判断所述第一次评价是否满足预设条件;当所述第一次评价不满足预设条件时,根据所述第一次评价得到所述构图框的综合评价;当所述第一次评价满足预设条件时,采用基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;以及,根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

本发明还提供一种自动摄影方法,包括:生成包含有拍摄目标的构图框;根据前述中任一项所述的摄影构图评价方法对所述构图框进行评价,得到综合评价;根据所述综合评价控制所述构图框的输出;当摄影部件收到所述构图框时,按照所述构图框进行摄影。

本发明还提供一种摄影构图评价装置,包括:特征提取模块,用于提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标;第一评价模块,用于基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价;第二评价模块,用于基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;综合评价模块,用于根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

进一步优选的,还包括:模型构建模块,用于获取若干添加了构图框的图像、以及每个构图框的标签,得到构图数据集;以及,用所述构图数据集训练深度学习网络,所述深度学习网络的深层特征用于构图评价;当所述深度学习网络收敛时,得到构图评价模型。

进一步优选的,所述模型构建模块,进一步用于用所述构图数据集训练深度学习网络,所述深度学习网络的深层特征和至少一个浅层特征相结合用于构图评价。

进一步优选的,所述第一评价模块,进一步用于基于所述特征信息的随机森林分类模型对所述构图框进行评价。

进一步优选的,所述特征提取模块,进一步用于根据拍摄目标的中心与构图框中九宫格的四个交叉点的距离信息,得到几何构图特征因子;和/或,当拍摄目标为单人时,根据所述拍摄目标的人脸朝向得到视觉均衡特征因子;当拍摄目标为多人时,根据所述拍摄目标的人物重心得到视觉均衡特征因子;和/或,当拍摄目标为人物时,根据所述拍摄目标的人体关键节点在构图框中的完整度,得到人体关键点的完整性特征因子;和/或,当拍摄目标为人物时,根据所述拍摄目标的表情,得到表情特征因子;和/或,当拍摄目标为人物时,根据构图框的背景像素的直方图统计,得到背景颜色简洁性特征因子。

本发明还提供一种摄影构图评价装置,包括特征提取模块,用于提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标;第一评价模块,用于基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价;判断模块,判断所述第一次评价是否满足预设条件;综合评价模块,用于当所述第一次评价不满足预设条件时,根据所述第一次评价得到所述构图框的综合评价;第二评价模块,用于当所述第一次评价满足预设条件时,采用基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;所述综合评价模块,进一步用于根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

本发明还提供一种自动摄影装置,包括:构图框生成模块,用于生成包含有拍摄目标的构图框;前述中任一项所述的摄影构图评价装置,用于对所述构图框进行评价,得到综合评价;构图框输出模块,用于根据所述综合评价控制所述构图框的输出;摄影部件,用于当收到所述构图框时,按照所述构图框进行摄影。

本发明还提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于运行所述计算机程序,实现前述中任一项所述的摄影构图评价方法。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述中任一项所述的摄影构图评价方法。

通过本发明提供的构图评价方法、摄影方法、装置、电子设备、存储介质,能够带来以下有益效果:

1、本发明提供的摄影构图评价方法,既从局部信息或者底层视觉信息、又从整体信息或深层次信息对构图的好坏进行评价,既考虑了传统的特征信息,又考虑了画面的和谐性、构图内容的完整性,评价更全面。

2、本发明提供的自动摄影方法,通过构图评价的提升促进构图质量的提升,从而避免输出低质量的照片,进而避免低质量照片占用诸如内存资源、增加损耗等。

3、本发明能够替代人力实现自动拍摄,避免人体生理疲倦及主观因素对拍摄的影响。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对一种构图评价方法、摄影方法、装置、电子设备、存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明的一种摄影构图评价方法的一个实施例的流程图;

图2是本发明的一种摄影构图评价方法的另一个实施例的流程图;

图3是本发明的一种摄影构图评价方法的另一个实施例的流程图;

图4是本发明的一种自动摄影方法的一个实施例的流程图;

图5是本发明的一种摄影构图评价装置的一个实施例的结构示意图;

图6是本发明的一种摄影构图评价装置的另一个实施例的结构示意图;

图7是本发明的一种摄影构图评价装置的另一个实施例的结构示意图;

图8是本发明的一种电子设备的一个实施例的结构示意图;

图9是本发明的一种摄影构图评价方法中视觉平衡的一个示例;

图10是本发明的一种自动摄影装置的一个实施例的结构示意图;

图11是本发明的一种自动摄影装置的一个实施例的立体结构示意图。

附图标号说明:

100.摄影构图评价装置,110.特征提取模块,120.第一评价模块,130.第二评价模块,140.综合评价模块,150.模型构建模块,160.判断模块,200.构图框生成模块,300.构图框输出模块,500.自动摄影装置,502.摄影部件,400.电子设备,410.存储器,420.处理器,430.计算机程序,440.总线。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。

可以理解的是,根据需要,拍摄目标,可以是儿童或成人,也可以是一个或多个其他人物,还可以是其他动物、植物、风景或建筑等,还可以是前述对象中的任意组合。“构图框”指的是具有一定形状及尺寸的闭合框,其内用于限定摄影画面的形状、大小,从而实现对拍摄目标的相对位置的选择。一般而言,“构图框”为矩形框。更具体地,“构图框”为左右宽度大于上下高度的矩形框。根据需要,在诸如相机旋转90度实现竖拍时,“构图框”的上下高度则大于左右宽度。相应地,当构图框选定时,并输出诸如照片等影像时,构图框的形状对应于画幅。

另外,如无特别说明,在本发明中出现的“上、下”、“左、右”、“前、后”、“一、另一”等均为相对概念。另外,本发明中出现的术语“第一”、“第二”等仅用于描述方便,并不理解为指示或暗示相对重要性或明确限定先后顺序。

在本发明的一个实施例中,如图1所示,一种摄影构图评价方法,包括:

步骤s200提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标。

步骤s300基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价。

具体的,根据需要,拍摄目标可以为成人或儿童,可以是一个或多个其他人物。采用习知的人脸识别技术可以识别构图框内是否包含拍摄目标。但包含有拍摄目标的构图框不一定是一个好的构图,为了避免产生低质量照片,尽可能输出符合人类审美要求的照片,需要对构图框的构图进行评价。

首先对构图框的框内图像进行特征信息提取。特征信息通常是根据传统的摄影经验,多从构图的底层视觉信息上提取,且可通过有限的、或简单的数学知识表达,比如,拍摄目标为人物时,拍摄目标在构图框中的位置特征(比如,通过拍摄目标的中心与构图框各边的距离信息反映)、拍摄目标在构图框中的尺寸特征。基于拍摄目标在构图框中的位置特征,可以判断拍摄目标是处于中心位置,还是构图框的边缘,如果处于构图框的边缘,则构图不理想;如果处于画幅中相对中心位置,则构图符合人的审美习惯;基于拍摄目标在构图框中的尺寸特征,可以判断拍摄目标尺寸在构图框中是否太小,如果尺寸太小,则构图不理想。

以上特征信息是部分传统摄影经验的一种或多种数学表达,这种数学表达需要人工预先定义,机器根据该预先定义的数学表达从具体的构图框中提取对应的特征信息值,再根据这些特征信息值对构图框的构图进行评价,得到第一次评价。

步骤s400基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价。

具体的,人工特征提取比较费力,而且人工所能提取的特征也比较有限,多为浅层特征,有一些特征(如深层特征)还无法通过有限的数学知识表达出来,比如图像所呈现的意境、画面的和谐性等。

深度学习是一种机器学习算法,其好处是不需要人工提取特征,通过监督式学习能够自动提取特征,不仅能提取出浅层特征,还能提取出深层特征,通过复杂的数学知识表达出来。深度学习网络是一种具有多隐层的神经网络,以经典的卷积神经网络alexnet为例,有1个输入层、6个隐层、1个输出层,共8层,每层有上千个神经元,每层输出为数据的一种特征,且特征层次随处理层次的增加而提高,比如,第一层为图像的边缘特征,第二层为图像的颜色特征,第三层为图像的亮度特征,……第八层为图像的和谐性特征,网络的前几层反映了图像的局部特征,又叫浅层特征,比如图像的边缘、颜色、亮度等特征,网络的最后一层,即顶层反映了图像的整体特征,又叫深层特征,比如图像的和谐性特征。

对深度学习网络进行训练时,可以仅将深层特征应用于构图评价,也可以将深层特征和浅层特征组合应用于构图评价。当深度学习网络收敛时,得到构图评价模型。使用该构图评价模型对构图框进行评价,得到该构图框的第二次评价。

步骤s500根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

具体的,基于深度学习的构图评价(即第二次评价)不能完全取代第一次评价,即使构图评价模型考虑了深层特征和浅层特征,也会有问题,原因是:一、深度学习学习出来的特征缺乏可解释性,为什么好,为什么不好,无法明确的说明;二、深度学习学习出来的特征很大程度依赖于数据集,数据集的分布和丰富程度会限制它的作用;正是因为上述两个原因,会导致基于深度学习方法的构图评价模型的泛化能力出现不可控的情况,即深度学习算法缺乏常识。

第一次评价是从人工定义的特征进行评价。人工定义的特征,即传统特征,多为浅层特征,其可解释性是有保证的,泛化能力也比深度学习更有保障,所有对于明确好的特征和明确不好的特征,用传统特征去描述是更合适的,并且还可以大量的减少计算量。但是传统特征也有它本身的问题,目前人工还很难定义深层特征,比如整张图片的和谐性等,而这些高层次的东西,正好是深度学习神经网络比较擅长的。

第二次评价考虑了机器深度学习到的深层特征,两者相结合才能得到更全面的评价,既考虑了可解释性特征,也考虑了不可描述的深层特征(即高层语义特征),这样才能全面的去评价构图的好坏,既有细节,也有整体,泛化能力更有保障。

根据第一次评价和第二次评价得到综合评价。只有当综合评价高时,才会进一步输出构图框,进行摄影;通过构图评价的提升促进了构图质量的提升,从而避免输出低质量的照片,进而避免低质量照片占用诸如内存资源、增加损耗等。

在本发明的另一个实施例中,如图2所示,一种摄影构图评价方法,包括:

步骤s100获取若干添加了构图框的图像、以及每个构图框的标签,得到构图数据集;

步骤s110用所述构图数据集训练深度学习网络,所述深度学习网络的深层特征用于构图评价;

步骤s130当所述深度学习网络收敛时,得到构图评价模型。

具体的,采用大规模数据集,比如数百万张图像,对每张图像添加构图框,并打上标签,得到构图数据集。由于构图评价主观性较强,存在明显的个体差异,因此,对于构图框内图像的标注,一般采用多人对同一幅图像进行标注,之后取所有人的平均标注作为图像的最终标签。

深度学习网络结构采用经典的卷积神经网络,比如alexnet,也可以采用zfnet、或googlenet等,此处不做限定,其中,将网络的最后一层特征(即顶层特征,它反映了图像的深层特征)用于构图评价。

用得到的构图数据集训练深度学习网络,使之学习到图像与标签之间的映射。当该深度学习网络收敛时(比如,收敛准则为:构图数据集中每个构图框的评价输出与所述构图框的标签一致;或构图数据集中评价输出与标签一致的构图框的比例达到预设数目),得到构图评价模型。

优选的,在深度学习网络结构中将网络的深层特征和至少一层浅层特征相结合用于构图评价。网络的深层特征即顶层特征,浅层特征是相对深层特征而言,可以为任意非顶层特征,比如第一层特征、或第二层特征等。浅层特征包括图像的边缘、颜色、亮度等,深层特征刻画了图像内容的完整性,比如画面的和谐性等,把浅层特征和深层特征融合在一起能更完整刻画图像的美感,从而使基于深度学习方法得到的构图评价模型的评价更准确。

步骤s200提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标。

所述特征信息包括几何构图特征因子、和/或视觉均衡特征因子、和/或人体关键点的完整性特征因子、和/或表情特征因子、和/或背景颜色简洁性特征因子。根据不同类型的摄影,比如人物照,可以选择几何构图特征因子、视觉均衡特征因子、人体关键点的完整性特征因子、表情特征因子、和背景颜色简洁性特征因子;纯自然风景照,可以选择几何构图特征因子。

九宫格构图法是拍照常用的构图法则之一,其含义是,将构图框用两条垂直线、两条水平线各等分成三份后,把人物放置在四个分割线的交叉点上,这四个点就是画面重点。此构图法可使画面整体平衡感较佳,也可以强调出拍摄主体与次要主体之间的对比关系。基于该法则,根据拍摄目标的中心与构图框中九宫格的四个交叉点的距离信息计算几何构图特征因子,从而衡量构图是否符合九宫格构图法则。

可进一步采用以下公式计算几何构图特征因子:

其中,f1为几何构图特征因子,(crx,cry)为拍摄目标的中心坐标,(pix,piy)为目标构图框中九宫格的四个交叉点的坐标,x和y为目标构图框的宽和高。

视觉均衡特征因子主要用于衡量构图本身的视觉平衡状态。当拍摄目标为单人时,主要根据拍摄目标的人脸朝向来判断视觉平衡;如图9所示,人脸朝向向右,人的身体在构图框里面的位置是左侧,所以视觉上是平衡的;如果人的身体在右侧,与人脸朝向一致,则视觉上是不平衡的。

当拍摄目标为多人时,为了衡量多人空间布局的合理性,通过人体检测方法,计算每个人在构图中的重心位置;根据每个人的重心位置得到多人的重心位置,根据该多人的重心位置在构图框中的位置信息从而计算构图的视觉平衡状态。如果多人的重心位置在构图框的边缘位置,则为不平衡状态;如果多人的重心位置位于构图框的中心区域时,则为平衡状态。比如,3个人在构图框的左边,1个人在构图框的右边,人物重心在左边,视觉上不平衡,此构图不好。

人体关键点的完整性特征因子主要是为了惩罚构图中出现截头、截手、截脚等情况。当拍摄目标为人物时,根据拍摄目标的人体关键节点在构图框中的完整度,得到人体关键点的完整性特征因子。通过图像识别提取人体关键点,再判断人体关键节点在构图框内的完整程度。

表情特征因子用来反应拍摄目标的表情。当拍摄目标为人物时,通过人脸识别技术确定构图框内拍摄目标的表情,比如表情定义三种状态:笑、中性、不好表情,从而得到表情特征因子。

背景颜色简洁性特征因子主要用于衡量背景颜色的简洁度。当拍摄目标为人物时,根据构图框的背景像素的直方图统计,得到背景颜色简洁性特征因子。根据背景像素的直方图统计结果,统计出大于预设数量的像素类别,当像素类别比较大时,则表现为背景颜色复杂,不够简洁。

比如,将构图框的背景区域rgb三个通道的像素值分别量化到16级,所以共有4096种像素组合。计算像素分布的直方图统计,可根据下面公式得到背景颜色简洁性特征因子f5:

其中,s={i|his(i)≥γhmax}表示数量占比大于预设比例的背景像素集合,γ为预设系数,hmax为直方图的最大统计分量,his(i)为直方图中像素i的统计量,||s||表示集合s的元素个数。当γ取0.01,f5处于(0,1.5%]时,则背景颜色简洁;否则为背景颜色不简洁。

步骤s310基于所述特征信息的随机森林分类模型对所述构图框进行评价,得到所述构图框的第一次评价。

具体的,随机森林分类也是一种机器学习算法,是一种包含多个决策树、基于多数投票机制的分类器,每个决策树根据输入的一些特征进行投票,该特征需要人工定义,选择投票最多的分类结果作为最后的预测结果。比如,一个包含m棵决策树的随机森林分类器,将新数据投入到这m棵决策树中,每棵决策树都有一个分类结果,共得到m个分类结果,对分类结果进行统计,将票数最多的分类结果作为最后的预测结果。

将随机森林分类算法应用到构图框的构图评价中,结合人工定义的特征,通过大量的样本训练得到用于构图评价的随机森林分类模型。该模型的构建方法如下:获取若干添加了构图框的图像、以及构图框的标签,得到构图数据集;按照人工定义的特征对构图数据集的每个构图框提取相应的特征信息;将构图数据集的每个构图框的特征信息和标签输入随机森林分类模型进行训练,使之学习到特征信息与标签之间的映射;当该分类模型收敛时(比如,收敛准则为:针对每个构图框的评价输出与所述构图框的标签一致),得到训练好的随机森林分类模型。

以人物照为例,选择几何构图特征因子、视觉均衡特征因子、人体关键点的完整性特征因子、表情特征因子、和背景颜色简洁性特征因子等特征信息,根据上述特征信息的人工定义,对一个待评价的构图框进行相应的特征信息提取,将所提取的特征信息输入预先构建的随机森林分类模型,得到该模型的评价输出,将该评价输出作为构图框的第一次评价。

步骤s400基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价。

步骤s500根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

本实施例的第一次评价是根据人工定义的特征和随机森林分类模型得到,随机森林分类模型是通过大数据训练得到,相比根据人工经验定义的特征信息与构图评价之间的映射关系,它能得到更准确的映射关系,从而提高了第一次评价的准确度,进而提高了综合评价的准确度。

在本发明的另一个实施例中,如图3所示,一种摄影构图评价方法,包括:与前述实施例相比,相同之处不再重述,不同之处在于步骤s310之后,包括:

步骤s320判断所述第一次评价是否满足预设条件;

步骤s330当所述第一次评价不满足预设条件时,根据所述第一次评价得到所述构图框的综合评价;

步骤s410当所述第一次评价满足预设条件时,采用基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;

步骤s510根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

具体的,如果第一次评价不满足预设条件,比如低于某个预设门限时,说明基于传统特征的评价不高,综合评价肯定不高,所以没必要进行第二次评价,这样可以降低系统的运算量,减小系统负荷。

在本发明的一个实施例中,如图4所示,一种自动摄影方法,包括:

步骤s600生成包含有拍摄目标的构图框。

具体的,根据需要,拍摄目标可以为成人或儿童。相应地,可以依据基于人像识别的计算机视觉技术,生成包含拍摄目标的构图框。此时,构图框中具有拍摄目标的影像,根据该构图框能够输出拍摄目标对应的照片等影像。

步骤s700采用前述中任意一种摄影构图评价方法对所述构图框进行评价,得到综合评价。

步骤s800根据所述综合评价控制所述构图框的输出。

步骤s900当摄影部件收到所述构图框时,按照所述构图框进行摄影。

本实施例,在自动摄影时,只有当构图框的综合评价高时,才会进一步输出该构图框,执行摄影。当综合评价低时,需要重新生成构图框,调整构图。这样可以通过构图评价避免输出低质量的照片,进而避免低质量照片占用诸如内存资源、增加损耗等。

为了提高自动摄影效率,可以同时生成多个构图框,分别对每个构图框执行摄影构图评价,得到每个构图框的综合评价。如果有多个构图框的综合评价达到最低输出要求,从中选择综合评价最高的构图框输出。如果没有构图框达到最低输出要求,则需要重新生成构图框。

在本发明的一个实施例中,如图5所示,一种摄影构图评价装置100,包括:

特征提取模块110,用于提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标。

第一评价模块120,用于基于所述特征信息对所述构图框进行评价,得到所述构图框的第一次评价。

具体的,根据需要,拍摄目标可以为成人或儿童。采用习知的人脸识别技术可以识别构图框内是否包含拍摄目标。但包含有拍摄目标的构图框不一定是一个好的构图,为了避免产生低质量照片,尽可能输出符合人类审美要求的照片,需要对构图框的构图进行评价。

首先对构图框的框内图像进行特征信息提取。特征信息通常是根据传统的摄影经验,多从构图的底层视觉信息上提取,且可通过有限的、或简单的数学知识表达,比如,拍摄目标为人物时,拍摄目标在构图框中的位置特征(比如,通过拍摄目标的中心与构图框各边的距离信息反映)、拍摄目标在构图框中的尺寸特征。基于拍摄目标在构图框中的位置特征,可以判断拍摄目标是处于中心位置,还是构图框的边缘,如果处于构图框的边缘,则构图不理想;如果处于画幅中相对中心位置,则构图符合人的审美习惯;基于拍摄目标在构图框中的尺寸特征,可以判断拍摄目标尺寸在构图框中是否太小,如果尺寸太小,则构图不理想。

以上特征信息是部分传统摄影经验的一种或多种数学表达,这种数学表达需要人工预先定义,机器根据该预先定义的数学表达从具体的构图框中提取对应的特征信息值,再根据这些特征信息值对构图框的构图进行评价,得到第一次评价。

第二评价模块130,用于基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价。

具体的,人工特征提取比较费力,而且人工所能提取的特征也比较有限,多为浅层特征,有一些特征(如深层特征)还无法通过有限的数学知识表达出来,比如图像所呈现的意境、画面的和谐性等。

深度学习是一种机器学习算法,其好处是不需要人工提取特征,通过监督式学习能够自动提取特征,不仅能提取出浅层特征,还能提取出深层特征,通过复杂的数学知识表达出来。深度学习网络是一种具有多隐层的神经网络,以经典的卷积神经网络alexnet为例,有1个输入层、6个隐层、1个输出层,共8层,每层有上千个神经元,每层输出为数据的一种特征,且特征层次随处理层次的增加而提高,比如,第一层为图像的边缘特征,第二层为图像的颜色特征,第三层为图像的亮度特征,……第八层为图像的和谐性特征,网络的前几层反映了图像的局部特征,又叫浅层特征,比如图像的边缘、颜色、亮度等特征,网络的最后一层,即顶层反映了图像的整体特征,又叫深层特征,比如图像的和谐性特征。

对深度学习网络进行训练时,可以仅将深层特征应用于构图评价,也可以将深层特征和浅层特征组合应用于构图评价。当深度学习网络收敛时,得到构图评价模型。使用该构图评价模型对构图框进行评价,得到该构图框的第二次评价。

综合评价模块140,用于根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

具体的,基于深度学习的构图评价(即第二次评价)不能完全取代第一次评价,即使构图评价模型考虑了深层特征和浅层特征,也会有问题,原因是:一、深度学习学习出来的特征缺乏可解释性,为什么好,为什么不好,无法明确的说明;二、深度学习学习出来的特征很大程度依赖于数据集,数据集的分布和丰富程度会限制它的作用;正是因为上述两个原因,会导致基于深度学习方法的构图评价模型的泛化能力出现不可控的情况,即深度学习算法缺乏常识。

第一次评价是从人工定义的特征进行评价。人工定义的特征,即传统特征,多为浅层特征,其可解释性是有保证的,泛化能力也比深度学习更有保障,所有对于明确好的特征和明确不好的特征,用传统特征去描述是更合适的,并且还可以大量的减少计算量。但是传统特征也有它本身的问题,目前人工还很难定义深层特征,比如整张图片的和谐性等,而这些高层次的东西,正好是深度学习神经网络比较擅长的。

第二次评价考虑了机器深度学习到的深层特征,两者相结合才能得到更全面的评价,既考虑了可解释性特征,也考虑了不可描述的深层特征(即高层语义特征),这样才能全面的去评价构图的好坏,既有细节,也有整体,泛化能力更有保障。

根据第一次评价和第二次评价得到综合评价。只有当综合评价高时,才会进一步输出构图框,进行摄影;通过构图评价的提升促进了构图质量的提升,从而避免输出低质量的照片,进而避免低质量照片占用诸如内存资源、增加损耗等。

在本发明的一个实施例中,如图6所示,一种摄影构图评价装置100,包括:

模型构建模块150,用于获取若干添加了构图框的图像、以及每个构图框的标签,得到构图数据集;以及,用所述构图数据集训练深度学习网络,所述深度学习网络的深层特征用于构图评价;当所述深度学习网络收敛时,得到构图评价模型。

具体的,采用大规模数据集,比如数百万张图像,对每张图像添加构图框,并打上标签,得到构图数据集。由于构图评价主观性较强,存在明显的个体差异,因此,对于构图框内图像的标注,一般采用多人对同一幅图像进行标注,之后取所有人的平均标注作为图像的最终标签。

深度学习网络结构采用经典的卷积神经网络,比如alexnet,也可以采用zfnet、或googlenet等,此处不做限定,其中,将网络的最后一层特征(即顶层特征,它反映了图像的深层特征)用于构图评价。

用得到的构图数据集训练深度学习网络,使之学习到图像与标签之间的映射。当该深度学习网络收敛时(比如,收敛准则为:构图数据集中每个构图框的评价输出与所述构图框的标签一致;或构图数据集中评价输出与标签一致的构图框的比例达到预设数目),得到构图评价模型。

优选的,在深度学习网络结构中将网络的深层特征和至少一层浅层特征相结合用于构图评价。网络的深层特征即顶层特征,浅层特征是相对深层特征而言,可以为任意非顶层特征,比如第一层特征、或第二层特征等。浅层特征包括图像的边缘、颜色、亮度等,深层特征刻画了图像内容的完整性,比如画面的和谐性等,把浅层特征和深层特征融合在一起能更完整刻画图像的美感,从而使基于深度学习方法得到的构图评价模型的评价更准确。

特征提取模块110,用于提取构图框的框内图像的特征信息,所述构图框包含有拍摄目标。

所述特征信息包括几何构图特征因子、和/或视觉均衡特征因子、和/或人体关键点的完整性特征因子、和/或表情特征因子、和/或背景颜色简洁性特征因子。根据不同类型的摄影,比如人物照,可以选择几何构图特征因子、视觉均衡特征因子、人体关键点的完整性特征因子、表情特征因子、和背景颜色简洁性特征因子;纯自然风景照,可以选择几何构图特征因子。

九宫格构图法是拍照常用的构图法则之一,其含义是,将构图框用两条垂直线、两条水平线各等分成三份后,把人物放置在四个分割线的交叉点上,这四个点就是画面重点。此构图法可使画面整体平衡感较佳,也可以强调出拍摄主体与次要主体之间的对比关系。基于该法则,根据拍摄目标的中心与构图框中九宫格的四个交叉点的距离信息计算几何构图特征因子,从而衡量构图是否符合九宫格构图法则。

可进一步采用以下公式计算几何构图特征因子:

其中,f1为几何构图特征因子,(crx,cry)为拍摄目标的中心坐标,(pix,piy)为目标构图框中九宫格的四个交叉点的坐标,x和y为目标构图框的宽和高。

视觉均衡特征因子主要用于衡量构图本身的视觉平衡状态。当拍摄目标为单人时,主要根据拍摄目标的人脸朝向来判断视觉平衡;如图9所示,人脸朝向向右,人的身体在构图框里面的位置是左侧,所以视觉上是平衡的;如果人的身体在右侧,与人脸朝向一致,则视觉上是不平衡的。

当拍摄目标为多人时,为了衡量多人空间布局的合理性,通过人体检测方法,计算每个人在构图中的重心位置;根据每个人的重心位置得到多人的重心位置,根据该多人的重心位置在构图框中的位置信息从而计算构图的视觉平衡状态。如果多人的重心位置在构图框的边缘位置,则为不平衡状态;如果多人的重心位置位于构图框的中心区域时,则为平衡状态。比如,3个人在构图框的左边,1个人在构图框的右边,人物重心在左边,视觉上不平衡,此构图不好。

人体关键点的完整性特征因子主要是为了惩罚构图中出现截头、截手、截脚等情况。当拍摄目标为人物时,根据拍摄目标的人体关键节点在构图框中的完整度,得到人体关键点的完整性特征因子。通过图像识别提取人体关键点,再判断人体关键节点在构图框内的完整程度。

表情特征因子用来反应拍摄目标的表情。当拍摄目标为人物时,通过人脸识别技术确定构图框内拍摄目标的表情,比如表情定义三种状态:笑、中性、不好表情,从而得到表情特征因子。

背景颜色简洁性特征因子主要用于衡量背景颜色的简洁度。当拍摄目标为人物时,根据构图框的背景像素的直方图统计,得到背景颜色简洁性特征因子。根据背景像素的直方图统计结果,统计出大于预设数量的像素类别,当像素类别比较大时,则表现为背景颜色复杂,不够简洁。

比如,将构图框的背景区域rgb三个通道的像素值分别量化到16级,所以共有4096种像素组合。计算像素分布的直方图统计,可根据下面公式得到背景颜色简洁性特征因子f5:

其中,s={i|his(i)≥γhmax}表示数量占比大于预设比例的背景像素集合,γ为预设系数,hmax为直方图的最大统计分量,his(i)为直方图中像素i的统计量,||s||表示集合s的元素个数。当γ取0.01,f5处于(0,1.5%]时,则背景颜色简洁;否则为背景颜色不简洁。

第一评价模块120,用于基于所述特征信息的随机森林分类模型对所述构图框进行评价,得到所述构图框的第一次评价。

具体的,随机森林分类也是一种机器学习算法,是一种包含多个决策树、基于多数投票机制的分类器,每个决策树根据输入的一些特征进行投票,该特征需要人工定义,选择投票最多的分类结果作为最后的预测结果。比如,一个包含m棵决策树的随机森林分类器,将新数据投入到这m棵决策树中,每棵决策树都有一个分类结果,共得到m个分类结果,对分类结果进行统计,将票数最多的分类结果作为最后的预测结果。

将随机森林分类算法应用到构图框的构图评价中,结合人工定义的特征,通过大量的样本训练得到用于构图评价的随机森林分类模型。该模型的构建方法如下:获取若干添加了构图框的图像、以及构图框的标签,得到构图数据集;按照人工定义的特征对构图数据集的每个构图框提取相应的特征信息;将构图数据集的每个构图框的特征信息和标签输入随机森林分类模型进行训练,使之学习到特征信息与标签之间的映射;当该分类模型收敛时(比如,收敛准则为:针对每个构图框的评价输出与所述构图框的标签一致),得到训练好的随机森林分类模型。

以人物照为例,选择几何构图特征因子、视觉均衡特征因子、人体关键点的完整性特征因子、表情特征因子、和背景颜色简洁性特征因子等特征信息,根据上述特征信息的人工定义,对一个待评价的构图框进行相应的特征信息提取,将所提取的特征信息输入预先构建的随机森林分类模型,得到该模型的评价输出,将该评价输出作为构图框的第一次评价。

第二评价模块130,用于基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价。

综合评价模块140,用于根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

本实施例的第一次评价是根据人工定义的特征和随机森林分类模型得到,随机森林分类模型是通过大数据训练得到,相比根据人工经验定义的特征信息与构图评价之间的映射关系,它能得到更准确的映射关系,从而提高了第一次评价的准确度,进而提高了综合评价的准确度。

在本发明的另一个实施例中,如图7所示,一种摄影构图评价装置100,包括:与前述实施例相比,相同之处不再重述,不同之处在于,包括:

判断模块,判断所述第一次评价是否满足预设条件;

综合评价模块,用于当所述第一次评价不满足预设条件时,根据所述第一次评价得到所述构图框的综合评价;

第二评价模块,用于当所述第一次评价满足预设条件时,采用基于深度学习方法的构图评价模型对所述构图框进行评价,得到所述构图框的第二次评价;

所述综合评价模块,进一步用于根据所述第一次评价和所述第二次评价,得到所述构图框的综合评价。

具体的,如果第一次评价不满足预设条件,比如低于某个预设门限时,说明基于传统特征的评价不高,综合评价肯定不高,所以没必要进行第二次评价,这样可以降低系统的运算量,减小系统负荷。

在本发明的一个实施例中,如图8所示,一种电子设备400,包括存储器410及处理器420。所述存储器410用于存储计算机程序430。所述处理器运行所述计算机程序时实现如前述记载的摄影构图评价方法。

作为一个示例,处理器420执行计算机程序时实现根据前述记载的步骤s200至s500。另外地,处理器420执行计算机程序时实现前述记载的摄影构图评价装置100中的各模块、单元的功能。作为又一个示例,处理器420执行计算机程序时实现特征提取模块110、第一评价模块120、第二评价模块130及综合评价模块140的功能。

可选地,根据完成本发明的具体需要,所述计算机程序可以被分割为一个或多个模块/单元。每个模块/单元可以为能够完成特定功能的一系列计算机程序指令段。该计算机程序指令段用于描述所述计算机程序在摄影构图评价装置100中的执行过程。作为示例,所述计算机程序可以被分割为虚拟装置中的各个模块/单元,譬如特征提取模块、第一评价模块、第二评价模块及综合评价模块。

所述处理器用于通过执行所述计算机程序从而实现摄影构图评价。根据需要,所述处理器可以是中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、通用处理器或其他逻辑器件等。

所述存储器可以为任意能够实现数据、程序存储的内部存储单元和/或外部存储设备。譬如,所述存储器可以为插接式硬盘、智能存储卡(smc)、安全数字(sd)卡或闪存卡等。所述存储器用于存储计算机程序、摄影构图评价装置100的其他程序及数据。

所述电子设备400可以为任意计算机设备,譬如桌上型计算机(desktop)、便携式计算机(laptop)、掌上电脑(pda)或服务器(server)等。根据需要,所述电子设备400还可以包括输入输出设备、显示设备、网络接入设备及总线440等。所述电子设备400还可以是单片机,或集成了中央处理单元(cpu)及图形处理单元(gpu)的计算设备。

本领域技术人员可以理解的是,上述用于实现相应功能的单元、模块的划分是出于便利于说明、叙述的目的,根据应用需求,将上述单元、模块做进一步的划分或者组合,即将装置/设备的内部结构重新进行划分、组合,以实现的上述记载的功能。上述实施例中的各个单元、模块可以分别采用单独的物理单元,也可以将两个或两个以上的单元、模块集成在一个物理单元。上述实施例中的各个单元、模块可以采用硬件和/或软件功能单元的实现对应的功能。上述实施例中的多个单元、组件、模块之间可以的直接耦合、间接耦合或通讯连接可以通过总线或者接口实现;多个单元或装置的之间的耦合、连接,可以是电性、机械或类似的方式。相应地,上述实施例中的各个单元、模块的具体名称也只是为了便于叙述及区分,并不用限制本申请的保护范围。

在本发明的一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现如前述实施例记载的摄影构图评价方法。也即是,当前述本发明实施例对现有技术做出贡献的技术方案的部分或全部通过计算机软件产品的方式得以体现时,前述计算机软件产品存储在一个计算机可读存储介质中。所述计算机可读存储介质可以为任意可携带计算机程序代码实体装置或设备。譬如,所述计算机可读存储介质可以是u盘、移动磁盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器等。

在本发明的一个实施例中,如图10、图11所示,一种自动摄影装置500,包括:

构图框生成模块200,用于生成包含有拍摄目标的构图框。

前述任一实施例所述的摄影构图评价装置100,用于对构图框进行评价,得到所述构图框的综合评价。

构图框输出模块300,用于根据所述综合评价控制所述构图框的输出。

摄影部件502,用于当收到所述构图框时,按照所述构图框进行摄影。所述摄影部件502用于将光学图像拍摄固定在相应的存储介质上。可选地,所述摄影部件502可以为数码相机。

为了提升自动摄影装置500的应用性能,自动摄影装置500还包括底座504及光学镜头252。底座504用于支撑自动拍摄设备500的其他结构、部件等。底座504大致呈圆柱形,其周向方向为圆周方向。光学镜头252设置于底座504的外周壁。光学镜头252用于将待拍摄的目标进行光学成像。该光学镜头252为广角镜头,具有大于摄影部件502的镜头503的视场角。即摄影部件502的视场角由其自带的镜头503的视场角决定。摄影部件502的镜头503,亦是一种光学镜头,设置在支架组件506上。为了尽可能大的空间范围内捕捉拍摄目标,三个光学镜头252沿着底座504的圆周方向间隔排布。三个光学镜头252的视场角彼此邻接或重叠,从而能够获取水平360°空间内的拍摄目标。

自动摄影装置500还包括图像传感器254。图像传感器254的数量可与光学镜头252相同,并彼此对应一一组装配合。图像传感器254用于将进入对应光学镜头252内的光学图像信号转换为电子数据的图像信号,并将该电子数据的图像信号进行输出以便于后续处理。图11中,图像传感器254设置在底座504内,为了便于图示说明用虚线示意其大致安装位置。

为了便利于对摄影部件502的活动至获取较高的成像质量,摄影部件502设置在支架组件506上,并相对于支架组件506可转动地设置。具体地,摄影部件502绕水平延伸且垂直于拍摄方向的转动轴线602俯仰转动,能够实现竖直上下方向的活动。摄影部件502相对于支架组件506的沿着拍摄方向延伸的转动轴线603可转动地设置。当摄影部件502转动90°时,可以实现“竖拍”。支架组件506相对于竖直方向延伸的轴线601可转动地设置,从而能够带动摄影部件502实现水平视角360°范围内的转动。其中,三条转动轴线601、602、603中任意两个彼此垂直,从而构造为立体空间坐标系。

摄影构图评价装置100、构图框生成模块200、构图框输出模块300设置在底座504内。前述电子设备400也可以设置于底座504内。

通过前述摄影构图评价方法、自动拍摄方法、装置以获取较高拍摄质量的图像的大致步骤如下:

通过光学镜头252大范围捕捉拍摄目标,发现拍摄目标后,获取拍摄目标的位置信息,调整摄影部件502,使其对准拍摄目标,此时在摄影部件502的视野内有一个包含拍摄目标的图像,为了进一步提升对拍摄目标进行拍摄的图像质量,构图框生成模块200对当前图像中的拍摄目标设定构图框(类似数码相机中的预览框),得到拍摄目标的初始图像(即构图框中的图像)。构图框的设定方式有多种,比如以拍摄目标为中心,取拍摄目标的外包络,再按相机拍摄的照片比例对外包络进行整理,得到一种构图框。摄影构图评价装置100对该构图框进行构图评价,得到构图框的综合评价,即判定该初始图像是否符合摄影构图要求;当该综合评价满足摄影构图要求时,触发构图框输出模块300输出该构图框,摄影部件502收到该构图框时,再执行拍照动作。当该综合评价不满足摄影构图要求时,可以通过重复对摄影部件502的调节、构图框的生成和评价,直至输出符合摄影构图要求的构图框,再执行拍照。由于只有当初始图像符合摄影构图要求时才会进行拍照,所以能获取较高质量的图像。

可以通过以下方式中的一种或多种调节摄影部件502:摄影部件放大倍率的调节(变焦)、摄影部件相对于水平面上的俯仰调节,及摄影部件在在水面上的平行移动和/或相对于绕竖直方向的轴水平转动的空间位置调节,也即是进行ptz(pan/tilt/zoom)操作。

为了提高自动摄影效率,可以同时生成多个构图框,分别对每个构图框执行摄影构图评价,得到每个构图框的综合评价。如果有多个构图框的综合评价达到最低输出要求,从中选择综合评价最高的构图框输出。如果没有构图框达到最低输出要求,则需要调节摄影部件重新生成构图框。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1