照片分类方法及装置与流程

文档序号:12748464阅读:551来源:国知局
照片分类方法及装置与流程

本发明涉及照片分类领域,尤其涉及一种照片分类方法及装置。



背景技术:

随着智能手机、平板电脑等智能终端上内置的拍摄功能越来越强大,而智能手机、平板电脑等智能终端便于携带,使得采用智能手机、平板电脑等智能终端拍摄照片已成为人们日常拍摄的重要工具。在采用智能终端拍摄照片时会将照片存储在智能终端上,在照片数量众多时,手动查找特定人物照片需耗费大量时间且查找结果容易出现遗漏。为克服手动查找特征人物照片所存在的问题,现有技术提供照片自动分类系统,包括智能终端和云服务器;其中,智能终端将待分类照片上传至服务器;服务器对待分类照片进行分类处理,并将分类结果发送给智能终端;智能终端接收并显示分类结果。在现有照片自动分类系统中,对照片进行分类所需时间不仅包括云服务器对待分类照片进行分类处理的时间,还包括智能终端将待分类照片上传到云服务器的时间和智能终端从云服务器接收分类结果的时间,使其分类时间较长。而且,现有照片自动分类系统中的云服务器需有较大的硬盘存储智能终端上传的待分类照片,且需较强大的处理器对待分类照片进行分类处理,从而导致照片自动分类系统的成本较高。而且,云服务器可与多个智能终端通信相连,在智能终端将待分类照片上传到云服务器过程中,可能导致待分类照片被其他智能终端获取,导致信息泄露,影响信息安全。

卷积神经网络(Convolutional Neural Network,简称CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层组成,同时也包括关联权重和池化层(PoolingLayer),这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要估计的参数更少,使之成为一种颇具吸引力的深度学习结构。CNN的基本结构包括两层,分别是卷积层和池化层(PoolingLayer)。卷积层的作用是提取图像的各种特征,通过局部原始图像和卷积核卷积得到;池化层的作用是对原始特征信号进行抽象,从而大幅度减少训练参数,另外还可以减轻模型过拟合的程度。但卷积神经网络模型应用在智能终端中进行照片分类处理时存在如下问题:其一是,测试时间较长,如在6层卷积层和2层全连接层的CNN模型中,输入采用32×32的图像,测试一张图像的时间约为200ms;若增大输入64×64的图像或增加卷积层到8层,则测试一张图像的时间超过1s,使得CNN模型难以在智能终端实际应用。其二地,CNN模型较大且模型读取时间较长,如以VGG-16为例,CNN模型的参数大小就为138MB,需智能终端上有较大的存储空间,而且会影响CNN模型读取待分类照片的读取时间。



技术实现要素:

本发明要解决的技术问题在于,针对现有照片自动分类系统进行照片分类所需时间较长且成本较高的问题,提供一种照片分类方法及装置。

本发明解决其技术问题所采用的技术方案是:一种照片分类方法,包括:

采用人脸检测算法判断待分类照片是否存在人脸区域;

若存在人脸区域,采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取,获取所述待分类照片的人脸识别特征和至少一个人脸属性信息;

基于至少一个所述人脸属性信息对所述待分类照片进行聚类,以获取若干聚类类簇;

基于所述人脸识别特征对每一所述聚类类簇上的所述待分类照片进行聚类,以获取若干分类相册,每一分类相册存放具有相同人物的待分类照片。

优选地,所述轻量级深度模型网络的目标函数如下所示:

<mrow> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>{</mo> <mi>&omega;</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mo>(</mo> <mrow> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>w</mi> </mrow> <mo>)</mo> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&Psi;</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,N为训练样本,C为同时学习的任务,为第i张待分类照片第c个任务的标签,φ(Ii,w)为轻量级深度模型网络的特征向量,Ii为第i张待分类照片,w为轻量级深度模型网络的网络参数,wc为第c个任的回归参数;Ψ(wc)为L2正则项;为估计误差回归函数,其中,

<mrow> <mi>l</mi> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mi>&phi;</mi> <msub> <mi>I</mi> <mi>i</mi> </msub> <mi>w</mi> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <msub> <mi>I</mi> <mi>i</mi> </msub> <mi>w</mi> <mo>|</mo> <mo>|</mo> <mo>;</mo> </mrow>

采用梯度下降法对采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取后的参数进行更新;所述梯度下降法包括:

或者

<mrow> <mo>&PartialD;</mo> <mfrac> <mrow> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> </mfrac> <mo>=</mo> <mo>-</mo> <mn>2</mn> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&PartialD;</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

优选地,所述人脸属性信息包括性别信息、年龄信息、种族信息、表情信息、饰品信息和头发信息中的至少一个。

优选地,所述基于至少一个所述人脸属性信息对所述待分类照片进行聚类,包括:基于至少一个所述人脸属性信息对待分类照片采用聚类算法进行聚类;所述聚类算法包括K-Means算法、K-Medoids算法、Clarans算法、Birch算法、Cure算法、Chameleon算法、Dbscan算法、Optics算法或者Denclue算法。

优选地,所述基于所述人脸识别特征对每一所述聚类类簇上的所述待分类照片进行聚类,包括:采用基于距离度量的相似度检测算法,基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类;所述基于距离度量的相似度检测算法包括欧氏距离检测算法、明可夫斯基距离检测算法、曼哈顿距离检测算法或切比雪夫距离检测算法。

本发明还提供一种照片分类装置,包括:

人脸检测单元,用于采用人脸检测算法判断待分类照片是否存在人脸区域;

特征提取单元,用于在所述待分类照片存在人脸区域时,采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取,获取所述待分类照片的人脸识别特征和至少一个人脸属性信息;

第一聚类单元,用于基于至少一个所述人脸属性信息对所述待分类照片进行聚类,以获取若干聚类类簇;

第二聚类单元,用于基于所述人脸识别特征对每一所述聚类类簇上的所述待分类照片进行聚类,以获取若干分类相册,每一分类相册存放具有相同人物的待分类照片。

优选地,所述轻量级深度模型网络的目标函数如下所示:

<mrow> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>{</mo> <mi>&omega;</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mo>(</mo> <mrow> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>w</mi> </mrow> <mo>)</mo> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&Psi;</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,N为训练样本,C为同时学习的任务,为第i张待分类照片第c个任务的标签,φ(Ii,w)为轻量级深度模型网络的特征向量,Ii为第i张待分类照片,w为轻量级深度模型网络的网络参数,wc为第c个任的回归参数;Ψ(wc)为L2正则项;为估计误差回归函数,其中,

<mrow> <mi>l</mi> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mi>&phi;</mi> <msub> <mi>I</mi> <mi>i</mi> </msub> <mi>w</mi> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <msub> <mi>I</mi> <mi>i</mi> </msub> <mi>w</mi> <mo>|</mo> <mo>|</mo> <mo>;</mo> </mrow>

采用梯度下降法对采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取后的参数进行更新;所述梯度下降法包括:

或者

<mrow> <mo>&PartialD;</mo> <mfrac> <mrow> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> </mfrac> <mo>=</mo> <mo>-</mo> <mn>2</mn> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&PartialD;</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

优选地,所述人脸属性信息包括性别信息、年龄信息、种族信息、表情信息、饰品信息和头发信息中的至少一个。

优选地,所述第一聚类单元,用于采用聚类算法,基于至少一个所述人脸属性信息对待分类照片进行聚类;所述聚类算法包括K-Means算法、K-Medoids算法、Clarans算法、Birch算法、Cure算法、Chameleon算法、Dbscan算法、Optics算法或者Denclue算法。

优选地,所述第二聚类单元,用于采用基于距离度量的相似度检测算法,基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类;所述基于距离度量的相似度检测算法包括欧氏距离检测算法、明可夫斯基距离检测算法、曼哈顿距离检测算法或切比雪夫距离检测算法。

本发明与现有技术相比具有如下优点:本发明所提供的照片分类方法及装置,采用轻量级深度模型网络对待分类照片进行特征提取,获取人脸识别特征和人脸属性信息,轻量级深度模型网络是卷积神经网络中的一种,具有测试时间短且所需存储空间小的优点。再基于人脸属性信息进行聚类,形成若干聚类类簇,以实现第一次聚类处理;然后再对每一聚类类簇上的待分类照片,基于人脸识别特征进行提取,以实现第二次聚类处理。本发明所提供的照片分类方法及装置中,先基于人脸属性信息聚类,再基于人脸识别特征聚类,使得分类结果精确且分类速度快;并且,无须通过云服务器即可实现离线自主分类,可避免受网络信号影响无法实现快速分类现象发生;此外,无须与云服务器通网络通信,有利于节省成本,并可节省照片传输时间,进而降低分类时间。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例1中的照片分类方法的一流程图。

图2是本发明实施例1中的基于轻量级深度模型网络进行特征提取的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

实施例1

图1示出本实施例中的照片分类方法的流程图。该照片分类方法可应用于智能手机、平板电脑等智能终端上,可实现离线快速分类智能终端上的待分类照片。本实施例中的智能终端为智能手机。具体地,该照片分类方法包括:

S1:采用人脸检测算法判断待分类照片是否存在人脸区域。其中,人脸检测算法包括但不限于Fisherface人脸检测算法、弹性匹配技术、Eigenface人脸检测算法、基于人脸特征点的识别算法(Feature-based recognition algorithms)、基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)、基于模板的识别算法(Template-based recognition algorithms)和利用神经网络进行识别的算法(Recognition algorithms using neural network)和基于哈尔特征(Haar-Link Features)的人脸检测算法等。本实施例中,采用基于哈尔特征(Haar-Link Features)的人脸检测算法,可快速识别到人脸区域。

S2:若存在人脸区域,采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取,获取所述待分类照片的人脸识别特征和至少一个人脸属性信息。其中,轻量级深度模型网络是卷积神经网络中的一种,具有测试时间短且所需存储空间小的优点。人脸识别特征是人物区域经过深度学习得到的特征表示,本实施例所提供的照片分类方法基于该人脸识别特征表示进行聚类等处理。人脸属性信息是指人脸区域内人物的性别信息、年龄信息、种族信息、表情信息、饰品信息和头发信息中的至少一个,是通过轻量级深度模型网络直接得到的识别结果,可作为人脸分类的辅助信息。可以理解地,若待分类照片不存在人脸区域,则给不存在人脸区域的待分类照片添加无人脸标签,在采用轻量级深度模型网络对待分类照片进行特征提取时,排除带无人脸标签的待分类照片,以节省对不存在人脸区域的待分类照片进行特征提取的时间。

本实施例中所采用的轻量级深度模型网络是一个多任务同时学习的模型,该轻量级深度模型网络的目标函数如下所示:

<mrow> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>{</mo> <mi>&omega;</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mo>(</mo> <mrow> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>w</mi> </mrow> <mo>)</mo> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&Psi;</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,N为训练样本,C为同时学习的任务,为第i张待分类照片第c个任务的标签,φ(Ii,w)为轻量级深度模型网络的特征向量,Ii为第i张待分类照片,w为轻量级深度模型网络的网络参数,wc为第c个任的回归参数;Ψ(wc)为L2正则项,用于避免过拟合情况发生;为估计误差回归函数,其中,

采用梯度下降法对采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取后的参数进行更新。其中,梯度下降法包括:

或者

<mrow> <mo>&PartialD;</mo> <mfrac> <mrow> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> </mfrac> <mo>=</mo> <mo>-</mo> <mn>2</mn> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&PartialD;</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

可以理解地,本实施例所提供的轻量级深度模型网络可实现多任务同时学习。如可基于人脸属性信息中的性别信息和年龄信息分别作为一任务进行学习,并基于人脸识别特征作为一任务进行学习,可实现同时做到三个任务。该轻量级深度模型网络同时做多个任务具有如下好处:其一是准确率提升,由于性别信息、年龄信息和人脸识别特征均为存在人脸区域的待分类照片的共有属性,且性别信息、年龄信息和人脸识别特征具有较强的相关性,若同时优化会起到相互促进的作用,提供准确率。其二是运行速度快,若输入的待分类照片的图像大小是32*32,采用轻量级深度模型网络进行三个任务学习,相比于单任务分开学习,即使使用完全相同的网络结果,其处理过程会节省2/3的处理时间。可以理解地,同时做的任务数量越多,其节省的时间越小。其三是模型小且参数小,采用一个轻量级深度模型网络可同时执行三个任务,相比于只能执行单位任务的模型,会节省模型所占用空间且参数较小。

S3:基于至少一个人脸属性信息对待分类照片进行聚类,以获取若干聚类类簇。其中,聚类算法包括K-Means算法、K-Medoids算法、Clarans算法、Birch算法、Cure算法、Chameleon算法、Dbscan算法、Optics算法或者Denclue算法。可以理解地,基于至少一个人脸属性信息对待分类照片采用聚类算法进行聚类,以获取若干聚类类簇。每一聚类类簇包含的待分类照片的数量相比于存在人脸区域的所有待分类照片的数量大幅减少,且每一聚类类簇所包含的待分类照片对应中不同人物的数量也大幅减少。

本实施例中,以收敛速度快且聚类效果稳定的K-Means聚类算法为例,人脸属性信息以性别信息和年龄信息为例,其中,性别信息包括男、女两种分类,年龄信息包括婴儿、儿童、青年、中年和老年等五种分类,在采用K-Means聚类算法并基于性别信息和年龄信息进行聚类时,会形成男性婴儿、男性儿童、男性青年、男性中年、男性老年、女性婴儿、女性儿童、女性青年、女性中年和女性老年等十个聚类类簇,并将相应的待分类照片分别放入相应的聚类类簇中。

由于采用轻量级深度模型网络同时进行多任务学习过程中,可得到每一待分类照片中的人物的性别信息和年龄信息,在采用K-Means聚类算法进行聚类时,可使K=10,形成10个聚类类簇,如智能手机上存储的存在人脸区域的待分类照片有1000张,将这1000张待分类照片分在10个聚类类簇时,可能使得每一聚类类簇下可能有100张待分类照片。而且,如果这1000张待分类照片中可能是20个人的照片,那么在每一聚类类簇下可能只包括2个人的照片,使得再基于每一聚类类簇进行人脸识别更精确。

S4:基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类,以获取若干分类相册,每一分类相册存放具有相同人物的待分类照片,以实现“一人一相册”的照片管理功能。可以理解地,在对每一聚类类簇上的待分类照片基于人脸识别特征进行聚类时,由于待分类照片数量减少且对应人物的数量减少,可加快聚类处理时间。

步骤S4中,采用基于距离度量的相似度检测算法,基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类,以获取若干分类相册。其中,距离度量是用于衡量个体空间上存在的距离,距离越远说明个体间的差异越大。步骤S4具体包括:基于距离度量的相似度检测算法检测任一聚类类簇上的任意两个待分类照片的检测距离;判断两个待分类照片的检测距离是否超过距离阈值;若超过,则将两个待分类照片归属于同一分类相册;若不超过,则将两个待分类照片归属于不同分类相册。

基于距离度量的相似度检测算法包括欧氏距离(Euclidean Distance)检测算法、明可夫斯基距离(Minkowski Distance)检测算法、曼哈顿距离(Manhattan Distance)检测算法或切比雪夫距离(Chebyshev Distance)检测算法。本实施例中,采用欧氏距离检测算法进行聚类,具有运算速度快、物理意义清晰的优点。

在一具体实施方式中,该照片分类方法,还可以包括如下步骤:接收用户输入的相册命名指令,相册命名指令包括相册名称;并根据相册命名指令给相应的分类相册命名并显示。在采用照片分类方法对智能手机上所有的待分类照片进行分类后,会按系统默认命名规则对每一分类相册进行命名,如相册1、相册2、相册3……,采用系统默认命名规则进行命名时,不利于用户根据分类相册的命名查询到相应某一人脸对应的分类相册。在该具体实施方式中,智能手机可接收用户输入的相册命名指令对某一分类相册进行命名,以方便用户对分类相册的管理。

进一步地,该照片分类方法还包括如下步骤:接收用户输入的相册搜索指令,相册搜索指令包括相册名称;根据相册搜索指令,显示相册名称对应的分类相册。可以理解地,在智能手机的分类相册数量较多的情况下,用户可向智能手机输入相册搜索指令,以使智能手机快速显示相册搜索指令对应的分类相册,以使用户可查看该分类相册下的所有待分类照片。可以理解地,该照片分类方法可极大方便用户进行相册管理,防止在照片过多的情况下,用户无法快速找到自己想要的照片。

本实施例所提供的照片分类方法具有如下优点:

其一是分类结果更精确。该照片分类方法中,先基于至少一个人脸属性信息进行聚类,以形成聚类类簇;再基于人脸识别特征对每一聚类类簇下的待分类照片进行聚类,由于每一聚类类簇上的待分类照片的数量少且相应的人物的数量也少,在采用人脸识别特征对每一聚类类簇上的待分类照片进行聚类时,聚类更精确。

其二是运行速度快。采用轻量级深度模型网络对待分类照片可实现多任务同时学习,相比于单任务分开学习,其处理速度高;而且,先基于至少一个人脸属性信息进行聚类,以形成聚类类簇;再基于人脸识别特征对每一聚类类簇下的待分类照片进行聚类,由于每一聚类类簇上的待分类照片的数量少且相应的人物的数量也少,使得基于人脸识别特征进行聚类的速度快。

在对智能手机上的待分类照片进行分类时,可采用如下两种方式进行分类:一是批量分类,即用户第一次启动呈且进行初始化操作,会对智能手机中所有待分类照片进行处理,根据实验数据显示,每一张照片只需要不到0.1秒的时间,即可完成全部流程,实现精确分类的目的;即对于1000张的照片,一共只需要1分多钟的时间。二是单/多张分类,即除了第一次启动时需要初始化,用户可选择自己的相册一张或多张待分类照片进行分类。如果用户选择的是已经经过处理并保存到数据库的待分类照片,则不需要重复处理,如果用户选择的是新的待分类照片,经过试验数据显示,每张照片可以在0.3秒时间处理完。

其三是可离线运行,无需通过云服务器进行分类。可以理解地,该照片分类方法是在智能手机上进行分类,而无需通过智能手机将待分类照片上传到云服务器,再通过云服务器进行分类,并将分类结果返回给智能手机。在智能手机上可进行离线处理,使得用户的隐私得到保障。并且,在智能手机上离线运行可保证实时性,避免处于没有网络信号或者网络信号不稳定的环境下,用户体验就会不好,并且需要耗费用户的流量。并且,在智能手机上离线运行,无需在云服务器上采用大量硬盘保存待分类照片,也无需在云服务器上使用较强大的处理器对待分类照片进行分类,节省成本。

其四是可自主分类,无需与用户进行交互。本实施例所提供的照片分类方法,可实现自主分类,无需用户手动输入每一待分类照片标签,并进行分类,有利于提供分类效率。

实施例2

图2示出本实施例中的照片分类装置的原理框图。该照片分类装置可应用于智能手机、平板电脑等智能终端上,可实现离线快速分类智能终端上的待分类照片。本实施例中的智能终端为智能手机。具体地,该照片分类装置包括人脸检测单元10、特征提取单元20、第一聚类单元30和第二聚类单元40。

人脸检测单元10,用于采用人脸检测算法判断待分类照片是否存在人脸区域。其中,人脸检测算法包括但不限于Fisherface人脸检测算法、弹性匹配技术、Eigenface人脸检测算法、基于人脸特征点的识别算法(Feature-based recognition algorithms)、基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)、基于模板的识别算法(Template-based recognition algorithms)和利用神经网络进行识别的算法(Recognition algorithms using neural network)和基于哈尔特征(Haar-Link Features)的人脸检测算法等。本实施例中,采用基于哈尔特征(Haar-Link Features)的人脸检测算法,可快速识别到人脸区域。

特征提取单元20,用于在待分类照片存在人脸区域时,采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取,获取所述待分类照片的人脸识别特征和至少一个人脸属性信息。其中,轻量级深度模型网络是卷积神经网络中的一种,具有测试时间短且所需存储空间小的优点。具体地,人脸识别特征是人物区域经过深度学习得到的特征表示,本实施例所提供的照片分类装置基于该人脸识别特征表示进行聚类等处理。人脸属性信息是指人脸区域内人物的性别信息、年龄信息、种族信息、表情信息、饰品信息和头发信息中的至少一个,是通过轻量级深度模型网络直接得到的识别结果,可作为人脸分类的辅助信息。可以理解地,若待分类照片不存在人脸区域,则给不存在人脸区域的待分类照片添加无人脸标签,在采用轻量级深度模型网络对待分类照片进行特征提取时,排除带无人脸标签的待分类照片,以节省对不存在人脸区域的待分类照片进行特征提取的时间。

本实施例中所采用的轻量级深度模型网络是一个多任务同时学习的模型,该轻量级深度模型网络的目标函数如下所示:

<mrow> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>{</mo> <mi>&omega;</mi> <mo>,</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>}</mo> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mo>(</mo> <mrow> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>w</mi> </mrow> <mo>)</mo> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&Psi;</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,N为训练样本,C为同时学习的任务,为第i张待分类照片第c个任务的标签,φ(Ii,w)为轻量级深度模型网络的特征向量,Ii为第i张待分类照片,w为轻量级深度模型网络的网络参数,wc为第c个任的回归参数;Ψ(wc)为L2正则项,用于避免过拟合情况发生;为估计误差回归函数,其中,

采用梯度下降法对采用轻量级深度模型网络对存在人脸区域的所有待分类照片进行特征提取后的参数进行更新。其中,梯度下降法包括:

或者

<mrow> <mo>&PartialD;</mo> <mfrac> <mrow> <mi>l</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> </mfrac> <mo>=</mo> <mo>-</mo> <mn>2</mn> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>-</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&PartialD;</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

可以理解地,本实施例所提供的轻量级深度模型网络可实现多任务同时学习。如可基于人脸属性信息中的性别信息和年龄信息分别作为一任务进行学习,并基于人脸识别特征作为一任务进行学习,可实现同时做到三个任务。该轻量级深度模型网络同时做多个任务具有如下好处:其一是准确率提升,由于性别信息、年龄信息和人脸识别特征均为存在人脸区域的待分类照片的共有属性,且性别信息、年龄信息和人脸识别特征具有较强的相关性,若同时优化会起到相互促进的作用,提供准确率。其二是运行速度快,若输入的待分类照片的图像大小是32*32,采用轻量级深度模型网络进行三个任务学习,相比于单任务分开学习,即使使用完全相同的网络结果,其处理过程会节省2/3的处理时间。可以理解地,同时做的任务数量越多,其节省的时间越小。其三是模型小且参数小,采用一个轻量级深度模型网络可同时执行三个任务,相比于只能执行单位任务的模型,会节省模型所占用空间且参数较小。

第一聚类单元30,用于基于至少一个人脸属性信息对待分类照片进行聚类,以获取若干聚类类簇。具体地,第一聚类单元30,用于基于至少一个所述人脸属性信息对待分类照片采用聚类算法进行聚类,以获取若干聚类类簇;其中,所述聚类算法包括K-Means算法、K-Medoids算法、Clarans算法、Birch算法、Cure算法、Chameleon算法、Dbscan算法、Optics算法或者Denclue算法。可以理解地,基于至少一个人脸属性信息对待分类照片采用聚类算法进行聚类,以获取若干聚类类簇。每一聚类类簇包含的待分类照片的数量相比于存在人脸区域的所有待分类照片的数量大幅减少,且每一聚类类簇所包含的待分类照片对应中不同人物的数量也大幅减少。

本实施例中,以收敛速度快且聚类效果稳定的K-Means聚类算法为例,人脸属性信息以性别和年龄为例,其中,性别信息包括男、女两个分类,年龄信息包括婴儿、儿童、青年、中年和老年等五个分类,在采用K-Means聚类算法并基于性别信息和年龄信息进行聚类时,会形成男性婴儿、男性儿童、男性青年、男性中年、男性老年、女性婴儿、女性儿童、女性青年、女性中年和女性老年等十个聚类类簇,并将相应的待分类照片分别放入相应的聚类类簇中。

由于采用轻量级深度模型网络同时进行多任务学习过程中,可得到每一待分类照片中的人物的性别信息信息和年龄信息,在采用K-Means聚类算法进行聚类时,可使K=10,形成10个聚类类簇,如智能手机上存储的存在人脸区域的待分类照片有1000张,将这1000张待分类照片分在10个聚类类簇时,可能使得每一聚类类簇下可能有100张待分类照片。而且,如果这1000张待分类照片中可能是20个人的照片,那么在每一聚类类簇下可能只包括2个人的照片,使得再基于每一聚类类簇进行人脸识别更精确。

第二聚类单元40,用于基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类,以获取若干分类相册,每一分类相册存放具有相同人物的待分类照片,以实现“一人一相册”的照片管理功能。可以理解地,在对每一聚类类簇上的待分类照片基于人脸识别特征进行聚类时,由于待分类照片数量减少且对应人物的数量减少,可加快聚类处理时间。

具体地,第二聚类单元40,用于采用基于距离度量的相似度检测算法,基于人脸识别特征对每一聚类类簇上的待分类照片进行聚类,以获取若干分类相册。其中,距离度量是用于衡量个体空间上存在的距离,距离越远说明个体间的差异越大。第二聚类单元40,用于基于距离度量的相似度检测算法检测任一聚类类簇上的任意两个待分类照片的检测距离;判断两个待分类照片的检测距离是否超过距离阈值;若超过,则将两个待分类照片归属于同一分类相册;若不超过,则将两个待分类照片归属于不同分类相册。

基于距离度量的相似度检测算法包括欧氏距离(Euclidean Distance)检测算法、明可夫斯基距离(Minkowski Distance)检测算法、曼哈顿距离(Manhattan Distance)检测算法或切比雪夫距离(Chebyshev Distance)检测算法。本实施例中,采用欧氏距离检测算法进行聚类,具有运算速度快、物理意义清晰的优点。

在一具体实施方式中,该照片分类装置,还可以包括如下步骤:接收用户输入的相册命名指令,相册命名指令包括相册名称;并根据相册命名指令给相应的分类相册命名并显示。在采用照片分类装置对智能手机上所有的待分类照片进行分类后,会按系统默认命名规则对每一分类相册进行命名,如相册1、相册2、相册3……,采用系统默认命名规则进行命名时,不利于用户根据分类相册的命名查询到相应某一人脸对应的分类相册。在该具体实施方式中,智能手机可接收用户输入的相册命名指令对某一分类相册进行命名,以方便用户对分类相册的管理。

进一步地,该照片分类装置还包括如下步骤:接收用户输入的相册搜索指令,相册搜索指令包括相册名称;根据相册搜索指令,显示相册名称对应的分类相册。可以理解地,在智能手机的分类相册数量较多的情况下,用户可向智能手机输入相册搜索指令,以使智能手机快速显示相册搜索指令对应的分类相册,以使用户可查看该分类相册下的所有待分类照片。可以理解地,该照片分类装置可极大方便用户进行相册管理,防止在照片过多的情况下,用户无法快速找到自己想要的照片。

本实施例所提供的照片分类装置具有如下优点:

其一是分类结果更精确。该照片分类装置中,先基于至少一个人脸属性信息进行聚类,以形成聚类类簇;再基于人脸识别特征对每一聚类类簇下的待分类照片进行聚类,由于每一聚类类簇上的待分类照片的数量少且相应的人物的数量也少,在采用人脸识别特征对每一聚类类簇上的待分类照片进行聚类时,聚类更精确。

其二是运行速度快。采用轻量级深度模型网络对待分类照片可实现多任务同时学习,相比于单任务分开学习,其处理速度高。而且,先基于至少一个人脸属性信息进行聚类,以形成聚类类簇;再基于人脸识别特征对每一聚类类簇下的待分类照片进行聚类,由于每一聚类类簇上的待分类照片的数量少且相应的人物的数量也少,使得基于人脸识别特征进行聚类的速度快。

在对智能手机上的待分类照片进行分类时,可采用如下两种方式进行分类:一是批量分类,即用户第一次启动呈且进行初始化操作,会对智能手机中所有待分类照片进行处理,根据实验数据显示,每一张照片只需要不到0.1秒的时间,即可完成全部流程,实现精确分类的目的;即对于1000张的照片,一共只需要1分多钟的时间。二是单/多张分类,即除了第一次启动时需要初始化,用户可选择自己的相册一张或多张待分类照片进行分类。如果用户选择的是已经经过处理并保存到数据库的待分类照片,则不需要重复处理,如果用户选择的是新的待分类照片,经过试验数据显示,每张照片可以在0.3秒时间处理完。

其三是可离线运行,无需通过云服务器进行分类。可以理解地,该照片分类装置是在智能手机上进行分类,而无需通过智能手机将待分类照片上传到云服务器,再通过云服务器进行分类,并将分类结果返回给智能手机。在智能手机上可进行离线处理,使得用户的隐私得到保障。并且,在智能手机上离线运行可保证实时性,避免处于没有网络信号或者网络信号不稳定的环境下,用户体验就会不好,并且需要耗费用户的流量。并且,在智能手机上离线运行,无需在云服务器上采用大量硬盘保存待分类照片,也无需在云服务器上使用较强大的处理器对待分类照片进行分类,节省成本。

其四是可自主分类,无需与用户进行交互。本实施例所提供的照片分类装置,可实现自主分类,无需用户手动输入每一待分类照片标签,并进行分类,有利于提供分类效率。

本发明是通过上述具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1