一种非相邻的图结构稀疏人脸识别方法
【技术领域】
[0001] 本发明涉及一种非相邻的图结构稀疏人脸识别方法,属稀疏表示人脸识别技术领 域。
【背景技术】
[0002] 压缩感知(Compressed sensing, C巧针对具有稀疏性或在特定域上具有稀疏性的 信号,通过实施远低于奈奎斯特采样率的随机采样,利用信号的稀疏性和测量矩阵与测量 基之间的非相干性,可高概率地精确重构原始信号。在压缩感知理论的推动下,近几年,稀 疏编码和稀疏表示技术得到了飞速发展。稀疏表示的思想是假设观测数据y e RD可表示 成数据字典D G RDXP的稀疏线性组合,即巧=D a,式中a G RP是y在字典D下的表示系 数。基于稀疏表示的人脸识别方法是在已知y和D的条件下,通过压缩感知重构算法求解 稀疏表示系数a,再通过分析稀疏表示系数对样本进行判别归类。
[0003] 稀疏表示的人脸识别技术可W分为传统的稀疏表示人脸识别、非重叠的组结构稀 疏人脸识别和可重叠的图结构稀疏人脸识别H个阶段。
[0004] 传统的稀疏表示分类模型(Sparse Representation-based Classification, SRC)是将一个人脸识别问题转变为一个稀疏表示问题,即将测试数据表 示成数据字典的稀疏线性组合,如图1所示。SRC的数据字典是由已知分类的所有类别的训 练样本构成,若训练样本有m个类别,每类别有q个训练数据,每个图像被堆叠为一维向量, 则数据字典可表示为 D = [dll. . . di。,......,d。. . . di。,......,dmi. . . dm。],式中[d。,...中。] 是第i类的训练样本。如果y是第i类的测试数据,则在理想的情况下,通过稀疏重构所获 得的表示系数中,字典原子[中1,...中。]所对应的系数项为非零,而其他项为零,即表示 系数可表示为;5 = [D,…,G,%,…,听,0,…,0],它是稀疏的,平均只有1/m个非零项,测试数据可 表示为y = [d。,. . .,di。] [ a 11,. . .,a JT。但由于人脸图像都具有类似的特征,使得其他 类别所对应的表示系数并不一定为零,因而存在着挑战的问题。
[0005] 在SRC的基础上,有关文献提出了鲁棒的SRC模型(R-SRC),将噪声的影响考虑 进来,则测试数据y = y〇+e,y。可表示为训练字典D的稀疏线性组合,噪声e G RD可表示 为单位矩阵A G RDXn的稀疏线性组合,将训练字典和单位矩阵合并可构成新的过完备字 典基巧A],y可表示为新基下的稀疏线性组合,R-SRC模型对噪声和伪装具有很强的鲁 棒性。有文献综合了此类稀疏分类模型,将各种保真函数与惩罚函数相结合,得到适合不 同条件的人脸识别模型,统称为竞争表示模型(coll油orative r巧resentation based classification, CRC)。有的文献提出了扩展的SRC模型巧SRC),ESRC模型假设各类别共 享相同的环境条件,其字典不仅包含训练样本,还包括各类别的类内差异,ESRC模型可W应 用于单个训练样本的场合。
[0006] 传统的SRC模型将每个字典原子分隔开来,独立处理,没有考虑各原子之间 的关系,所产生的稀疏是非结构的。近年来,研究人员根据SRC模型中数据字典的组 块结构,提出了组结构的稀疏表示分类模型(Group Sparse Representation-based Classification, GSRC),此模型利用了数据字典的组块特性,限制了搜索空间,从而提高了 人脸识别的性能。但人们也发现如果组块内的成员能互相补充,互相促进,则能增强数据的 表示能力;但如果组块内成员的作用互相抵消,则组结构会起到相反的作用。为此人们采用 聚类方法或非线性流行学习的方法,将相似的样本进行聚类,然后根据聚类结果将类内样 本进一步划分为多个小组,此方法一定程序上可W降低组块划分不当造成的影响。但并不 是相似样本构成的组块其表示能力就能增强,组块内成员相似,意味着其产生的作用重复, 因此相似样本所起到的作用较小;反而是一些差异较大的样本,由于他们互相补充,其数据 表示能力增强较大。另外,如果组块内成员差异较大,也有可能其成员的作用互相抵消,贝U 会降低组块的作用。因此对数据字典进行聚类处理,其作用有限。
[0007] 图结构是比组结构更一般的数据结构,其组划分是动态的、可重叠的,其组划分预 先是不可知的。为了寻找到最佳的组划分,需要通过搜索的方式分析所有可能的组合,该种 搜索如果不加限制,则很可能产生组合爆炸,为此一般的图稀疏方法都是限制组成员由相 邻元素构成,其组划分的方法就好像是用一个滑动窗口在数据上截取组块,所截取的组块, 其成员是由相邻元素构成。一般图结构稀疏方法比较适合自然数据,因为自然数据都具有 一定的连续性,由相邻元素构成的组块可W表示具有连续特性的自然数据。然而SRC模型 其数据字典并没有该样的连续性,因而一般的图结构稀疏也不适合SRC模型。
【发明内容】
[0008] 本发明需要解决的问题包括;如何表示非相邻的图结构?如何搜索表示能力最 强的组块?为了避免搜索过程中的组合爆炸,采取什么样的限制策略?使算法既具有可行 性,又能寻找到所需要的组块。在算法实现过程中,如何衡量结构稀疏度?并进行量化实 现。最后选择哪种压缩感知重构算法?
[0009] 本发明的技术方案是,本发明一种非相邻的图结构稀疏人脸识别方法包括非相邻 的图结构稀疏、分块组合搜索方法、结构稀疏度的衡量方法及实现结构稀疏重构的算法。
[0010] 本发明方法根据稀疏表示分类模型数据字典的结构特点,通过非相邻的图结构稀 疏来增强系统的性能,非相邻图结构的组块是动态的,可重叠的,预先不可知的,组成员可 W是不相邻的;为了实现非相邻图结构稀疏,所述方法采用组合搜索的方法获得所有可能 的组块,包括相邻或不相邻的组块,从中寻找表示能力最强的组块;为了避免在搜索中产生 组合爆炸,所述方法提出分块组合搜索的方法用于限制搜索空间;此外,所述方法还提出W 编码复杂度来衡量结构稀疏度,采用结构贪婪算法来实现结构稀疏重构。
[0011] 本发明是在SRC模型的基础上,利用数据字典中的结构先验知识,通过非相邻的 图结构稀疏来提高人脸识别的性能。现有的结构稀疏方案,无论是非重叠的组稀疏,还是可 重叠的图稀疏,其组成员都要求是相邻的,该种限制能缩小搜索范围,比较适合具有连续性 的自然数据的处理。非相邻的图结构,其与一般的图结构的最大区别在于其组成员可W是 不相邻的;一般的图结构稀疏方法为了缩小搜索范围,都要求组块成员是相邻的,该种限制 符合一般自然数据的特征,因为自然数据都具有连续性,其组块由相邻元素构成,因此该种 限制并不会丢失所需要的组块。但SRC数据字典的排列没有连续的特性,系统所需要的组 块很可能是不相邻的,因此该种相邻的组结构或图结构并不适合SRC模型的结构特征。为 此本发明提出非相邻的图结构,其组块是动态的,可重叠的,预先不可知的,组成员可W是 不相邻的。
[0012] 为了实现非相邻的图结构稀疏,需要搜索所有可能的组块,包括相邻或非相邻,为 此,本发明设计使用组合搜索的方式来搜索所有可能组合。显而易见,如果不加限制,该种 组合搜索很容易产生组合爆炸,造成不可行计算。
[0013] 为了避免搜索过程中的组合爆炸,设计了相应限制策略W缩小搜索范围;首先可 W仅搜索固定长度的小组块,把该些小组块作为基块,由基块的联合构成其他形式的组块; 若b是基块的索引,B是所有基块的索引集合,称为基子集,则任何一个组块的索引F都能 表示为基子集的并集,F = U b€cb。因此仅需要搜索基子集空间,就能搜索到所有需要的组 块。
[0014] 但是通过W上方法所得到的基子集空间仍然是非常鹿大的,例如,如果表示系数 的维数为300,设置基块大小为3,则其组合数将达到ci。4 J X ,如此大的基子 集空间将产生非常大的计算负担,因此需要进一步缩小基子集空间。在数据维数较大时,组 合搜索基本是不可行的,但数据维数不高时,组合搜索是可行的。为此可W采用将数据进行 分块,再在数据块内进行组合搜索,最后将各数据块的搜索结果合并的方法解决。由于SRC 模型的数据字典是按类排列,对应的表示系数可W按类别自然分块,在每个类别的训练样 本数不多的情况下,可W对类内系数进行组合搜索,获得所有组合的基块,再将各类别的基 块合并成基子集空间。
[0015] 本发明分块组合搜索方法将数据字典按类别自然分块,再在数据块内进行组合搜 索,最后将各数据块的搜索结果合并的方法;该种分块组合搜索所产生的空间是较小的,若 表示系数的维数是300,共60个类别,每类别5个样本,每类别长度为3的基块组合共10个, 则基子集空间的大小为60*C^二600《4.5xl06,分块组合搜索的基子集空间远小于不 分块的组合搜索。通过W上方法可W极大地缩减搜索空间,将一个NP的组合搜索问题变为 一个可行计算。
[0016] 分块组合搜索的基子集空间虽然减小了,但它并没有丢失SRC模型需要的组块, 因为SRC模型所需要的组块,其成员都是由同类的样本构成,分块组合搜索是在同类别的 样本中进行组合,因而不会丢失所有可能入选的组块。再者分块组合搜索的基子空间包括 不相邻元素构成的基块,因此不管数据字典如何排列,其组块成员都会进入搜索空间,因此 数据字典的排列顺序不会影响系统的性能。
[0017] 为了实现非相邻的图结构稀疏,结构稀疏度的衡量也是一个关键的问题。本发明 不是采用常规的复