专利名称:一种文档中含有人物肖像的图像检测方法及系统的制作方法
技术领域:
本发明涉及图像处理中的图像检测领域,具体涉及一种文档中含有人物肖像的图像检测方法及系统。
背景技术:
BPO(商务流程外包,Business Process Outsourcing)事业部从事的是“物理实体数据到电子数据”的转换工作。目前,在将物理实体数据转换为电子数据的过程中,档案在进行数字化处理的加工过程时,根据客户需求,有时需要将档案扫描后的图片中带有人物肖像的图像找出来进行单独处理,例如档案内带有头像照片的、身份证复印件等。在当前的处理过程中,一般采用人工进行挑选,但是人工挑选耗时耗力,成本高且产量低,而且会出现漏选等问题。本发明正是针对现有处理方法中所存在的问题,以及实际应用的需求而提出的,通过自动化的挑选方法,降低成本,提高产量,增加准确率。
发明内容
针对现有技术中存在的缺陷和实际应用的需要,本发明的目的在于提供一种文档中含有人物肖像的图像检测方法及系统,实现对含有人物肖像的图像的自动化挑选,提高效率。为实现上述目的,本发明采用的技术方案如下一种文档中含有人物肖像的图像检测方法,包括以下步骤(1)选定待检测图像,将待检测图像转化为灰度图像;(2)将灰度图像转化为二值图像,并获取二值图像的连通区域;(3)分析连通区域内灰度图像中所对应的图像信息,确定图像信息的文字区域和图像区域;(4)根据所述图像区域的色阶分布和纹理特征,确定图像区域中图像的类型,所述图像的类型包括线条图和照片图;(5)提取图像区域中照片图的Gabor特征,根据所提取的Gabor特征确定照片图中是否含有人物肖像。进一步,如上所述的一种文档中含有人物肖像的图像检测方法,步骤(3)中,确定图像信息的文字区域和图像区域时,若图像信息的内容为文字或者字符,则该图像信息所在区域为文字区域,否则为图像区域。进一步,如上所述的一种文档中含有人物肖像的图像检测方法,步骤(3)中,通过 OCR技术确定图像信息的文字区域和图像区域。进一步,如上所述的一种文档中含有人物肖像的图像检测方法,步骤中,如果图像区域中图像的色阶分布中所有黑色像素点中的色彩强度不同,则该图像为照片图;如果图像以直线和曲线构成,且图像的色阶分布中黑色像素点的色彩强度单一,则该图像为线条图。
进一步,如上所述的一种文档中含有人物肖像的图像检测方法,步骤(5)中,通过将所提取照片图的Gabor特征与建立好的特征库进行比较,确定照片图中是否含有人物肖像。进一步,如上所述的一种文档中含有人物肖像的图像检测方法,所述建立好的特征库中包括人脸轮廓线信息和五官信息。再进一步,如上所述的一种文档中含有人物肖像的图像检测方法,所述五官信息包括眼、鼻、口三官的位置关系。更进一步,如上所述的一种文档中含有人物肖像的图像检测方法,所述灰度图像的格式为TIF格式。基于上述图像检测方法的一种文档中含有人物肖像的图像检测系统,包括图像转化装置用于将待检测图像转化为灰度图像,将灰度图像转化为二值图像;连通域获取装置用于获取二值图像的连通区域;区域确定装置用于确定连通区域内灰度图像中的文字区域和图像区域;图像类型确定装置用于根据图像区域的色阶分布和纹理特征,确定图像区域中图像中的类型,所述类型包括线条图和照片图;人物肖像确定装置用于提取图像区域中照片图的Gabor特征,并根据所提取的 Gabor特征确定照片图中是否含有人物肖像。进一步,如上所述的一种文档中含有人物肖像的图像检测系统,所述人物肖像确认装置包括特征比较模块用于将照片图的Gabor特征与建立好的特征库中的特征进行分类比较,确定照片图中是否含有人物肖像。本发明的效果在于本发明所述的方法及系统,首先根据图像的色阶分布和纹理特征确定图像区域的内容是否为照片图,然后根据照片图的( bor特征来判断是否含有人物肖像,通过该方法,用户只需要指定图像所在的位置,就可以自动对图像文件进行分析, 得到符合条件的图像文件。这种自动化的挑选方法,与人工挑选的方法相比,减少了成本, 提高了产量,同时也提高了挑选的准确率。
图1为本发明一种文档中含有人物肖像的图像检测系统的结构框图;图2为本发明一种文档中含有人物肖像的图像检测方法的流程图;图3为具体实施方式
中二值图像连通区域的说明示意图。
具体实施例方式下面结合说明书附图与具体实施方式
对本发明做进一步的详细说明。图1示出了本发明一种文档中含有人物肖像的图像检测系统的结构框图,由图中可以看出,该系统主要包括以下装置图像转化装置11 用于将待检测图像转化为灰度图像,将灰度图像转化为二值图像;
连通域获取装置12 用于获取二值图像的连通区域;区域确定装置13 用于确定连通区域内灰度图像中的文字区域和图像区域;图像类型确定装置14 用于根据图像区域的色阶分布和纹理特征,确定图像区域中图像中的类型,所述类型包括线条图和照片图;人物肖像确定装置15 用于提取图像区域中照片图的Gabor特征,并根据所提取的Gabor特征确定照片图中是否含有人物肖像。该装置中还包括特征比较模块,用于将提取的照片图的Gabor特征在已经建立好的特征库中进行分类比较,来判断该照片图是否含有人物肖像。图2示出了基于图1中图像检测系统的一种文档中含有人物肖像的图像检测方法的流程图,该方法主要包括以下步骤步骤S21 将待检测图像转换为灰度图像;选定待检测图像,将待检测图像转化为灰度图像。如果是对档案进行处理,则首先将原始档案进行扫描,得到扫描图像,然后查看该扫描图像是否为灰度图像,若是则直接进入步骤S22,如果是彩色图像,则将彩色图像转化为灰度图像后再进入步骤S22。本发明所述的方法目前支持的图像类型包括彩色图像和灰度图像,图像的格式为 TIF格式。步骤S22 将灰度图像转换为二值图像,并获取连通区域;将步骤S21中的灰度图像转化为二值图像,并获取二值图像的连通区域。在将灰度图转化为二值图像时,在该步骤中同时保留一份灰度图像。二值图像的连通区域指的是图像中黑色像素点的连续分布区域,根据这些区域可以找出每个文字和每张图所在的大概位置,其效果图如图3中所示,文字外的框即为连通区域的区域范围。所在标记二值图像的连通区域为现有技术,对连通区域的获取可以采用爬虫法获取或者其它现有技术,本具体实施方式
中不再详细介绍。步骤S23 确定连通区域中图像的文字区域和图像区域;根据连通区域的范围,找出灰度图像中所对应的该连通区域内对应的内容,分析连通域内的图像信息,找出图像中的文字区域和图像区域。判断连通区域图像中的文字区域和图像区域时,通过判断区域中的内容是否为字来确定,如果内容为文字或者字符,则该区域为文字区域,否则为图像区域,可以通过OCR等技术手段进行判断。步骤S24 确定图像区域中的线条图和照片图;根据图像区域的色阶分布和纹理特征,确定图像区域中图像的类型,所述图像的类型包括线条图和照片图。在灰度图像中,颜色范围为O 255,0为黑色,255为白色,其颜色的值即为色彩强度,色阶中色彩强度的分布即颜色过度的范围。例如,如果是文字或者线条,从文字到背景的颜色过度可以为0、0、255,其颜色跨度比较大;如果是照片,从照片到背景的颜色过度可能为30、80、140、180、210、255,其颜色的跨度小。根据色彩强度的过度范围作为判断照片的一个依据。所以,照片图的色阶特征是每个黑色像素点之间的色彩强度都会有差别,而且各黑色像素点之间的色彩强度过渡缓慢,而线条图的纹理特征基本是以直线和曲线为主,而且强度比较单一,根据以上特征判断图像区域的内容是线条图还是照片图。步骤S25 确定照片图中是否含有人物肖像。
提取图像区域中照片图多方向、多尺度的Gabor特征,根据所提取的Gabor特征确定照片图中是否含有人物肖像。得到照片图的Gabor特征后,在已经建立好的特征库中进行分类比较,来判断照片图中是否含有人物肖像。建立好的特征库中包括人脸轮廓线的信息和五官的信息,而且还包括了眼鼻口三官的位置关系。Gabor函数可以在不同尺度、不同方向上提取相关的特征,Gabor函数与人眼的生物作用相仿,所以经常用作纹理识别上,并取得了较好的效果。本发明正是利用了了 Gabor算法的上述特性,将照片图根据Gabor算法变换后,提取到Gabor特征值,将获取的值与建立好的特征库进行比较,选出含有人物肖像的照片图。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种文档中含有人物肖像的图像检测方法,包括以下步骤(1)选定待检测图像,将待检测图像转化为灰度图像;(2)将灰度图像转化为二值图像,并获取二值图像的连通区域;(3)分析连通区域内灰度图像中所对应的图像信息,确定图像信息的文字区域和图像区域;(4)根据所述图像区域的色阶分布和纹理特征,确定图像区域中图像的类型,所述图像的类型包括线条图和照片图;(5)提取图像区域中照片图的Gabor特征,根据所提取的Gabor特征确定照片图中是否含有人物肖像。
2.如权利要求1所述的一种文档中含有人物肖像的图像检测方法,其特征在于步骤(3)中,确定图像信息的文字区域和图像区域时,若图像信息的内容为文字或者字符,该图像信息所在区域为文字区域,否则为图像区域。
3.如权利要求1或2所述的一种档中含有人物肖像的图像检测方法,其特征在于步骤(3)中,通过OCR技术确定图像信息的文字区域和图像区域。
4.如权利要求1所述的一种文档中含有人物肖像的图像检测方法,其特征在于步骤(4)中,如果图像区域中图像的色阶分布中所有黑色像素点中的色彩强度不同,则该图像为照片图;如果图像以直线和曲线构成,且图像的色阶分布中黑色像素点的色彩强度单一,则该图像为线条图。
5.如权利要求1所述的一种文档中含有人物肖像的图像检测方法,其特征在于步骤(5)中,通过将所提取照片图的Gabor特征与建立好的特征库进行比较,确定照片图中是否含有人物肖像。
6.如权利要求5所述的一种文档中含有人物肖像的图像检测方法,其特征在于所述建立好的特征库中包括人脸轮廓线信息和五官信息。
7.如权利要求6所述的一种文档中含有人物肖像的图像检测方法,其特征在于所述五官信息包括眼、鼻、口三官的位置关系。
8.如权利要求1所述的一种文档中含有人物肖像的图像检测方法,其特征在于步骤 (1)中,所述灰度图像的格式为TIF格式。
9.一种文档中含有人物肖像的图像检测系统,包括图像转化装置用于将待检测图像转化为灰度图像,将灰度图像转化为二值图像; 连通域获取装置用于获取二值图像的连通区域; 区域确定装置用于确定连通区域内灰度图像中的文字区域和图像区域; 图像类型确定装置用于根据图像区域的色阶分布和纹理特征,确定图像区域中图像中的类型,所述类型包括线条图和照片图;人物肖像确定装置用于提取图像区域中照片图的Gabor特征,并根据所提取的Gabor 特征确定照片图中是否含有人物肖像。
10.如权利要求9所述的一种文档中含有人物肖像的图像检测系统,其特征在于所述人物肖像确认装置包括特征比较模块用于将照片图的Gabor特征与建立好的特征库中的特征进行分类比较,确定照片图中是否含有人物肖像。
全文摘要
本发明公开了一种文档中含有人物肖像的图像检测方法及系统,涉及图像检测领域。该方法首先将待检测的图像转化为二值图像,得到其连通域,确认连通域范围内灰度图像的文字区域和图像区域,然后根据图像区域的色阶分布和纹理特征,确定图像区域中的照片图,最后根据照片图的Gabor特征确认照片图中是否含有人物肖像。该方法及系统提供了一种在众多文档图像中将文档图像中含有人物肖像的图像挑选出来的自动化工具,与现有的人工挑选方法相比,提高了挑选的效率与准确率,降低了人员成本。
文档编号G06K9/46GK102496025SQ201110402198
公开日2012年6月13日 申请日期2011年12月7日 优先权日2011年12月7日
发明者周长岭, 李明 申请人:方正国际软件有限公司