专利名称:一种微博图片敏感信息检测方法
技术领域:
本发明属于计算机视觉技术领域,更具体地,涉及一种微博图片敏感信息检测方法。
背景技术:
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台,在这个信息时代里,无论是微博用户数量还是微博图片数量都增长到十分惊人的程度。然而,微博图片良莠不齐,对于印有敏感信息的微博图片,由于缺乏有效的检测技术,只能通过人力来进行肉眼判别筛选,这对于呈指数级增长的微博图片来说是不现实的。随着近年计算机视觉技术的飞速发展,利用计算机提取或挖掘出图像中包含信息的应用功能也越来越强大,在各个领域得到了广泛的使用。在计算机视觉领域中,文本检测是应用前景很广的一块,传统的文本检测方法,是基于检测式的思路,需要大量的训练集,对噪声抗性不佳,而且容易漏检错检,并且可扩展性较差,在转化成应用方面遇到了很大的困难,无法适用于微博图片敏感信息检测。
发明内容
针对现有技术的不足,本发明的目的在于提出一种微博图片敏感信息检测方法,其能利用计算机自动匹配和识别出微博图片中的敏感文字信息,且可扩展性强,能抵抗噪声等干扰,并且检测准确率闻。为实现上述目的,本发明提供了一种微博图片敏感信息检测方法,包括以下步骤( I)建立敏感词库、字体库和颜色库;(2)接收N张待检测微博图片;(3)创建一个空的敏感信息列表,用于存储所有微博图片所含敏感信息的检测结果;(4)设置微博图片计数器i = 1,即从第一张微博图片开始敏感信息检测。(5)判断条件i ( N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12);(6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片;(7)设置敏感信息图片计数器j为I ;(8)判断条件j ( M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11);(9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中;(10)设置计数器j = j+1,返回步骤(8);(11)设置计数器i = i+Ι,返回步骤(5);(12)输出敏感信息列表。步骤(I)具体为根据用户的实际要求,建立敏感词库、字体库和颜色库,其中,敏感词库、字体库和颜色库由用户指定,均衡考虑检测的速度和准确率,字体库包括宋体、楷体、仿宋、黑体,颜色库包括白底黑、红、黄、绿、蓝字,黑底白、红、黄、绿、蓝字、红底黑、白字,黄底黑、白字,绿底黑、白字,蓝底黑、白字。步骤(6)具体为 第i张微博图片的高为Hi个像素点,宽为Wi个像素点,对于敏感 词库中的每一个敏感词、字体库中的每一种字体和颜色库中的每一种颜色这三者产生的所有组合而言,为每种组合生成一张包含敏感词、敏感词字体、敏感词颜色和文字背景色的敏感信息图片,其高度为第i张微博图片宽度的X倍,其中X为O. 08至O. 12,敏感信息图片的宽度为当高为XWi时此种字体下敏感词文字对应的默认宽度。步骤(9)包括以下子步骤(9-1)设置行计数器p=l,即从微博图片的第一行开始匹配;(9-2)判断条件P彡H.-xff.+l是否满足,即所选图像块不能超出该微博图片高的范围,如果满足,则继续进行步骤(9-3),当不满足时跳到步骤(9-8);(9-3)设置列计数器q=l,即从微博图片的第一列开始匹配;(9-4)判断条件q ^ W1-Bj+!是否满足,其中Bj是第j张敏感/[目息图片的宽度,如果满足,则继续进行步骤(9-5),当不满足时跳到步骤(9-8);(9-5)从第i张微博图片中以坐标为(P,q)的点为左上点,提取出与第j个敏感信息图片等大小的图像块,把这个图像块和第j个敏感信息图片进行匹配,通过匹配算法计算出匹配度fM,存入第j个敏感信息图片与第i张微博图片的匹配度矩阵Fu中,即Fij (p,
Q) = fpq ;(9-6)设置列计数器q = q+1,返回步骤(9-4);(9-7)设置行计数器P = p+1,返回步骤(9-2);(9-8)找出匹配度矩阵Fu中最大的元素au作为第j个敏感信息图片对第i张微博图片的匹配度;(9-9)判断au是否大于给定的阈值,如果是,则说明第j个敏感信息图片与第i个微博图片匹配,然后进入步骤(9-10),如果不是,进行步骤(10);(9-10)把第i张微博图片的序号1、匹配度au、第j张微博图片中含有的敏感信息、敏感信息字体、敏感信息颜色和匹配度最大的图像块所在的位置存入敏感信息列表中,然后进行步骤(10)。匹配算法选用归一化互相关匹配算法。通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果1、通过步骤(I)至步骤(9),本系统通过输入信息生成所有可能的敏感信息图片,与待检测图片进行图像块匹配,是生成式的匹配模式,与传统文本检测技术相比,由于采用生成所有可能的敏感信息图片的方法,不需要通过特征或边缘等来表达图像,而是直接进行图像块匹配,相比之下,方法简洁有效,不易漏检误检。2、本系统可扩展性强通过步骤(I)和步骤(6),如果出现了新的敏感词、字体、颜色,只需要在相应的库中修改即可完成;根据步骤(9-5),如果有更佳的匹配算法,替换原匹配算法即可。由于本系统输出了敏感词、字体、颜色、匹配度和敏感信息位置等诸多信息,而不是传统方法的简单结果,后续的对敏感信息的处理和统计工作变得十分便利。3、通过步骤(9),若采用归一化互相关匹配算法,本系统在生成式匹配方法中使用归一化互相关匹配算法来完成匹配,对噪声和灰线性变化有较强的抵抗能力,即使敏感信息的字体或颜色不在库中,本系统也有一定的检测能力,鲁棒性强。
图1是本发明微博图片敏感信息检测方法的流程图。图2是构建敏感信息图片库示意图。图3是从微博图片中提取图像块并与敏感信息图片匹配的示意图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下首先就本发明的技术术语进行解释和说明敏感信息列表用来储存微博图片所含敏感信息情况的列表,敏感信息包括微博图片序号、敏感信息文字、敏感信息字体、敏感信息颜色(文字颜色及背景色)。敏感词库微博图片中需要检测出的敏感词总表,由用户设定,可按检测需求修改。字体库微博图片中需要检测出的敏感词的字体总表,可按检测需求修改。颜色库微博图片中需要检测出的敏感词的颜色搭配总表,颜色搭配为敏感词颜色和背景颜色的搭配,如白底黑字,可按检测需求修改。敏感信息图片本系统根据敏感词库、字体库和颜色库的所有组合,对每种组合情况各生成的一张包含敏感词文字(敏感词、敏感词字体、敏感词颜色)和文字背景色的图片,用于与微博图片图像块比较,从而计算出该图像块与敏感信息的相似度,以确定微博图片是否含有敏感信息。如图1所示,本发明运用最大子图的基于局部模型的物体检测方法包括以下步骤( I)建立敏感词库、字体库和颜色库;具体来说,根据用户的实际要求,建立敏感词库、字体库和颜色库。其中,敏感词库、字体库和颜色库由用户指定。均衡考虑检测的速度和准确率,字体库和颜色库采用以下设定为最佳字体库包括宋体、楷体、仿宋、黑体,颜色库包括白底黑、红、黄、绿、蓝字,黑底白、红、黄、绿、蓝字、红底黑、白字,黄底黑、白字,绿底黑、白字,蓝底黑、白字。这些最佳设定值是根据系统实际测试效果得出的;(2)接收N张待检测微博图片;
在本实施方式中,对微博图片的大小等参数没有限制要求;(3)创建一个空的敏感信息列表,用于存储所有微博图片敏感信息的检测结果;具体而言,敏感信息列表包含微博图片序号、敏感信息文字、敏感信息字体、敏感信息颜色;(4)设置微博图片计数器i=l,即从第一张微博图片开始敏感信息检测;(5)判断条件i ( N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12);(6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片;具体而言,第i张微博图片的高为Hi个像素点,宽为Wi个像素点,对于敏感词库中的每一个敏感词、字体库中的每一种字体和颜色库中的每一种颜色这三者产生的所有组合而言,为每种组合生成一张包含敏感词、敏感词字体、敏感词颜色和文字背景色的敏感信息图片,即在某种背景色下某种颜色某种字体的某个敏感词的图片,所有的敏感信息图片形成敏感信息图片库,生成的敏感信息图片库如图2所示。敏感信息图片库中的每一幅图片,其高度为第i张微博图片宽度的X倍,其中X为O. 08至O. 12 (根据系统实际检测情况,设定为O. 095倍时检测准确率最高,即O. 095Wi个像素),敏感信息图片的宽度为当高为XWi时此种字体下敏感词文字对应的默认宽度。本步骤目的在于生成各种情况下(敏感词、字体、敏感词颜色、背景色)的敏感信息图片样式,以便后文把这些敏感信息图片放到待检测的微博图片中匹配;(7)设置敏感信息图片计数器j为1,即从敏感信息图片库中的第一张图片开始;(8)判断条件j ( M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11);(9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中。具体而言,包括以下步骤(9-1)设置行计数器p=l,即从微博图片的第一行开始匹配;(9-2)判断条件P彡H.-xff.+l是否满足,即所选图像块不能超出该微博图片高的范围,如果满足,则继续进行步骤(9-3),当不满足时跳到步骤(9-8);(9-3)设置列计数器q=l,即从微博图片的第一列开始匹配;(9-4)判断条件q ( ff-Bj+1是否满足,即所选的图像块不能超出该微博图片宽的范围,其中h是第j张敏感信息图片的宽度,如果满足,则继续进行步骤(9-5),当不满足时跳到步骤(9-8);这里步骤(9-1)到步骤(9-4)实现了从微博图片上所有可能位置上提取图像块的遍历情况,这里采用逐行扫描顺序提取图像块的遍历方式,也可以采用其他提取图像块的方式,比如逐列扫描或随机扫描,但必须保证遍历完微博图片上所有可能提取出的图像块。 (9-5)从第i张微博图片中以坐标为(P,q)的点为左上点,提取出与第j个敏感信息图片等大小的图像块,把这个图像块和第j个敏感信息图片进行匹配,通过匹配算法计算出匹配度fM,存入第j个敏感信息图片与第i张微博图片的匹配度矩阵Fu中,即Fij (p,q) = fpqD在本实施方式中,根据系统实际情况,匹配算法选用归一化互相关匹配算法,匹配过程的示意图如图3所示;(9-6)设置列计数器q = q+1,返回步骤(9-4);(9-7)设置行计数器P = p+1,返回步骤(9-2);(9-8)找出匹配度矩阵Fij中最大的元素au作为第j个敏感信息图片对第i张微博图片的匹配度;若微博图片某个位置有敏感信息,当我们把敏感信息图片与微博图片进行匹配时,含有敏感信息图像块附近匹配度都会比较大,而当敏感信息图片与含有敏感信息图像块恰好在位置上重合时,匹配度最大,故只取最大值作为敏感信息图片与微博图片的匹配度;(9-9)判断au是否大于给定的阈值,如果是,则说明第j个敏感信息图片与第i个微博图片匹配,即第i个微博图片中含有第j个敏感信息图片中的敏感信息,然后进入步骤(9-10),如果不是,则说明第i个微博图不含第j个敏感信息图片中的敏感信息,然后进入步骤(10)。阈值取值范围为最大匹配度(即两张图片完全相同的匹配度)的O. 7到I倍,根据系统实际测试结果,取O. 85系统性能较好,阈值取值越大,则匹配的精度越高,但会导致漏检率越大;阈值的值越小,则匹配的精度越低,漏检率相应的越小;(9-10)把第i张微博图片的序号1、匹配度au、第j张微博图片中含有的敏感信息、敏感信息字体、敏感信息颜色和匹配度最大的图像块所在的位置(即敏感信息在微博图片中的位置)存入敏感信息列表中;然后进行步骤(10);(10)设置计数器j = j+1,返回步骤(8);(11)设置计数器i = i+Ι,返回步骤(5);步骤(4)到步骤(11)实现了所有微博图片和所有相应的敏感信息图片的遍历匹配,至此所有微博图片所含敏感信息情况都存入敏感信息列表中了。( 12)输出敏感信息列表。本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种微博图片敏感信息检测方法,其特征在于,包括以下步骤 (1)建立敏感词库、字体库和颜色库; (2)接收N张待检测微博图片; (3)创建一个空的敏感信息列表,用于存储所有微博图片所含敏感信息的检测结果; (4)设置微博图片计数器i= 1,即从第一张微博图片开始敏感信息检测。
(5)判断条件i< N是否满足,如果满足,则继续进行步骤(6),当不满足时跳到步骤(12); (6)以第i张微博图片大小为准,并根据敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,敏感信息图片库包括M个敏感信息图片; (7)设置敏感信息图片计数器j为I; (8)判断条件j( M是否满足,如果满足,则继续进行步骤(9),当不满足时跳到步骤(11); (9)从第i张微博图片的所有可能位置上提取出与第j个敏感信息图片等大小的多个图像块,遍历计算每个图像块与第j个敏感信息图片的匹配度,并根据计算得到的所有匹配度中的最大值确定与第j个敏感信息图片最相近的图像块匹配度,根据匹配度判定是否存在敏感信息,若存在则将相关匹配信息存入敏感信息列表中; (10)设置计数器j= j+1,返回步骤(8); (11)设置计数器i= i+1,返回步骤(5); (12)输出敏感信息列表。
2.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,步骤(I)具体为根据用户的实际要求,建立敏感词库、字体库和颜色库,其中,敏感词库、字体库和颜色库由用户指定,均衡考虑检测的速度和准确率,字体库包括宋体、楷体、仿宋、黑体,颜色库包括白底黑、红、黄、绿、蓝字,黑底白、红、黄、绿、蓝字、红底黑、白字,黄底黑、白字,绿底黑、白字,蓝底黑、白字。
3.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,步骤(6)具体为第i张微博图片的高为Hi个像素点,宽为Wi个像素点,对于敏感词库中的每一个敏感词、字体库中的每一种字体和颜色库中的每一种颜色这三者产生的所有组合而言,为每种组合生成一张包含敏感词、敏感词字体、敏感词颜色和文字背景色的敏感信息图片,其高度为第i张微博图片宽度的X倍,其中X为0. 08至0. 12,敏感信息图片的宽度为当高为XWi时此种字体下敏感词文字对应的默认宽度。
4.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,步骤(9)包括以下子步骤 (9-1)设置行计数器p=l,即从微博图片的第一行开始匹配; (9-2)判断条件p ( H1-Xffi+!是否满足,即所选图像块不能超出该微博图片高的范围,如果满足,则继续进行步骤(9-3),当不满足时跳到步骤(9-8); (9-3)设置列计数器q=l,即从微博图片的第一列开始匹配; (9_4)判断条件q ^ ffj-Bj+l是否满足,其中Bj是第j张敏感信息图片的宽度,如果满足,则继续进行步骤(9-5),当不满足时跳到步骤(9-8); (9-5)从第i张微博图片中以坐标为(p,q)的点为左上点,提取出与第j个敏感信息图片等大小的图像块,把这个图像块和第j个敏感信息图片进行匹配,通过匹配算法计算出匹配度4,,存入第j个敏感信息图片与第i张微博图片的匹配度矩阵Fu中,即匕“ ,q)=fM ; (9-6)设置列计数器q = q+l,返回步骤(9-4); (9-7)设置行计数器p = p+l,返回步骤(9-2); (9-8)找出匹配度矩阵Fu中最大的元素au作为第j个敏感信息图片对第i张微博图片的匹配度; (9-9)判断au是否大于给定的阈值,如果是,则说明第j个敏感信息图片与第i个微博图片匹配,然后进入步骤(9-10),如果不是,进行步骤(10); (9-10)把第i张微博图片的序号1、匹配度\.、第j张微博图片中含有的敏感信息、敏感信息字体、敏感信息颜色和匹配度最大的图像块所在的位置存入敏感信息列表中,然后进行步骤(10)。
5.根据权利要求1所述的微博图片敏感信息检测方法,其特征在于,匹配算法选用归一化互相关匹配算法。
全文摘要
本发明公开了一种微博图片敏感信息检测方法,包括建立敏感词库、字体库和颜色库,接收N张待检测微博图片,创建敏感信息列表,遍历检测微博图片是否含敏感信息,根据当前微博图片大小和敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,并遍历与该微博图片进行匹配,根据微博图片上遍历位置的图像块与敏感信息图片的匹配度中的最大值判定是否存在敏感信息,并将匹配信息存入敏感信息列表中。本方法的特征是基于生成式,不易漏检误检,鲁棒性强,并且检测准确率高。
文档编号G06K9/64GK103020651SQ20121049092
公开日2013年4月3日 申请日期2012年11月27日 优先权日2012年11月27日
发明者白翔, 姚聪, 陈瑞军, 申辰, 刘文予 申请人:华中科技大学