专利名称::内容过滤方法及内容过滤装置的制作方法
技术领域:
:本发明涉及网络信息搜索,更具体地说,涉及在网络信息搜索中的内容过滤。
背景技术:
:随着互联网技术的飞速发展,人们不仅可以从单纯的文本,而且可以通过图片、音频和/或视频等多种媒体获取各种信息(也称为"内容")。由于现在网络信息的泛滥,当用户搜索某些包含图片的内容时,搜索结果中往往有许多包括文字(抑或带有图像)的图片(简称"小说图片")。例如,在搜索某个人物有关的图片时,就会出现很多与该人物有关的小说图片。这常常彩响用户的体验感受。随着网络信息的迅速膨胀,搜索引擎也在向行业化和细分化发展。垂直搜索是能够针对特定行业、特定业务或专业需求而提供的一种搜索技术。作为已有的网络搜索的细化和延伸,对某类网页资源或结构化资源进行深度整合,从而为用户提供符合专业用户操作行为要求的信息服务。但是,在垂直搜索的技术中,目前对于诸如小说图片等的内容进行过滤的技术还很少。
发明内容本发明提供一种内容过滤技术,能对不希望的内容进行判断和过滤。根据本发明的一个方面,一种内容过滤方法包括将内容进行二值化处理;提取经过二值化处理后的内容中的特征值;和根据所述特征值确定是否将该内容过滤。根据本发明的另一个方面,一种内容过滤方法包括将内容进行二值化处理;获取经过二值化处理后的内容的特征值;基于特征值,确定内容的置信概率;和根据置信概率确定是否将该内容过滤。在本申请中,"内容"可包括网络信息的各种表示形式,例如可以是各种包含图像或文字或兼有二者的网页图片等。根据本发明另一方面,还提供一种内容过滤装置,包括二值化模块,将内容进行二值化处理;特征值获取模块,确定经过二值化处理后的内容的特征值;以及过滤模块,根据特征值确定是否将内容进行过滤。根据本发明另一方面,还提供一种内容过滤装置,包括二值化模块,将内^ii行二值化处理;特征值获取模块,确定经过二值化处理后的内容的特征值;置信概率确定单元,根据内容特征值确定内容的i信概率;以及过滤模块,根据置信概率确定是否将该内容进行过滤。本发明能够对诸如小说图片之类的不希望的内容进行过滤,并可以用于垂直搜索引擎中,但不以此为限。图l是本发明的一种实施方式的内容过滤方法的流程示意图;图2是本发明另一种实施方式的内容过滤方法的流程图;图3是根据本发明的一种实施方式的内容过滤装置的示意图;图4是根据本发明的另一种实施方式的内容过滤装置的示意图。具体实施例方式以下将参考对网络搜索的内容进行过滤的一些实施方式。在这些实施方式中是以对网络搜索中获取的多个图片中过滤掉小说图片为例来说明的。如前所述,小说图片是指包括文字(或文字+图像)的图片。但是这并不应当理解为是对本发明的限制。参照图l,在一种实施方式中,内容过滤方法包括以下步骤在步骤SIO,将通过搜索获取的图片(即内容)进行二值化处理,以便于对图片特征的提取。在步骤Sll,从经过二值化处理的图片中提取图片的特征值。图片的特征值可以包括字符排列整齐性和/或字符行的游程分布紧密性,还可以包括字符大小一致性、字符颜色单一性等。在步骤S12,可以根据所确定的特征值,判断图片是否为小说图片。如是,则过滤该图片。"过滤"可以是将该图片所属的网站降位排序,或者阻止其显示。目前将图片进行二值化处理所采用的二值化算法有多种,如全局阈值法、自动亮度选取法、笔划特征自适应阈值法和Niblack算法等。Niblack算法是一种局部二值化算法。灰度阈值通常由局部平均灰度和局部标准方差决定。在一个实施例中,采用改进的Niblack算法,即用固定经验阈值来代替局部标准方差,可以去除大量Niblack算法带来的固有的噪音,便于图片特征提取。改进的Niblack算法的计算公式如下T(x,y)=M(x,y)-Th(1)其中,T(x,y)是坐标为(x,y)的像素点的灰度阈值;M(x,y)是坐标为(x,y)的像素点的局部平均灰度值;Th是固定经验阈值,可以通过大量试验来获取。在本例对图片的分析中,采用窗体大小是20x20,Th值选择为12,能达到较好的效果。该参数选择尤其适合含有很多字符的图片,可以避免在二值化处理后图片部分发糊的现象,还可以很好地滤除噪音。边界区域很小的图片一般不具备窗体大小是20x20的条件,则可以用全局阈值进行二值化。具体方式如上,在此不再赘述。然后,根据取得的灰度阈值,输出二值化图片。参照图2,说明判断小说图片以进行过滤的方法示例。在步骤Slll中,提取经过二值化处理后的图片的特征值。(1)投影特性在一个例子中,投影特性可以通过图片的水平或垂直方向(取决于图片中文字横向排列还是纵向排列)的投影进行判定。例如,可以通过水平方向的投影的波谷分布进行判定。投影的波谷可以是投影累加和为零的投影。如果投影特性用Fl表示,则Fh波谷个数/图片高度。通常小说图片的字符排列整齐,尤其是水平方向字符行的排列。字符行之间的间隔在水平方向的投影形成波谷。Fl值越大,则波谷的个数多,可以认为图片的字符排列比较整齐。在该例子中同样可以通过海量的训练样本(例如通过训练概率分布直方图),获取小说图片的Fl值的范围。F1值一般在0.03至1之间,Fl的值越大,例如0.5以上,图片为小说图片的可能性较大。根据发明人的试验结果,利用这种投影特性值来判断小说明图片,准确率可以达到80%以上。(2)游程分布紧密性在另一个例子中,还可以根据字符行的游程分布紧密性来判断小说图片。例如可以通过图片的黑色的游程分布,对图片进行鉴别。以下举例对色素游程(例如黑色游程)进行说明。例如,二值化处理后图片的一行像素分布如下(l代表黑,O代表白)的黑色游程个数为5个。、'字符行的游程分布紧密性如用F2表示,贝寸<formula>formulaseeoriginaldocumentpage6</formula>其中,1\是第r行的黑色游程个数,r是行数,W是以像素个数表示的图片的宽度,H是图片的高度。在(nr/W-0.3)的值大于零时,Sgn(nr/W-0.3)取值为1,而当(iVW-0.3)的值是小于零时,取值为0或-l。由于小说图片与正常人物或者风景等图片相比,其黑色游程个数较多,因而黑色游程分布紧密性较高。因此,可以通过计算黑色游程分布紧密性区分小说图片与非小说图片。通过公式(2)可以取得图片黑色游程分布紧密性F2。F2越大,则黑色游程个数越多,其在图片中分布的紧密程度也越高。可以通过海量的训练样本(例如概率分布直方图),获取小说图片的F2值的范围。根据一个训练结果,F2值一般在0.2至1之间时,该图片为小说图片的可能性较大。根据发明人的试验结果,利用这种游程分布紧密性来判断小说明图片,准确率可以达到80%以上。(3)字符大小一致性字符大小一致性主要体现在图片的连通域在水平和垂直方向投影大小的一致性的情况和连通域在水平方向和垂直方向的整齐性。一致性表示的是投影尺寸的特性,整齐性则反应投影分布的特性。设字符大d、一致性用F3表示,可以釆用以下的计算公式来确定c,min(h/w,w/h)xHxW,,、(1+1max(nw,nh)—max(H/W,W/H)|/2)x(1+max(dh,dw))x(1+max(dbh,dbw))其中,H为以像素单位表示的图片的高度,W为以像素单位表示的图片的宽度。将图片的连通域分别作水平和垂直方向的投影,可以得到水平方向投影的高度h和垂直方向的投影的宽度w。为消除小噪声的干扰,规定每一个连续投影黑色像素数目应未超过一个经验值(例如5个)时,就不进行上述处理。同时,统计出水平和垂直方向的投影宽度超过100个像素宽的投影个数nw和n,'。由水平方向投影高度h和垂直方向的投影宽度W,以及水平和垂直方向的像素点(i),可以得到水平方向投影和垂直方向投影直方图分布的均值,从而得到水平方向投影宽度的方差d"、垂直方向投影宽度的方差cL、以及投影间隔宽度的方差dbh和dbw。通过式(3)得到F3的值在O.l至100之间。F3值越大,则字符大小一致性越好(即越一致)。在该例中,通过海量的训练样本,例如通过训练概率分布直方图来获取小说图片的F3值的范围。其中,F3值在60至IOO之间时,该图片为小说图片的可能性较大。训练概率分布直方图为现有技术,在此不再赘述。(4)字符颜色单一性字符颜色单一性是图片的字符颜色数与其RGB色彩模式的颜色数的对比情况,如用F4表示,则F4二字符颜色数/RGB色彩模式的颜色数。通常小说图片的颜色色调比较单一,其F2值较小。在本例中,仍然可以通过海量的训练样本(例如通过训练概率分布直方图),获取小说图片的F4值的范围。当F4值在0.00001至0.0015之间,字符颜色趋向于单一,图片为小说图片的可能性较大。参见步骤S112。根据本发明的一种实施方式,还可以根据上述特征值来确定图片为小说图片的置信概率。根据置信概率来判断该图片是否为小说图片从而确定是否将其过滤。在一个例子中,利用了贝叶斯分类算法进行置信概率的确定。贝叶斯分类算法可以独立地学习每个图片特征值Ai(即上文中所说的投影特性、游程分布紧密性、字符大小一致性、颜色单一性等特征值)在类别(小说图片或非小说图片)下的条件概率Pd(AiiC=Ci)。根据贝叶斯公式计算某一图片特征值对某个类别的后验概率P(C,IA,,Hjan一oP(di)f"[P(AilC:Ci)(4)其中,i、n为自然^:,C为类别变量,Cj为不同类别的常量(例如"1"或"0"),"为l/P(A,=a,AAAA=an)。P(A,-a丫AAA,a,')表示多个特征^f直的联合冲既率.在该例中,后验概率可以作为图片的置信概率。另外,利用公式(4)可以计算图片单个特征值的后验概率。对图片每种特征值都可以计算出图片单个特征的后验概率,从而判断出小说图片以进行过滤。这里假设前文中提到的四种图片特征值是独立分布的。这样,四种特征值的联合概率可以由四种独立特征值的概率得到。通过综合多个图片特征值,并同时根据分类效果进行特征值加权,获得基于特征值加权的综合后的后验概率,对小说图片进行判断和过滤,可以达到更好的过滤效果。说明如下例如,假设A」。k是数据集D中所有图片特征值Aj取值等于a」k的数据集合。如果存在某个实例deA^,且满足类别Cd=Ci,对于使用公式(4)计算的每一项(即每个特征值的后验概率)P(A广a]klC^)给予系数w,j.k,贝'J:否则,Wii「A,其中0<|8^是一个修正系数。因此,综合后的后验概''J'|d|率P(c」〈a,,a2,A,a,,〉)可以为公式中,P(Ci)为类别Cj的后验概率,P(a'klc,)为类别Ci中单个图片特征值的后验概率的分布。通过上述公式(6),可以得出基于加权的综合后的后验概率,从而对由此判断的小说图片进行过滤。上述假设四种图片特征值是独立分布的方法实际上是采用了朴素贝叶斯分类器(NaiveBayesianClassifier)来确定图片的置信概率。朴素贝叶斯分类器是一种基于Bayes理论的简单分类方法。朴素贝叶斯分类器的"朴素"指的是它的条件独立性的假设。如上所述,可以利用特征值加权技术来增强朴素贝叶斯分类器对小说图片的过滤能力。通过将图片的多个特征值各自的后验概率综合,获得综合后的后验概率。利用特征值加权技术获得综合后验概率在具体实现上与上述公式(6)的实质是一样的,只是加权系数的确定方法不同。特征加权技术的加权系数是多样的,例如可以通过实验结果确定,将对小说图片的判断影响较大的特征值如投影特性和游程分布紧密性设置为具有较大权值;将影响较小的特征值如字符大小一致性、颜色单一性设置为具有较小权值等。公式(6)则是根据样本和已经识别的图片的结果确定加权系数,具有一定的自学习的能力。这样,两种方式都可以综合各个图片特征值对辨识小说图片的影响,使得经过特征值加权技术处理的朴素贝叶斯分类器具有高准确率的小说图片判定能力。通常,综合后的后验概率在0.6以下为小说图片,否则为非小说图片。后验概率的范围可以通过训练概率分布直方图取得。如上述,在对准确率要求不高的情况下,可以使用单个图片特征值的后验概率,来判断小说图片。此外,通过综合多个图片特征值的后验概率,以获得综合后的后验概率,根据该后验概率对小说图片进行过滤,可以达到更好的过滤效果。以上所述的小说图片过滤方法通过计算图片的置信概率来判断小说图片,具有简单高效以及准确的优点。其中,利用特征加权技术将图片的多个特征各自的后验概率综合,获得综合后的后验概率来对小说图片进行过滤,其识别准确率较之通过单个特征值或单个特征值的后验概率判断小说图片要更为准确(例如可达到99%以上)。参照图3,在一种实施方式中,一种小说图片过滤装置包括二值化模块21,特征值提取模块22和过滤模块23。其中二值化模块21将搜索获取的图片进行二值化处理,以便于图片特征的提取。特征值确定模块22确定二值化处理后的图片特征值。如图片的投影特性和/或字符行的游程分布紧密性。图片特征值还可以包括字符大小一致性、字符颜色单一性等。过滤模块23根据所确定的特征值判断和过滤小说图片。确定这些特征值的方法以及根据这些特征判断小说图片的方式在前文中已描述,在此不再赘述。参照图4,在另一种实施方式中,一种小说图片过滤装置包括二值化模块21,特征值提取模块22,过滤模块23,和置信概率确定模块24。其中,二值化模块21和特征值提取模块22可以采用图3中所示的模块,而置信概率确定模块24根据图片特征值确定图片为小说图片的置信概率,确定置信概率的方法如前文如述。在这种情况下,过滤模块23根据置信概率来判断和过滤小说图片。例如,综合后的后验概率通常在0.6以下为小说图片,否则为非小说图片。后验概率的范围可以通过训练概率分布直方图取得。利用上述的小说图片过滤装置和方法,对5577张小说图片样本和9960张非小说样本进行测试。其中,采用多个特征值综合置信概率的方法得出的测试数据如表1所示。<table>tableseeoriginaldocumentpage10</column></row><table>表1其中,10的总时间是指图片的输入输出所花费的时间;归一化的总时间是指将图片的规格统一所花费的时间。可以看出,内容过滤装置通过确定图片的置信概率来判断并过滤小说图片,具有简单高效以及准确的优点。以上仅为本发明的一些实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域:
,均同理包括在本发明的专利保护范围内。权利要求1、一种内容的过滤方法,包括将内容进行二值化处理;获取所述二值化处理后的内容的特征值;和根据所述特征值确定是否对所述内容进行过滤。2、一种内容的过滤方法,包括将内容进行二值化处理;获取所述二值化处理后的内容的特征值;基于所述特征值,确定所述内容的置信概率;和根据所述置信概率确定是否对所述内容进行过滤。3、根据权利要求1或2所述的方法,其中所述内容为至少包含文字和图像之一的图片。4、根据权利要求3所述的方法,其中所述内容的特征值包括所述图片的投影特性,和/或字符行的游程分布紧密性。5、根据权利要求l、2或4所述的方法,其中所述内容的特征值还包括所述图片中字符大小的一致性,和/或字符颜色的单一性。6、根据权利要求4所述的方法,其中当以F1表示所述图片的投影特性时,按如下方式确定F1:F14皮谷个数/图片高度,其中,波谷指所述图片在水平方向的投影累加和为零的投影,或所述图片在垂直方向的投影累加和为零的投影,图片高度以像素为单位;在以F2表示所述字符行的游程分布紧密性时,按以下方式确定F2:<formula>formulaseeoriginaldocumentpage2</formula>其中,nr表示所述图片中第r行黑色游程的个数,W是以像素为单位表示的图片宽度。7、根据权利要求4、5或6所述的方法,其中所述置信概率以P表示时,通过以下方式获得P:<formula>formulaseeoriginaldocumentpage3</formula>其中,C表示类别变量,q表示不同类别的常量,A,表示图片的第i个特征<formula>formulaseeoriginaldocumentpage3</formula>8、根据权利要求4、5或6所述的方法,其中所述内容的置信概率选自以下任一种方式确定通过确定单个所述特征值对类别的后验概率来确定所述置信概率;通过假定多个所述特征值相互独立,并对多个所述特征值的后验概率加权获得综合后的后验概率,来确定所述置信概率。9、根据前述任一项权利要求所述的方法,其中所述二值化处理按如下方式进行T(x,y)=M(x,y)-Th(1)其中,T(x,y)表示坐标为(x,y)的像素点的灰度阈值,M(x,y)表示坐标为(x,y)的像素点的局部平均灰度值,Th是固定经验阈值。10、一种内容过滤装置,包括二值化模块,将内容进行二值化处理;特征值获取模块,确定所述二值化处理后的内容的特征值;和过滤模块,根据所述特征值确定是否对所述内容进行过滤。11、一种内容过滤装置,包括二值化模块,将内容进行二值化处理;特征值获取模块,确定所述二值化处理后的内容的特征值;置信概率确定单元,根据所述内容特征值确定所述内容的置信概率;和过滤模块,根据所述置信概率确定是否对所述内容进行过滤。全文摘要公开了内容的过滤方法,包括以下步骤将所述内容进行二值化处理;确定所述二值化处理后的内容的特征值;和根据所述内容的特征值或根据特征值确定的后验概率,确定是否对所述内容进行过滤。还公开了内容过滤装置。通过确定内容的特征值,可判断并过滤搜索结果中不需要的内容,例如小说图片。文档编号G06F17/30GK101441653SQ20081018618公开日2009年5月27日申请日期2008年12月19日优先权日2008年12月19日发明者波陈申请人:腾讯科技(深圳)有限公司