一种基于指纹的网页快速去重算法
【专利摘要】本发明公开了一种基于指纹的网页快速去重算法,该算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取,再将关键词序列利用散列算法生成唯一的指纹;如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在;采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。
【专利说明】一种基于指纹的网页快速去重算法【技术领域】
[0001]本发明涉及互联网【技术领域】,特别是基于指纹的网页快速去重算法。
【背景技术】
[0002]随着互联网的发展,信息量迅速膨胀。导致了很多重复性的网页数据,对人们的阅读以及知识整理带来了很大的不便。在搜索引擎领域,大量的重复数据则会极大的影响搜索结果质量。
[0003]网页去重技术正是识别这类大量的重复性数据的关键技术。
[0004]目前网页去重主要采用的方法是基于标题是否相同进行比对,如果相同则视为重复,不同则视为一篇新的网页。
[0005]此外还搭配基于内容的编辑距离算法进行相似度比对。编辑距离的概念是两篇网页,修改其中一篇,使其达到另外一篇,去重准确度不高。
[0006]很多网站会对相同的新闻或者帖子进行二次编辑,对标题进行修改。这导致哪怕是修改了一点的网页都将视为不同的网页。
[0007]基于网页内容的编辑距离算法进行相似度比对。编辑距离的概念是两篇网页,修改其中一篇,使其跟另外一篇一模一样,一共需要多少步,去重准确度比技术一稍高,但是一旦交换网页的部分段落位置,该算法就会失效。
[0008]该技术性能低下,尤其在海量网页数据的前提下,需要将新入数据与已有数据进行一一比对运算,性能极端低下。
【发明内容】
`
[0009]本发明的目的是解决以上问题,提供一种能够有较高准确性的去重算法,能够识别经过一定修改的网页内容。同时性能优异,能够适应于海量网页数据的去重。
[0010]为达到上述目的,本发明所采用的技术方案是:一种基于指纹的网页快速去重算法,该本算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取。再将关键词序列利用散列算法生成唯一的指纹。指纹需要的空间很小,能够有效的节约内存,极大的提闻效率。
[0011]本算法采用以下步骤:
[0012]1、取出一篇网页,将网页的内容和标题进行分词。
[0013]2、对每个分出来的词进行次数统计。
[0014]3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。
[0015]4、按照每个词的分值进行从大到小排序。
[0016]5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。
[0017]6、该MD5值即该网页的指纹。
[0018]7、如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。[0019]在步骤5中,取的个数可以视情况而定,拼接符可以任意。
[0020]采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。
【具体实施方式】:
[0021]为使本发明的技术方案便于理解,以下结合【具体实施方式】对本发明作进一步的说明。
[0022]实施例:一种基于指纹的网页快速去重算法,该本算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取。再将关键词序列利用散列算法生成唯一的指纹。指纹需要的空间很小,能够有效的节约内存,极大的提闻效率。
[0023]本算法采用以下步骤:
[0024]1、取出一篇网页,将网页的内容和标题进行分词。
[0025]2、对每个分出来的词进行次数统计。
[0026]3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。
[0027]4、按照每个词的分值进行从大到小排序。
[0028]5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。
[0029]6、该MD5值即该网页的指纹。
[0030]7、如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。
[0031]在步骤5中,取的个数可以视情况而定,拼接符可以任意,
[0032]采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。
[0033]以上所述,仅为本发明的较佳实施例,并非对本发明作任何形式上和实质上的限制,凡熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用以上所揭示的技术内容,而作出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
【权利要求】
1.一种基于指纹的网页快速去重算法,其特征在于:该算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取,再将关键词序列利用散列算法生成唯一的指纹;算法采用以下步骤: 1、取出一篇网页,将网页的内容和标题进行分词。 2、对每个分出来的词进行次数统计。 3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。 4、按照每个词的分值进行从大到小排序。 5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。 6、该MD5值即该网页的指纹。
2.根据权利要求1所述的基于指纹的网页快速去重算法,其特征在于:所述如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。
3.根据权利要求1所述的基于指纹的网页快速去重算法,其特征在于:所述在步骤5中,取的个数可以视情况而定,拼接符可以任意。
【文档编号】G06F17/30GK103778163SQ201210414947
【公开日】2014年5月7日 申请日期:2012年10月26日 优先权日:2012年10月26日
【发明者】李旭日 申请人:广州市邦富软件有限公司