伪原创网站的识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息技术领域,特别涉及一种伪原创网站的识别方法及装置。
【背景技术】
[0002]随着网络技术的不断发展,通过网络获取信息的用户人数也越来越多,能够为用户提供信息的网站也随之增多。然而随着网站数量的不断增多,不同网站之间信息的重复率也随之增加,因此出现了伪原创网站,伪原创网站中的网页通常为对原创网站中的网页进行再加工生成的。
[0003]目前,对伪原创网站的识别方式通常为首先挖掘伪原创特征词,若某一个网页包含有伪原创特征词,则确定该网页为伪原创网页,并且当一个网站包含有大量伪原创网页时,确定该网站为伪原创网站。然而由于自然语言中词语存在多义性的问题,因此现有伪原创特征词的挖掘准确率较低,从而造成基于伪原创特征词识别伪原创网站的准确率较低。
【发明内容】
[0004]本发明实施例提供一种伪原创网站的识别方法及装置,可以提高伪原创网站的识别准确率。
[0005]本发明实施例采用的技术方案为:
[0006]一种伪原创网站的识别方法,包括:
[0007]提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
[0008]分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
[0009]统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
[0010]若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
[0011]一种伪原创网站的识别装置,包括:
[0012]提取单元,用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
[0013]计算单元,用于分别计算所述提取单元提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
[0014]统计单元,用于统计所述计算单元计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
[0015]确定单元,用于若所述统计单元统计所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
[0016]本发明实施例提供的伪原创网站的识别方法及装置,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
【附图说明】
[0017]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0018]图1为本发明实施例提供的一种伪原创网站的识别方法流程图;
[0019]图2为本发明实施例提供的另一种伪原创网站的识别方法流程图;
[0020]图3为本发明实施例提供的一种伪原创网站的识别装置结构示意图;
[0021]图4为本发明实施例提供的另一种伪原创网站的识别装置结构示意图。
【具体实施方式】
[0022]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0023]为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
[0024]本发明实施例提供一种伪原创网站的识别方法,如图1所示,所述方法包括:
[0025]101、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。
[0026]其中,每一个网站下都会包含有多个网页,每一个网页对应的样式指纹为一种标识该网页的64位数字码,是基于网页html (网页超文本标记语言)源代码的dom树结构中的各个节点生成的。
[0027]102、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。
[0028]其中,数据库中保存有预先挖掘的大量伪原创样式指纹。
[0029]具体地,依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的64位数字码,并且统计相同位上数字码不同的次数,将所述次数作为网页对应的样式指纹与伪原创样式指纹之间的海明距离。例如,网页对应的样式指纹与伪原创样式指纹的第24位、第50位对应的数字码不同,则网页对应的样式指纹与伪原创样式指纹之间的海明距离为2。
[0030]103、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。
[0031]其中,第一预设阈值为海明距离上限值,可以为3、5、6等,具体可以根据实际需求进行配置,本发明实施例不做限定。
[0032]104、若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
[0033]其中,第二预设阈值为网页数量上限值,可以根据实际需求进行配置,本发明实施例不做限定。当网页数量大于或等于第二预设阈值时,说明该网站包含的网页中,伪原创网页的数量过多,从而确定该网站为伪原创网站,提高了伪原创网站的识别准确率。
[0034]本发明实施例提供的一种伪原创网站的识别方法,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
[0035]本发明实施例提供另一种伪原创网站的识别方法,如图2所示,所述方法包括:
[0036]201、计算各个网站中包含的网页对应的样式指纹,并且建立样式指纹与网页之间的对应关系。
[0037]其中,通常可以对用户近期浏览网站中的全部网页进行样式指纹的获取。一个样式指纹可以对应一个或多个网页,每一个网页分别对应一个URL (Uniform ResourceLocator,统一资源定位符),URL用于标识网页对应的网站链接地址。
[0038]对于本发明实施例,步骤201具体可以包括:首先创建网页节点样式集合,然后根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串,最后计算所述网页对应的样式字符串的simhash (局部敏感哈希)值,并将所述simhash值作为所述网页对应的样式指纹。
[0039]其中,网页节点样式集合中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值。节点样式属性具体可以为颜色、字体大小、显示范围等,节点样式属性值为各个节点样式属性的具体配置,例如,对于节点样式属性颜色,节点样式属性值可以为红色、蓝色等;对于节点样式属性字体大小,节点样式属性值可以为字体大小的具体赋值。
[0040]对于本发明实施例,创建网页节点样式集合的步骤具体可以包括:首先获取所述网页对应的html源代码,并根据所述网页对应的html源代码,构建所述网页对应的dom树结构,然后提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值,最后根据所述各个节点分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所述网页节点样式集合中。例如,某一个节点的节点名称为节点1,则节点I对应的字符串的形式可以为(节点I颜色红色字体大小小四)。
[0041]对于本发明实施例,根据网页的各个节点分别对应的字符串,生成所述网页对应的样式字符串的步骤具体可以包括:首先生成空字符串S,然后判断所