专利名称:一种网页的排重方法及排重系统的制作方法
一种网页的排重方法及排重系统技术领域 _本发明涉及网页排重领域,特别是涉及一种网页的排重方法及排重系统。
技术背景随着互联网技术的迅猛发展,互联网上的网页越来越多,据统计,中文网页已逾百亿,其中大约有70%属于重复网页。重复网页是指实质内容相同的网 页,例如,显示内容完全相同的网页;正文内容相同,^f旦标题不同的网页;正 文内容相同,但辅助内容不同的网页等。重复网页在互联网网页中所占的比重 非常大,如何在数量巨大的网页中有效去掉重复网页,是搜索引擎所面临的一 个难题。目前,现有技术是通过在网页中选取特征码,对比特征码的方式排除 重复网页。参阅图l,示出现有网页的排重方法,具体步骤如下所述。步骤SlOl、在网页中选取特定符号作为定位点。特定符号可为句号、逗号、分号、感叹号等。将网页正文中出现的特定符号作为定位点。步骤S102、在定位点两边选取一定数量的词语作为特征码。 一定数量可为根据网页正文内容的多少确定。例如,在定位点两边各选取5个词语组成特征码。步骤S103、比较选取的特征码,如相同或相近似的特征码超过阈值,判 定网页为重复网页;如低于阔值,判定网页不是重复网页。特征码相同是指特 征码所包含的词语完全相同,特征码相近似是指特征码中所包含的具有实质意 义的词语相同,例如,特征码为"天气真好啊,,与特征码"天气真好"相近似。步骤S104、去除重复的网页。上述方法虽然在一定程度上可有效地去除重复网页,但针对互联网上数以 百亿的网页,——对比分析网页正文,通常网页正文数据量较大,使分析对比 的效率低下。并且各网页正文内容的长短相差较大,特定符号的设置和阈值的 大小难以具体把握,设置不当直接影响网页排重的效果。例如,对于网页正文 内容很短的网页,根据特定符号只提取20到个特征码,但阈值为25,这样,就是造成重复网页的漏选,导致网页排重的精度降低;而对于网页正文内容较长的网页,根据特定符合提取500到个特征码,但阈值为25,两个内容相关 但不重复的网页很可能因相同或相近似的特征码超过阔值,而被误判为重复网 页,导致网页排重的准确率较低。 发明内容本发明所要解决的技术问题是提供一种网页的排重方法,以解决现有技术 中网页排重效率低下的不足,该排重方法效率较高,并且能够具有较高的精度 和准确率。本发明的另 一个目的是提供一种网页的排重系统,以解决现有技术中网页 排重效率低下的不足,该排重系统效率较高,并且能够具有较高的精度和准确 率。本发明一种网页的排重方法,包括获取互联网上各网页的正向链接信息; 比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提 取的网页组成排重集合,基于所述排重集合排除重复网页。优选的,比较各网页的正向链接信息之前,还包括去除各网页正向链接 信息中的导航链接和回引链接。优选的,基于所述排重集合排除重复网页具体为在相同正向链接中查找 广告链接,如广告链接数量大于预设数值,排除包含上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链4妄中查找 网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链 接的网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链4妄中查找 相同的链接类型,如相同的链接类型数量超于设置数值,排除包含上述相同正 向链接的网页。优选的,基于所述排重集合排除重复网页具体为获 目同正向链接指向 的网页,如上述网页所属主域的个数小于设定数值,排除包含上述相同正向链 接的网页。优选的,基于所述排重集合排除重复网页具体为获取相同正向链"^妄的锚 文本,如锚文本相同或相近似,排除包含上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为才艮据相同正向链接的特 性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的 网页。优选的,基于所述排重集合排除重复网页具体为在相同正向链接中查找 广告链接获取广告链接所占比例数,网页正文链接所占比例数,相同链接类型 所占比例数,网页所属的主域所占比例数,相同及相近似的锚文本所占比例数; 将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除包含 上述相同正向链接的网页。优选的,基于所述排重集合排除重复网页具体为获取正向链接指向网页 的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及 正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的 系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的 系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和, 将计算数值相加得到网页签名;排除签名相似度超过设定阈值的网页。优选的,还包括获取正向链接指向网页的系数和各网页的Rank值,上 述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚 文本的权重值,其中,网页的系数小于锚文本的系数和主域的系数;分别计算 网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和, 锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页质量值; 保留网页质量值超过设置阈值的网页。本发明还公开一种网页的排重系统,包括获取模块、比较模块、提取模块、 组成模块、及排除模块所述获取模块,用于获取互联网上各网页的正向链接 信息;所述比较模块,用于比较各网页的正向链接信息;所述提取模块,用于 提取相同正向链接的数量超过阈值的网页;所述组成才莫块,用于将提取的网页 组成排重集合;所述排除模块,用于基于所述排重集合排除重复网页。优选的,还包括特性计算模块,用于根据相同正向链接的特性,计算包含 上述相同正向链接的网页的分值,并将分值发送给排除模块;所述排除模块排 除分值差在预定数值之内的网页。优选的,还包括数据获取模块和网页签名计算模块所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的 系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其 中,网页的系数大于锚文本的系数和主域的系数;所述网页签名计算^t块,用 于分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的 Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得 到网页签名,将网页签名发送到所述排除模块;所述排除模块排除签名相似度 超过设定阈值的网页。与现有技术相比,本发明具有以下优点本发明提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于 该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发 明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定 的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。 本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围, 减少计算量,提高排重效率。
图1为现有网页的排重方法流程图; 图2为本发明网页的排重方法第一实施例流程图; 图3为本发明网页的排重方法第二实施例流程图; 图4为本发明网页的排重方法第三实施例流程图; 图5为本发明网页的排重方法第四实施例流程图; 图6为本发明网页的排重方法第五实施例流程图; 图7为本发明网页的排重方法第六实施例流程图; 图8为本发明网页的排重方法第七实施例流程图; 图9为本发明网页的排重方法第八实施例流程图; 图IO为本发明网页的排重方法第九实施例流程图; 图11为本发明网页排重系统第一实施例示意图; 图12为本发明网页排重系统第二实施例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。一个网页包含指向另 一个.网页的超链接(URL ),认为这两个网页之间存在 链接关系,超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B, 该链接对于网页A为正向链接,对于网页B为反向链接。每个网页都可能存在 多个正向链接和反向链接。正向链接和锚文本可集中反映该网页与其它网页的 链接关系,链接关系相同或相近似的网页一般网页内容也多相同或相近似。因 此,本发明将网页中的正向链接和锚文本作为判断重复网页的依据,高效、准 确的排除重复网页。参阅图2,示出本发明网页的排重方法第一实施例,具体步骤如下所述。步骤S201、获取互联网上各网页的正向链接信息。网页排重系统在互联 网上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字 链接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。其中,图片链接是指链接标识为图片形式;文字链接是指链接标识为文字 形式;广告链接是指链接广告信息的链接;隐藏链接是指链接标识隐藏在其它 信息中;空文本链接是指超链接上没有文字;回引链接是指指向本网页主域、 子域首页的链接;导航链接是指指向下一级域名或上一级域名,只起导航作用 的链接。步骤S202、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。将各网页正向链接信息进行对比,如相同正向链接的数量超过阈 值,则提取包含这些相同正向链接的网页;如相同正向链接的数量低于阈值, 则不提取该网页。阈值的取值范围为5-20。优选为10。同理,本发明也可以通过预置比例,提取网页。将各网页正向链接信息进 行对比,如相同正向链接的数量超过预置比例,则提取包含这些相同正向链接 的网页;如相同正向链接的数量低于预置比例,则不提取该网页。预置比例的 取值范围为20%-70%。优选为50%。步骤S203、将提取的网页组成排重集合,基于排重集合查找重复网页。 例如,排重集合为((网页A、网页B、网页C、网页D)、(网页A、网页B、网 页C、网页D…)、(网页A、网页B、网页C、网页D…)...}。其中,小括号内 为可能相互重复的网页集合。本发明提取具有相同正向链接数量超过阔值的网页作为排重集合,在基于 该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发 明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定 的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。 本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围, 减少计算量,提高排重效率。本发明可根据相同正向链接中广告链接的数量,在排重集合中排除重复网页。参阅图3,示出本发明网页的排重方法第二实施例,具体步骤如下所述。步骤S301、获取互联网上各网页的正向链接信息。步骤S302、去除各网页的正向链接信息中的导航链接和回引链接。因导 航链接和回引链接是同主域网页之间常使用的链接,不能很好地反映网页本身 的链接特性,因此,将正向链接中的导航链接和回引链接去除,提高参与对比 的正向链接的质量。步骤S303、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。步骤S304、将提取的网页组成排重集合。步骤S305、在相同正向链接中查找广告链接,如查找到的广告链接数量 大于预设数值,排除包含上述相同正向链接的网页;如查找到的广告链接数量 小于预设数值,确定该网页不为重复网页。预设数值的范围为5-10。因网页广告链接与该网页正文内容是密切相关的,如果网页间相同正向链 接集中表现为广告链接,表明上述网页的内容信息是相同或相近似的,可以确 定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高 排除效率。本发明可根据相同正向链接中正文链接的数量,在排重集合中排除重复网页。参阅图4,示出本发明网页的排重方法第三实施例,具体步骤如下所述。步骤S401、获取互联网上各网页的正向链接信息。步骤S402、去除各网页的正向链接信息中的导航链接和回引链接。步骤S403、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。步骤S404、将提取的网页组成排重集合。步骤S405、在相同正向链接中查找网页正文链接,如网页正文链接数量 大于预置数值,排除包含上述相同正向链"^的网页;如网页正文链接数量小于 预置凝:值,确定该网页不为重复网页。预置婆 f直的范围为5-10。相对于其它正向链接,网页正文链接更能反映网页的链接特性,如相同正 向链接集中表现为网页中文链接,表明上述网页的内容信息是相同或相近似 的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对 比,可提高排除效率。本发明可在相同的正向链接查找相同的链接类型,根据相同链接类型的数 量,在排重集合中排除重复网页。参阅图5,示出本发明网页的排重方法第四实施例,具体步骤如下所述。步骤S501、获取互联网上各网页的正向链接信息。步骤S502、去除各网页的正向链接信息中的导航链接和回引链接。步骤S503、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。步骤S504、将提取的网页组成排重集合。步骤S505、在相同的正向链接中查找相同链接类型,如相同链接类型数 量超于设置数值,排除包含上述相同正向链接的网页;如相同链接类型数量小 于设置数值,确定该网页不为重复网页。设置数值的范围为5-10。链接类型包括图片链接、隐藏链接、文字链接、空文本链接等,如网页间 相同正向链接的类型也基本相同,表明上述网页的内容信息是相同或相近似 的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对 比,可提高排除效率。本发明可查找相同正向链接指向网页所属的主域,根据主域的数量在排重 集合中排除重复网页。参阅图6,示出本发明网页的排重方法第五实施例,具体步骤如下所述。步骤S601、获取互联网上各网页的正向链接信息。步骤S602、去除各网页的正向链接信息中的导航链接和回引链接。 步骤S603、比较各网页的正向链接信息,提取相同正向链接的爽量超过 阈值的网页。步骤S604、将提取的网页组成排重集合。步骤S605、获取相同的正向链接指向的网页,如上述网页所属的主域个 数小于设定数值,排除包含上述相同正向链接的网页;如上述网页所属的主域 个数大于设定数值,确定该网页不为重复网页。设定数值的范围为5-10。网页间相同正向链接集中指向某几个主域的网页,表明上述网页的内容信 息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法 简单实用,易于对比,可提高排除效率。本发明可获取相同正向链接的锚文本,根据锚文本是否相同或相近似在排 重集合中排除重复网页。参阅图7,示出本发明网页的排重方法第六实施例,具体步骤如下所述。步骤S701、获取互联网上各网页的正向链接信息。步骤S 7 0 2 、去除各网页的正向链接信息中的导航链接和回? 1链接。步骤S703、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。步骤S704、将提取的网页组成排重集合。步骤S705、获取相同正向链接的锚文本,如锚文本相同及相近似,排除 包含上述相同正向链接的网页;如锚文本不相同也不相近似,确定该网页不为 重复网页。网页间相同正向链接所使用的锚文本也相同或相近似,表明上述网页的内 容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重 方法简单实用,易于对比,可提高排除效率。本发明可根据相同正向链接的特性,计算包含上述相同正向链接的网页的 分值,排除分值差在预定数值之内的网页。正向链接的特性的可依据其广告链 接、网页正文链接、链接类型、正向链接指向网页的主域、正向链接的锚文本 等方面确定、例如,在上述方面任意选择几个组合使用,计算网页的分值。如 将广告链接、网页正文链接两方面组合使用;如将正向链接指向网页的主域、正向链接的锚文本两方面组合使用。下面重点说明其中 一优选实施例。参阅图8,示出本发明网页的排重方法第七实施例,具体步骤如下所述。 步骤S801、获取互联网上各网页的正向链接信息。步骤S802、去除各网页的正向链接信息中的导航链接和回引链接。 步骤S803、比较各网页的正向链接信息,提取相同正向链接的数量超过 阈值的网页。步骤S804、将提取的网页组成排重集合。步骤S805、根据相同正向链接的特性,计算包含上述相同正向链接的网 页的分值,排除分值差在预定数值之内的网页。在相同正向链接中查找广告链接,如广告链接所占比例为Xl%,将该网页 分值设置为Pl= XI* Ul;在相同的正向链接中查找网页正文链接,如网页正文链接所占比例为X2%, 将该网页分值设置为P2= X2* U2;在相同的正向链接中查找相同链接类型,如相同链接类型所占比例为X3%, 将该网页分值设置为P3= X3* U3;获取相同的正向链接指向的网页,如上述网页所属的主域所占比例为X4%, 将该网页分值设置为P4= X4* U4;获取相同正向链接的锚文本,如相同及相近似的锚文本所占比例为X5%, 将该网页分值设置为PS- X5* U5;将网页的上述数值相加,得到网页的总分值为P = P1+ P2+ P3+ P4 + P5 = X1* U1+ X2* U2+ X3* U3 +X4* U4 +X5* U5。其中,Ul—U5为系数, 取值范围为O-l,根据网页性质的不同可进行调整。如相比较的网页总分值超过设定阈值,则认为该网页为重复网页,进行排 重处理。本发明依据相同正向链接中广告链接、网页正文链接、链接类型、正向链 接指向网页的主域、正向链接的锚文本等多方面判断网页是否为重复网页,使 判断更全面、更客观,相应的,网页排重也更准确。本发明还引入多种判断标准,进一步提高网页排重的准确率。本发明引入 网页签名的概念,根据正向链接指向网页的系数和各网页的Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,计算网页的签名,排除签名相似度高的网页。参阅图9,示出本发明网页的排重方法第八实施例,具体步骤如下所述。步骤S901、获取互联网上各网页的正向链接信息。步骤S902、去除各网页的正向链接信息中的导航链接和回引链接。步骤S903、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。步骤S904、将提取的网页组成排重集合。步骤S905、计算网页签名,排除签名相似度超过设定阈值的网页。 获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链4妻锚文本的系数c和各锚文本的权重值AR;网页签名等于=a*(PRl+PR2+PR3+...) + b*(DRl+DR2+DR3—) + c* (AR1+AR2+AR3+...);其中,a的取值大于b的取值和c的取值,a的取值范围为0.5-0.9; b的 取值范围为0.1-0.3; c的取值范围为0.1 - 0.3;正向链接指向各网页的Rank 值PR,网页所在各主域的Rank值DR,及正向链接各锚文本的权重值AR根据 常规算法计算后存储在数据库内。设定阈值的取值范围100 - 10000。本发明通过合理设置系数值,使网页签名更侧重反映正向链接指向网页的 Rank值,签名相似度高的网页表明网页内容也非常相似,可直接认定为重复 网页,进行排除。本发明在网页排重中综合考虑正向链接锚文本的权重值、正 向链接指向的各网页的Rank值、上述网页所属主域的Rank值,使对重复网页 的判断更加客观、全面,进一步提高网页排重的准确率。本发明引入网页质量值的概念,根据正向链接指向网页的系数和各网页的 Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数 和各锚文本的权重值,计算网页的质量值,在排除重复网页之前,保留质量较 高的网页。参阅图IO,示出本发明网页的排重方法第九实施例,具体步骤如下所述。 步骤SIOOI、获取互联网上各网页的正向链接信息。步骤S1002、去除各网页的正向链接信息中的导航链接和回引链接。 步骤S1003、比较各网页的正向链接信息,提M目同正向链接的数量超过 阈值的网页。步骤S1004、将提取的网页组成排重集合。步骤S1005、计算网页质量值,保留网页质量值超过设置阈值的网页。 获取正向链接指向网页的系数x和各网页的Rank值PR,网页所在主域的系数y和各主域的Rank值DR, 及正向链^妻锚文本的系数z和各锚文本的权重值AR;网页签名等于=x*(PRl+PR2+PR3+...) + y*(DRl+DR2+DR3...) + z*(ARl+AR2+AR3+...);其中,x的取值范围为0.1 - 0.3; b的取值范围为0.5-0.9; c的取值范围 为0.5 - 0.9;正向链接指向各网页的Rank值PR,网页所在各主域的Rank值 DR,及正向链接各锚文本的权重值AR根据常规算法计算后存储在数据库内。 设置阈值的取值范围100 - 10000。步骤S1006、计算网页签名,排除签名相似度超过设定阈值的网页。本发明通过合理设置系数值,使网页质量值更侧重反映正向链接锚文本的 权重值、及其正向链接指向网页所述主域的Rank值,质量值高可表明网页内 容充实、丰富,存在重复的可能性较小。本发明在排重之前保留质量值较高的 网页,可有效避免网页排重中的误判,进一步提高网页排重的准确率。基于上述网页排重方法,本发明还提供一种网页排重系统,该排重系统效 率较高,并且能够具有较高的精度和准确率。参阅图11,示出本发明网页排重系统第一实施例,包括获取模块ll、比 较模块12、提取模块13、组成模块14、及排除模块15。获取模块11获取互联网上各网页的正向链接信息。获: Mt块11在互联网 上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字链 接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。获取模块 11将获取的正向链接信息发送到比较模块12。比较模块12比较各网页的正向链接信息。比较模块12将各网页正向链接 信息进行对比,将比较结果发送到提取模块13。提取模块1 3提取相同正向链接的数量超过阈值的网页,并将提取的网页 发送到组成模块14。组成模块14将提取的网页组成排重集合。排重集合为{(网页A、网页B、 网页C、网页D)、(网页A、网页B、网页C、网页D...)、(网页A、网页B、网 页C、网页D...)...}。其中,小括号内为可能相互重复的网页集合。组成模块 14将排重集合发送到排除模块15。排除模块15基于排重集合排除重复网页。参阅图12,示出本发明网页排重系统第二实施例,包括获取模块ll、比 较模块12、提取模块13、组成模块14、排除模块15、特性计算模块16、数 据获取模块17、及网页签名计算模块18。特性计算模块16根据相同正向链接的特性,计算包含上述相同正向链接 的网页的分值,并将分值发送给排除模块15。特性计算模块16在相同正向链接中查找广告链接,如广告链接数量大于 预设数值,将该网页分值加l;如查找到的广告链接数量小于预设数值,不增 加分值;特性计算模块16在相同的正向链接中查找网页正文链接,如网页正文链 接数量大于预置数值,将该网页分值加l;如查找到的网页正文链接数量小于 预置数值,不增加分值;特性计算模块16在相同的正向链接中查找相同链接类型,如相同链接类 型数量超于设置数值,将该网页分值加1;如相同链接类型数量小于设置数值, 不增加分值;特性计算模块16获取相同的正向链接指向的网页,如上述网页所属的主 域个数大于设定数值,将该网页分值加l;如上述网页所属的主域个数大于设 定凄t值,不增加分值;特性计算模块16获取相同正向链接的锚文本,如锚文本相同及相近似, 将该网页分值加1;如锚文本不相同也不相近似,不增加分值。排除模块15在包含相同正向链接的网页的分值在预定数值之内时,排除 该网页。数据获:iMt块17获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链接锚文本的系it c和 各锚文本的权重值AR,其中,a的取值;^于b的取值和c的取值。数据获取模 块17将获取的数值发送给网页签名计算模块18。网页签名计算模块18利用算式网页签名等于=a*(PRl+PR2+PR3+...) + b*(DRl+DR2+DR3...) + c*(ARl+AR2+AR3+...),计算网页签名,并将计算数值 发送给排除模块15。排除模块15排除模块排除签名相似度超过设定阈值的网页。获取模块11、比较模块12、提取模块13、组成模块14在该实施例中的 作用和功能与图11所示实施例相同,不再赘述。以上对本发明所提供的一种网页的排重方法及排重系统,进行了详细介例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变 之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种网页的排重方法,其特征在于,包括获取互联网上各网页的正向链接信息;比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提取的网页组成排重集合,基于所述排重集合排除重复网页。
2、 如权利要求1所述的方法,其特征在于,比较各网页的正向链接信息 之前,还包括去除各网页正向链接信息中的导航链接和回引链接。
3、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找广告链接,如广告链接数量大于预设数值,排除包 含上述相同正向链接的网页。
4、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数 值,排除包含上述相同正向链接的网页。
5、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找相同的链接类型,如相同的链接类型数量超于设置 数值,排除包含上述相同正向链接的网页。
6、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取相同正向链接指向的网页,如上述网页所属主域的个数小于设定数 值,排除包含上述相同正向链接的网页。
7、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取相同正向链接的锚文本,如锚文本相同或相近似,排除包含上述相同 正向链接的网页。
8、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排 除分值差在预定数值之内的网页。
9、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为在相同正向链接中查找广告链接获取广告链接所占比例数,网页正文链接 所占比例数,相同链接类型所占比例数,网页所属的主域所占比例数,相同及 相近似的锚文本所占比例数;将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除 包含上述相同正向链接的网页。
10、 如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重复网页具体为获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的 系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其 中,网页的系数大于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域 的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加 得到网页签名;排除签名相似度超过设定阈值的网页。
11、 如权利要求IO所述的方法,其特征在于,还包括 获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其 中,网页的系数小于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域 的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加 得到网页质量值;保留网页质量值超过设置阈值的网页。
12、 一种网页的排重系统,其特征在于,包括获取模块、比较^i块、提取 模块、组成模块、及排除模块所述获取4莫块,用于获取互联网上各网页的正向链接信息; 所述比较模块,用于比较各网页的正向链接信息; _ 所述提取模块,用于提取相同正向链接的数量超过阈值的网页; 所述组成模块,用于将提取的网页组成排重集合; 所述排除模块,用于基于所述排重集合排除重复网页。
13、 如权利要求12所述的系统,其特征在于,还包括特性计算模块,用 于根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将 分值发送给排除模块;所述排除模块排除分值差在预定数值之内的网页。
14、 如权利要求12或13所述的方法,其特征在于,还包括数据获取模块 和网页签名计算模块所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank 值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数 和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;所述网页签名计算模块,用于分别计算网页的系数乘以各网页的Rank值 之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的 权重值之和,将计算数值相加得到网页签名,将网页签名发送到所述排除模块;所述排除模块排除签名相似度超过设定阈值的网页。
全文摘要
本发明涉及一种网页的排重方法,包括获取互联网上各网页的正向链接信息,去除各网页正向链接信息中的导航链接和回引链接,比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页,将提取的网页组成排重集合,基于所述排重集合排除重复网页。本发明可根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。本发明还计算网页质量值,保留网页质量值超过设置阈值的网页,再计算网页签名,排除签名相似度超过设定阈值的网页。同时,本发明还公开一种网页的排重系统。本发明解决现有技术中网页排重效率低下的不足,网页排重效率较高,并且能够具有较高的精度和准确率。
文档编号G06F17/30GK101226533SQ20071030456
公开日2008年7月23日 申请日期2007年12月28日 优先权日2007年12月28日
发明者刘云峰, 禹荣凌 申请人:腾讯科技(北京)有限公司