专利名称:一种用于确定超链接的锚文本可信度的分析设备和方法
技术领域:
本发明涉及互联网技术领域,尤其涉及用于确定超链接的锚文本可信度的链接分析技术。
背景技术:
在当今的互联网中,网页数量日趋庞大,为了建立网页与网页、网页与网站之间的链接关系,经常使用基于超链接和/或锚文本的链接技术。一般来说,超链接是一种对象, 它以特殊编码的文本或图形的形式来实现链接,当点击该链接时,相当于指令浏览器移至同一网页内的某个位置、或打开一个新的网页、或打开一个新的Wffff网站中的网页。例如, 网页中的超链接大致分为绝对URL的超链接、相对URL的超链接和书签超链接。另外,超链接中的锚文本通常是对一个网页内容的高度概括描述,与该网页有着高度的内容相关性。将超链接的锚文本应用于搜索引擎,还可以基于所述锚文本进行内容相关度计算,以获取用户查询序列与网页的相关度,从而对搜索结果中的网页进行精确排名。由上述可知,在正常情形下,锚文本均可以对超链接指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是,互联网上存在大量的超链作弊行为,锚文本与超链接指向页面之间不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,甚至还有可能出现与查询序列内容不相关而排名却很高的网页。有鉴于此,如何确定超链接的锚文本可信度,以评估和分析超链接的锚文本与超链接指向页面之间内容相关性,是相关领域的技术人员亟待解决的一项课题。
发明内容
本发明的目的是提供一种用于确定超链接的锚文本可信度的分析设备和方法。根据本发明的一个方面,提供一种计算机实现的用于确定超链接的锚文本可信度的方法,其中,该方法包括以下步骤a获取与所述超链接相对应的锚文本;b根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;c根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。根据本发明的另一个方面,还提供了一种用于确定超链接的锚文本可信度的分析设备,其中,该分析设备包括第一获取装置,用于获取与所述超链接相对应的锚文本;第二获取装置,用于根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;锚文本可信度确定装置,用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。根据本发明的再一个方面,还提供了一种搜索引擎,其中,该搜索引擎包括本发明的一个方面所述的用于确定超链接的锚文本可信度的分析设备。与现有技术相比,本发明基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。此外,将本发明应用到搜索引擎领域,还可精确地检测作弊超链的虚假锚文本、过期超链的失效锚文本,调整基于所述锚文本可信度对包含所述虚假锚文本和失效锚文本的超链接指向页面的权威度和排名,进而提升搜索引擎搜索结果的排序质量。
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1示出依据本发明一个方面的用于确定超链接的锚文本可信度的分析设备的结构示意图;图2示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图;图3示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图;图4示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的流程图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1示出依据本发明一个方面的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。参照图1,所述分析设备1包括第一获取装置11、第二获取装置12和锚文本可信度确定装置13。具体地,分析设备1的第一获取装置11获取与所述超链接相对应的锚文本;接着,第二获取装置12根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;最后,锚文本可信度确定装置13根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。第一获取装置11用于获取与所述超链接相对应的锚文本。具体地,第一获取装置 11例如通过页面技术,如HTML、DHTML等页面技术,解析所述超链接的链接信息或者切分和提取所述超链接中的链接文字从而获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把它们链接在一起的纽带就是超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href = “ http://www. baidu. com" >百度</a>,那么超链接■· baidu. com的锚文本即为“百度”,当点击“百度”时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么”做了一个相关链接,其具体代码为<a href = “ http://www. baidu. com" >最好的中文搜索引擎是什么</a>,那么超链接www. baidu. com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页就可以跳转显示百度的主页。本领域技术人员应能理解上述获取与所述超链接相对应的锚文本的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的锚文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。第二获取装置12用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,通过第一获取装置11得到与所述超链接相对应的锚文本后,第二获取装置 12通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少任一项-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;-所述锚文本与所述超链接指向页面的关联度。以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所有出链的锚文本中绝大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。本领域技术人员应能理解上述获取与所述锚文本相对应的锚文本相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述锚文本相对应的锚文本相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。锚文本可信度确定装置13用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。具体地,通过第二获取装置12得到与所述锚文本相对应的锚文本相关信息后,锚文本可信度确定装置13根据所述锚文本相关信息,结合所述锚文本相关信息中每一项的权重,来加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。本领域技术人员应能理解上述确定所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。此外,上述用于确定超链接的锚文本可信度的分析设备可以与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎可以是采用已知的如百度、G00gle、Yah00等搜索引擎。优选地,该新的搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。具体地,与现有搜索引擎相结合且用于确定超链接的锚文本可信度的搜索引擎,在为用户提供搜索结果时,还通过诸如特别字体、浮动窗口等方式,提供这些搜索结果相应的页面权威值。例如,与现有搜索引擎相结合,且用于确定超链接的锚文本可信度的搜索引擎, 在根据用户的查询序列提供相应的搜索结果时,在这些搜索结果的页面说明中添加相应页面的页面权威值;进一步地,这些页面的页面权威值还可以通过特别字体或浮动窗口等方式显示,如在用户的鼠标停留在搜索结果的页面链接、或者页面说明时,以悬浮窗口显示该停留搜索结果相应的页面权威值。本领域技术人员应能理解上述页面权威值的提供方式仅为举例,其他现有的或今后可能出现的页面权威值的提供方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,所述分析设备1还包括第一调整装置(图1未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述分析设备1还包括更新装置(图1未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。优选地,所述分析设备1还包括第四获取装置(图1未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。优选地,所述分析设备1还包括第五获取装置(图1未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置 11还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1还包括排序装置(图1未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度, 并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值, 并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中, 搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。优选地,所述分析设备1还包括分配装置(图1未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1还包括第二调整装置(图1未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu为第i时刻未经调整的锚文本可信度,Ch为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第 i时刻的锚文本可信度Cu,第i-Ι时刻所述超链接的锚文本可信度Ch,并根据公式Ci = λ XCH+α-λ ) XCu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu 为0.8,第i-Ι时刻所述超链接的锚文本可信度C^1为0.6,假设λ取0. 25,则通过计算,所述超链接的锚文本可信度Ci为0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图2示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1’包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。参照图2,所述分析设备1’包括第一获取装置11’、第二获取装置12’、第三获取装置14’、锚文本可信度确定装置13’。具体地,分析设备1’的第一获取装置11’获取与所述超链接相对应的锚文本;接着,第二获取装置12’根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;与此同时,第三获取装置14’获取与所述超链接相对应的超链接相关信息;最后,锚文本可信度确定装置13’根据所述锚文本相关信息,结合所述超链接相关信息,加权确定所述超链接的锚文本可信度。也就是说,第二获取装置12’和第三获取装置14’可以并行地分别获取与所述锚文本相对应的锚文本相关信息以及与所述超链接相对应的超链接相关信息。为便于更好地描述本发明,第一获取装置 11’、第二获取装置12’和锚文本可信度确定装置13’分别与图1所示的第一获取装置11、 第二获取装置12和锚文本可信度确定装置13’对应,故此处不再赘述,仅通过引用的方式包含于图2所描述的优选实施例。第三获取装置14’用于获取与所述超链接相对应的超链接相关信息,并且所述锚文本可信度确定装置13’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项-所述超链接的产生时间;-所述超链接的位置;-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的产生时间为距离现在的时间间隔为10 年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时, 计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与第二获取装置12’获取的锚文本相关信息相结合,以通过锚文本可信度确定装置13’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含“electronicWomputeW'research”、 "company"等字符的超链接,将所有出链进行统计分析,计算所述超链接在所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与第二获取装置12获取的锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过锚文本可信度确定装置13’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。本领域技术人员应能理解上述获取与所述超链接相对应的超链接相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的超链接相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,在结合上述图2所描述的实施例的基础上,所述分析设备1’还包括第四获取装置(图2未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13’根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后, 可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度, 来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。优选地,所述分析设备1’还包括第五获取装置(图2未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置 11’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1’还包括排序装置(图2未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度, 并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值, 并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中, 搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。优选地,所述分析设备1’还包括分配装置(图2未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,所述分析设备1’还包括第二调整装置(图2未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu为第i时刻未经调整的锚文本可信度,Ch为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第 i时刻的锚文本可信度Cu,第i-Ι时刻所述超链接的锚文本可信度Ch,并根据公式Ci = λ XCH+α-λ ) XCu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu为0.8,第i-Ι时刻所述超链接的锚文本可信度C^1为0.6,假设λ取0. 25,则通过计算,所述超链接的锚文本可信度Ci为0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图3示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图。其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,所述分析设备用于获取与所述超链接相对应的锚文本。具体地,所述分析设备例如通过页面技术,如HTML、DHTML等页面技术,解析所述超链接的链接信息或者切分和提取所述超链接中的链接文字来获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把他们链接在一起的纽带就是超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href = “ http://www. baidu. com" >百度</a>,那么超链接www. baidu. com的锚文本即为“百度”,当点击“百度” 时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么” 做了一个相关链接,其具体代码为<a href = “ http://www. baidu. com" >最好的中文搜索引擎是什么</a>,那么超链接■· baidu. com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页可以跳转显示百度的主页。本领域技术人员应能理解上述获取与所述超链接相对应的锚文本的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的锚文本的方式如可适用于本发明, 也应包含在本发明保护范围以内,并以引用方式包含于此。在步骤S2中,所述分析设备用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,所述分析设备通过步骤Si得到与所述超链接相对应的锚文本后, 还通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少任一项-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;-所述锚文本与所述超链接指向页面的关联度。以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所有出链的锚文本中绝大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。本领域技术人员应能理解上述获取与所述锚文本相对应的锚文本相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述锚文本相对应的锚文本相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在步骤S3中,所述分析设备用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。本领域技术人员应能理解上述确定所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,该方法还包括步骤S5(图3未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述方法还包括更新步骤(图3未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。优选地,该方法还包括步骤S6(图3未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步骤S3根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。优选地,该方法还包括步骤S7(图3未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述步骤Si根据所述超链接,获取与所述超链接相对应的锚文本,以及所述方法还包括排序步骤(图3未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。优选地,该方法还包括分配步骤(图3未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,该方法还包括步骤S8 (图3未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci:Ci = λ XCh+ (1- λ ) XCu其中,Cu为第i时刻未经调整的锚文本可信度,Ci^1为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8根据所述步骤S3所确定的第i时刻的锚文本可信度Cu,第i-Ι时刻所述超链接的锚文本可信度C^1,并根据公式Ci = λ XCi^(I-A)XCu 进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设所述步骤S3所确定的第i时刻的锚文本可信度Cu为0. 8,第i-Ι时刻所述超链接的锚文本可信度C^1为0.6,假设λ取0. 25,则通过计算,所述超链接的锚文本可信度Ci为 0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图4示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的流程图。 其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。为便于更好地描述本发明,步骤S1’_S3’ 分别与图3所示的步骤S1-S3对应,故此处不再赘述,仅通过引用的方式包含于图3所描述的优选实施例。步骤S4’与上述步骤S2’可由分析设备并行地加以执行。在步骤S4’,该方法用于获取与所述超链接相对应的超链接相关信息,并且所述步骤S3’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项-所述超链接的产生时间;-所述超链接的位置;-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的产生时间为距离现在的时间间隔为10 年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时, 计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与通过上述步骤S2’获取的锚文本相关信息相结合,以通过上述步骤S3’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含“electronic”、“computer”、“research”、“company”等字符的超链接,将所有出链进行统计分析,计算所述超链接在所述统计分析结果中所占比例, 根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过上述步骤S3’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。本领域技术人员应能理解上述获取与所述超链接相对应的超链接相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的超链接相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S6’(图4 未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步骤S3’还用于根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S7’(图4 未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述步骤Si,还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及该方法还包括排序步骤(图4未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度, 并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知, 将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。优选地,在结合上述图4所描述的实施例的基础上,该方法还包括分配步骤(图4 未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S8’(图4 未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu为第i时刻未经调整的锚文本可信度,Ci^1为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8’根据所述步骤S3’所确定的第i时刻的锚文本可信度Cu,第i-Ι时刻所述超链接的锚文本可信度C^1,并根据公式Ci = λ XCi^(I-A)XCu 进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如, 假设所述步骤S3’所确定的第i时刻的锚文本可信度Cu为0. 8,第i-Ι时刻所述超链接的锚文本可信度C^1为0. 6,假设λ取0. 25,则通过计算,所述超链接的锚文本可信度Ci为 0. 75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种计算机实现的用于确定超链接的锚文本可信度的方法,其中,该方法包括以下步骤a获取与所述超链接相对应的锚文本; b根据所述锚文本,获取与所述锚文本对应的锚文本相关信息; c根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
2.根据权利要求1所述的方法,其中,所述锚文本相关信息包括以下至少任一项 -所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;-所述锚文本与所述超链接指向页面的关联度。
3.根据权利要求1或2所述的方法,其中,该方法还包括-根据所述超链接指向页面,并结合页面黑名单,调整所述超链接的锚文本可信度。
4.根据权利要求3所述的方法,其中,所述方法还包括 -获取作弊页面或不良页面;-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
5.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括步骤 -获取与所述超链接相对应的超链接相关信息;其中,所述步骤c还包括-根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。
6.根据权利要求5所述的方法,其中,所述超链接相关信息包括以下至少任一项 -所述超链接的产生时间;-所述超链接的位置;-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例; -所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
7.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括步骤 -获取所述超链接指向页面更新前与更新后的相关度;其中,所述步骤c还包括-根据所述锚文本相关信息,结合所述相关度,确定所述超链接的锚文本可信度。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括-根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接; 其中,所述步骤a还包括-根据所述超链接,获取与所述超链接相对应的锚文本; 其中,所述方法还包括步骤-根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度, 对与所述超链接对应的搜索结果进行排序。
9.根据权利要求1至8中任一项所述的方法,其中,所述方法还包括-根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
10.根据权利要求1至9中任一项所述的方法,其中,所述方法还包括 -根据下述关系式,调整所述超链接的锚文本可信度Ci Ci = λ χ Cjd-入)xcu其中,Cu为第i时刻未经调整的锚文本可信度,Cp1为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。
11.一种用于确定超链接的锚文本可信度的分析设备,其中,该分析设备包括 第一获取装置,用于获取与所述超链接相对应的锚文本;第二获取装置,用于根据所述锚文本,获取与所述锚文本对应的锚文本相关信息; 锚文本可信度确定装置,用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
12.根据权利要求11所述的分析设备,其中,所述锚文本相关信息包括以下至少任一项-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;-所述锚文本与所述超链接指向页面的关联度。
13.根据权利要求11或12所述的分析设备,其中,所述分析设备还包括第一调整装置,用于根据所述超链接指向页面,并结合页面黑名单,调整所述超链接的锚文本可信度。
14.根据权利要求13所述的分析设备,其中,该分析设备还包括更新装置,用于 -获取作弊页面或不良页面;-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
15.根据权利要求11至14中任一项所述的分析设备,其中,所述分析设备还包括 第三获取装置,用于获取与所述超链接相对应的超链接相关信息;其中,所述锚文本可信度确定装置还用于-根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。
16.根据权利要求15所述的分析设备,其中,所述超链接相关信息包括以下至少任一项-所述超链接的产生时间; -所述超链接的位置;-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例; -所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
17.根据权利要求11至14中任一项所述的分析设备,其中,所述分析设备还包括 第四获取装置,用于获取所述超链接指向页面更新前与更新后的相关度;其中,所述锚文本可信度确定装置还用于-根据所述锚文本相关信息,结合所述相关度,确定所述超链接的锚文本可信度。
18.根据权利要求11至17中任一项所述的分析设备,其中,所述分析设备还包括第五获取装置,用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接;其中,所述第一获取装置还用于-根据所述超链接,获取与所述超链接相对应的锚文本;其中,所述分析设备还包括排序装置,用于-根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度, 对与所述超链接对应的搜索结果进行排序。
19.根据权利要求11至18中任一项所述的分析设备,其中,所述分析设备还包括分配装置,用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
20.根据权利要求11至19中任一项所述的分析设备,其中,所述分析设备还包括第二调整装置,用于根据下述关系式,调整所述超链接的锚文本可信度Ci Ci = λ χ Cjd-入)xcu其中,Cu为第i时刻未经调整的锚文本可信度,Cp1为第i-Ι时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。
21.一种搜索引擎,其中,该搜索引擎包括如权利要求11至20中任一项所述的用于确定超链接的锚文本可信度的分析设备。
22.根据权利要求21所述的搜索引擎,其中,该搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。
全文摘要
本发明提供一种用于确定超链接的锚文本可信度的分析设备和方法,包括获取与所述超链接相对应的锚文本;根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。与现有技术相比,本发明基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。此外,将本发明应用到搜索引擎领域,还可精确地检测作弊超链的虚假锚文本、过期超链的失效锚文本,调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
文档编号G06F17/30GK102567417SQ20101062005
公开日2012年7月11日 申请日期2010年12月31日 优先权日2010年12月31日
发明者姚旭, 杨宣 申请人:百度在线网络技术(北京)有限公司