网页搜索结果排序方法及装置的制作方法

文档序号:6366674阅读:185来源:国知局
专利名称:网页搜索结果排序方法及装置的制作方法
技术领域
本发明涉及一种网页搜索结果排序方法及装置,属于互联网搜索技术领域。
背景技术
随着互联网技术的发展,网络信息量呈现爆炸式增长,因此出现了搜索引擎服务,如百度、谷歌等。这种服务由索引擎服务器根据用户提供的查询词进行网页搜索,并将搜索出的相关网页的链接作为搜索结果呈现给用户。由于搜索出的相关网页数量通常不只一个,因此需要对这些网页搜索结果进行排序,现有技术中对网页搜索结果进行排序时通常采用如下的方法方法1,页面排序法(pageRank)
该方法根据网页之间相互的超链接关系计算页面等级,以作为网页排名的依据,具体地,该方法把从A页面到B页面的链接解释为A页面给B页面投票,从而根据投票来源和投票目标的等级来决定新的等级。方法2,学习排序法(learning to rank)该方法是一类机器学习排序方法的总称,主要是将待排序的网页与查询词进行配对,进行特征提取,这些特征包括文本相似度、用户点击率等信息;针对提取出的特征,以相关性或点击率为目标进行机器学习;根据机器学习结果计算每个网页与查询词之间的静态分数,以此分数为排序的依据。现有技术的主要缺陷在于在对网页搜索结果进行排序均只考虑了网页本身的特征而没有考虑人作为信息发布者的因素,实际上,由不同人发布相同内容的网页的可信度是不同的,因此,现有方法不能将真正具有高可信度的网页排在前列,因此其排序可信性较差。

发明内容
本发明提供一种网页搜索结果排序方法及装置,用以提高排序的可信性。本发明一方面提供一种网页搜索结果排序方法,其中包括搜索引擎根据用户输入的查询词搜索出多个相关的网页;获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I ;计算所述P及所述I的信息量和相关度;根据所述信息量和相关度计算得到所述I的信息质量得分;按照所述信息质量得分从大到小的顺序排列相应的网页。本发明另一方面提供一种网页搜索结果排序装置,其中包括搜索引擎,用于根据用户输入的查询词搜索出多个相关的网页;获取模块,用于获取由搜索引擎搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I ;第一计算模块,用于计算由获取模块得到的所述P及所述I的信息量和相关度;
第二计算模块,用于根据由第一计算模块得到的所述信息量和相关度计算得到所述I的信息质量得分;排序模块,用于按照由第二计算模块得到的所述信息质量得分从大到小的顺序排列相应的网页。本发明通过计算用户标识与网页信息的信息量和相关度,进而计算得到各个网页的信息质量得分用于进行网页排序,因此在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。


图I为本发明所述网页搜索结果排序方法实施例的流程图;
图2为用于说明图I所不方法的举例关系图;图3为本发明所述网页搜索结果排序装置实施例的结构示意图。
具体实施例方式图I为本发明所述网页搜索结果排序方法实施例的流程图,如图所示,包括如下步骤步骤110,搜索引擎根据用户输入的查询词搜索出多个相关的网页。其中,所述查询词是用户想要搜索的关键信息,具体的搜索过程与现有技术相同,所述网页为搜索结果。步骤120,获取所述网页的发布者的全网统一的用户标识P及所述网页的信息I。其中,所述全网统一的用户标识P用于把一个自然人与其在互联网的行为联系起来。该用户标识可以有多种实现方案,具体可以具有的特征为ID的编号、注册邮箱、注册时间、真实姓名、对应的公用账号、微博、QQ等。当两个用户标识的相似程度到达一定阈值时,认为这两个用户标识属于同一个自然人所有。具体地,在本实施例中,将全网的信息按照信息发布者做一个统一的镜像,在这个网络里面,本实施例只关心表I中的P和I。表I
权利要求
1.一种网页搜索结果排序方法,其特征在于,包括 搜索引擎根据用户输入的查询词搜索出多个相关的网页; 获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I; 计算所述P及所述I的信息量和相关度; 根据所述信息量和相关度计算得到所述I的信息质量得分; 按照所述信息质量得分从大到小的顺序排列相应的网页。
2.根据权利要求I所述的方法,其特征在于,计算所述P及所述I的信息量包括 第i个用户标识Pi的信息量E (Pi) = O ; 第i个网页信息Ii的信息量E(Ii) = Iogdi的字节数)。
3.根据权利要求2所述的方法,其特征在于,计算所述P及所述I的相关度包括 计算每两个网页信息I之间的互相关信息量
4.根据权利要求3所述的方法,其特征在于,根据所述信息量和相关度计算得到所述I的信息质量得分包括根据所述信息量和相关度构建以所述P的标识质量得分HPi)为元素的标识质量得分向量rp = (1-a )PP rp+(l-a ) IP ri以及以所述I的信息质量得分Hli)为元素的信息质量得分;ri = a ri0+(l- a )PI rp+(l- a ) II ri 求解由所述第一表达式和第二表达式联立而成的向量方程组得到所述标识质量得分; 其中,Titl表示初始信息量,PP表示P与P之间的相关度矩阵;IP表示I与P之间的相关度矩阵;PI表示P与I之间的相关度矩阵表示I与I之间的相关度矩阵;a为比例参数。
5.一种网页搜索结果排序装置,其特征在于,包括 搜索引擎,用于根据用户输入的查询词搜索出多个相关的网页; 获取模块,用于获取由搜索引擎搜索出的所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I ; 第一计算模块,用于计算由获取模块得到的所述P及所述I的信息量和相关度;第二计算模块,用于根据由第一计算模块得到的所述信息量和相关度计算得到所述I的信息质量得分; 排序模块,用于按照由第二计算模块得到的所述信息质量得分从大到小的顺序排列相应的网页。
全文摘要
本发明提供一种网页搜索结果排序方法及装置。其中方法包括搜索引擎根据用户输入的查询词搜索出多个相关的网页;获取所述网页的发布者的全网统一的用户标识P及所述网页的网页信息I;计算所述P及所述I的信息量和相关度;根据所述信息量和相关度计算得到所述I的信息质量得分;按照所述信息质量得分从大到小的顺序排列相应的网页。本发明在进行网页排序时不仅考虑了网页自身的因素,而且还考虑了人作为信息发布者的因素,使得真正具有高可信度的网页能够排在前列,因此提高了网页排序的可信性。
文档编号G06F17/30GK102737090SQ201210075938
公开日2012年10月17日 申请日期2012年3月21日 优先权日2012年3月21日
发明者袁行远, 龚颖坤 申请人:袁行远
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1