一种基于多搜索引擎的Web信息检索方法

文档序号:6550263阅读:217来源:国知局
一种基于多搜索引擎的Web信息检索方法
【专利摘要】基于多搜索引擎的Web信息检索方法。该方法利用生产者-消费者模型,通过网页爬取程序自动将用户输入的文本串提交给多个不同的搜索引擎,然后从各搜索引擎的返回页面抽取出搜索结果并进行合并、去重。在此基础上利用正向最大分词匹配方法对每个结果页面进行评分,并按照评分对结果进行排序。本发明将元搜索技术与最大正向匹配评分方法结合起来,针对在一些情况下单个搜索引擎难以满足用户搜索要求的问题,提出解决方案。该方法思想新颖,具有简洁实用、容易实现的特性,可以大大减少用户切换搜索引擎的麻烦,并提高了搜索结果的质量。
【专利说明】—种基于多搜索引擎的Web信息检索方法
【技术领域】
[0001]本发明属于Web信息检索领域,尤其涉及一种基于多搜索引擎的Web信息检索方法。
【背景技术】
[0002]目前,互联网已成为人们获取信息的重要资源,而各大搜索引擎是人们获取信息的主要工具。然而,面对如此丰富的Web资源,使用目前的搜索引擎发现自己真正需要的信息却并非易事。原因主要包括:(1)各搜索引擎能够索引的网页数量只是整个Web信息世界的较小部分;(2)各搜索引擎索引的网页内容具有一定的差异性。利用相同的关键字在不同的搜索引擎进行搜索,会发现搜索结果有时相差很大。这表明:不同的搜索引擎具有各自的特征和优势,使用任何一个搜索引擎都难以完美地满足用户所有的信息检索要求。另一方面,使用搜索引擎的用户千差万别,大部分不是信息【技术领域】的专业人员,也并不了解各搜索引擎的特征和优势,从而在搜索信息的时候往往效率比较低。
[0003]即使对于一个特定的搜索引擎,由于其自身问题,返回的结果有时与用户的要求仍有一定的差距。主要表现为搜索结果数量大、有用的结果淹没在无用的结果之中,用户需要对结果进行手工的二次检索。其原因为:目前搜索引擎采用基于关键词匹配的检索技术。用户输入检索关键词,搜索引擎对网页索引库进行检索,将包含关键字的网页返回,并对检索结果按照一定的方法排序。这种方式在中文中具有一定的局限性。用户使用关键字往往难以准确地表达清楚搜索要求,搜索引擎也难以理解自然语言。
[0004]元搜索技术也是针对这一问题提出的,其目的就是通过集成不同搜索引擎的内容为用户提供更加有效的服务。尽管目前有许多元搜索引擎系统,但良莠不齐。能够在市场上得到认可的尚不多见,其主要原因在于搜索结果实时性以及汇总排序方面难以达到用户的需求。从用户的角度,最需要的是一种自动、高效、实时的Web信息检索方法,一方面能够减少用户因不断尝试各种搜索引擎所消耗的时间,同时又能够利用更加有效的排序方法为用户检索出满意的结果。

【发明内容】

[0005]本发明的目的是解决“由于每个搜索引擎各自的局限性,而使用单一搜索引擎有时难以搜索到真正想要结果”的问题,提出一种基于多搜索引擎的Web信息检索方法。本发明基于用户输入的内容,利用爬虫从各大搜索引擎爬取搜索结果,将获取的结果根据相应的算法进行计算,得出每个页面的评分,排序并展示给用户。
[0006]本发明提供的基于多搜索引擎的WEB信息检索方法的具体步骤包括:
第1,用户(如图1)从搜索界面(如图2)输入搜索文本串S并提交;
第2,搜索文本串传入总控制器(如图1),总控制器负责各搜索引擎的调度;
第2.1,总控制器将传入的搜索文本串S进行预处理;去除首末空格,并判断是否超出长度范围,超出则进行字符串截断处理;此处限制长度为50个汉字; 第2.2,总控制器负责调度爬虫程序,从各大搜索引擎爬取搜索结果。此处利用生产者-消费者模型提升爬取效率,由总控制器产生不同的生产者,一个生产者对应一个爬虫线程,这样多个爬虫线程可以并行执行;
第2.3,爬虫程序模拟客户端向各大搜索引擎提交用户输入的文本串,得到返回结果集合,并过滤解析出每个网页的标题、摘要和网址信息;
第3,对爬取结果进行处理。将爬取的结果放入同步栈,并对结果进行去重(即对于从不同搜索引擎返回的相同结果只保留一个),同时计算每个页面的来源搜索引擎的个数;
第4,通过现有分词工具将输入的文本串进行分词(如图3),产生词语集合W ;
第5,对每个页面进行评分;
第5.1,输入文本经过分词后,利用排列算法得到词汇的所有排列,并过滤出排列为正向的所有字符串,这里正向是指和输入文本共有的词排列顺序一致;
第5.2,遍历所有的排列情况,对于排列为正向的字符串,判断页面的标题和摘要中是否包含该字符串,包含则将该页面得分加上这个组合情况的映射长度(如图4),映射长度是指该组合情况所包含的词汇个数;
第5.3,将每个页面的得分与此页面的来源数相乘作为最终此页面的评分(如图5);
第6,根据上面计算得到的评分,从高到低对对页面排序;
第7,计算搜索用时;
第8,给用户返回排序后的页面(如图6)。
[0007]本发明涉及的几个概念的含义如下 网页来源数(Number Of Web Sources)
网页来源数是指某个页面来源于搜索引擎的个数。
[0008]字符串排列(StringPermutation And Combination)
字符串排列是指将文本最大分词后形成的字符串集合的所有元素进行全排列,得出这些元素的各种排列情况。
[0009]正向最大匹配评分(ForwardMaximum Matching Scoring Algorithm)
正向最大匹配评分指的是将每个页面的标题和摘要信息与查询串的排列组合的所有正向情况进行匹配,并将匹配串的长度作为累加求和。
[0010]本发明的优点和积极效果:
本发明将元搜索与最大正向匹配评分算法结合起来,有效解决了使用单一搜索引擎有时难以搜索到真正想要结果这一问题。该方法具有独特的创造性,其既可以集成到现有的线上元搜索工具,也可以将该技术用于线下桌面搜索中。
[0011]本发明方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户切换搜索引擎的麻烦。
[0012]
【专利附图】

【附图说明】
[0013]图1是本发明的系统流程图;
图2是本发明的查询界面;
图3是输入串“天津理工大学许文亚”的分词结果; 图4是以“天津理工大学许文亚”为例的网页评分计算方法;
图5是以一个网页为例显示评分的计算过程;
图6是本发明搜索结果页面示例;
为了更全面地理解本发明及其优点,下面结合附图及具体实施例对本发明做进一步详细地说明。
[0014]
【具体实施方式】
[0015]实施例1
下面我们以一个例子来说明基于多搜索引擎的Web信息检索方法,假设用户输入的文本串为“天津理工大学许文亚”,考虑的搜索引擎有两个:WSE1和WSE2。基于该搜索实例对以上概念进行说明。
[0016]第1,用户输入搜索文本串S= “天津理工大学许文亚”并提交;
第2,搜索文本串传入总控制器(如图1),总控制器负责各搜索引擎的调度;
第2.1,总控制器将传入的搜索文本串S进行预处理。
[0017]第2.2,总控制器负责调度爬虫程序,产生两个爬虫线程Pl和P2 ;
第2.3,爬虫线程Pl模拟客户端向搜索引擎WSEI提交用户输入的文本串“天津理工大学许文亚”,得到返回结果集合SI,并过滤解析出结果集前η个网页的标题、摘要和网址信息;爬虫线程Ρ2模拟客户端向搜索引擎WSE2提交用户输入的文本串“天津理工大学许文亚”,得到返回结果集合S2,并过滤解析出结果集前η个网页的标题、摘要和网址信息,这里η=10 ;
第3,对爬取结果进行处理。对结果集合SI和S2进行合并去重,合并去重的含义即计算集合SI和S2的并集。同时,要计算每个页面的来源搜索引擎的个数,比如,如果网页P只来源于搜索引擎WSEl的返回结果SI,则P的来源搜索引擎的个数为1,如果WSEl和WSE2的搜索结果中都包含网页P,则P的来源搜索引擎个数为2 ;
第4,通过现有分词工具将输入的文本串进行最大分词(如图4),分词结果为“天津I理工大学I许文亚”,分别用A、B、C表示“天津”、“理工大学”、“许文亚”,则分词结果为AIB I C。
[0018]第5,对每个页面进行评分;
第5.1,将查询分词后的字符串集合进行排列组合处理,并筛选出正向的情况输入文本经过分词后,利用排列算法得到输入文本中词汇的所有排列,并过滤出排列为正向的所有字符串,这里正向是指字符串和输入文本共有的词排列顺序一致,例如,在本例中,AB、BC等均为正向字符串;BA、CA等都不是正向字符串。
[0019]第5.2,遍历所有的排列情况,对于排列为正向的字符串,分别与结果进行匹配,并根据图4的各种情况计算评分,累加求和。
[0020]第5.3,将每个页面的得分与此页面的来源数相乘作为最终此页面的评分。如图5显示了一个网页的评分计算示例。因为该网页摘要包含正向子串:“许文亚”、“天津”、“理工大学”,根据图4所示,加3分,又因为其包含天津理工大学,因此再加2分;又因为该网页来源于三个搜索引擎Google、baidu和Sogou,因此其最终评分为(1+1+1+2) X3 = 15.第6,根据上述方法计算每个页面的评分,并按照评分从大到小对页面排序; 第7,计算搜索用时;
第8,返回网页排序结果给用户)。
[0021]通过上述可知,本发明方法新颖,具有简洁实用、容易实现的特性,同时还可以大大减少用户切换搜索引擎的麻烦,便于用户搜索在某个搜索引擎上难以搜索到的内容,提高了搜索质量,而且集成了各个搜索引擎特有的优势,能够删除不合适或重复的网页并对结果按照关联度高低进行排序,查准率有了较大的提高。
[0022]对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其做出各种修改。
【权利要求】
1.一种基于多搜索引擎的WEB信息检索方法,其特征在于该方法包括: 第I,首先用户从搜索界面输入搜索内容文本串S并提交; 第2,系统将搜索内容传入总控制器; 第2.1,总控制器将传入的文本串S进行预处理,去除首末空格,并判断是否超出长度范围,超出则进行字符串截断处理,此处限制字符串长度为50个汉字大小; 第2.2,总控制器负责调度爬虫程序,从各大搜索引擎爬取搜索结果;利用生产者-消费者模型提升爬取效率,由总控制器产生不同的生产者,一个生产者对应一个爬虫线程,这样多个爬虫线程可以并行执行; 第2.3,爬虫程序模拟客户端向各大搜索引擎提交用户输入的文本串,得到返回结果集合,并过滤解析出每个网页的标题、摘要和网址信息; 第3,将爬取的结果放入同步栈,并对结果进行去重处理,同时计算每个页面的来源搜索引擎的个数; 第4,通过现有的分词工具将输入的文本串进行分词,产生词语集合W ; 第5,对每个页面进行评分; 第5.1,输入文本经过分词后,利用排列算法得到词汇的所有排列,并过滤出排列为正向的所有字符串,这里正向是指字符串和输入文本共有的词排列顺序一致; 第5.2,遍历所有的排列情况,对于排列为正向的字符串,判断页面的标题和摘要中是否包含该字符串,包含则将该页面得分加上这个组合情况的映射长度,映射长度是指该组合情况所包含的词汇个数; 第5.3,将每个页面的得分与此页面的来源数相乘作为最终此页面的评分; 第6,根据每个页面的评分对页面排序; 第7,计算系统用时; 第8,返回查询结果给用户。
【文档编号】G06F17/30GK104008210SQ201410278461
【公开日】2014年8月27日 申请日期:2014年6月20日 优先权日:2014年6月20日
【发明者】李玉坤, 许文亚 申请人:李玉坤
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1