一种基于检索过期的网页搜索方法及其系统的制作方法

文档序号:6461114阅读:432来源:国知局
专利名称:一种基于检索过期的网页搜索方法及其系统的制作方法
技术领域
本发明涉及一种应用计算机在互联网进行网页搜索的方法,特别是涉及一种 基于检索过期的网页搜索方法及其系统。
技术背景在信息大爆炸的今天,信息已越来越成为人们密不可分的一部分。互联网 (Internet)将全世界的信息整合在一起,人们通过互联网就可以获得任何公开可 以获得的信息,使得人们更加依赖于利用互联网进行信息的査询,由于互联网的 信息都存储于各网页中,因此,对互联网的网页进行搜索是査询所需信息的必须 步骤。现有的互联网搜索引擎就是对互联网上的网页进行收集、整理和索引的工 具,该互联网搜索引擎通常提供有一个査询接口,用户通过此接口可以向搜索引 擎输入查询关键字,搜索引擎根据此关键字对互联网的网页进行收集、整理,并 形成索引返回给用户的査询端口,用户根据索引可以选择进入需要的网页而进一 步得到所需的信息。由于互联网搜索引擎保存了巨量的网页,当用户对搜索引擎进行请求时,搜 索引擎无法将全部匹配的网页都返回给用户,而是通过模糊计算,将它认为最适 合的网页返回给用户。目前互联网上存在的几个主流的搜索引擎,它们所提供的 检索结果一般只返回前面的1000条以内的记录,这对于需要得到更多结果的用 户,显然是无法满足要求的。互联网搜索引擎的访问量巨大,如果对每次査询都返回全部检索结果,会对 搜索引擎的服务器端造成极大的压力,而大部分的査询不需要全部结果,为了实 现资源的最大化利用,互联网搜索引擎限制检索结果数量己成为潜在的业界标准。当闲户需萆得至1|审名的扮#@#3^ ffl^P、:^iii寸《A^^iS《^^^[g1^1关键字,才能得到更多的记录,并需要手工整理这些记录,这样的査询方式,不 仅费时费力而且容易出错。发明内容本发明的目的在于克服现有技术之不足,提供一种基于检索过期的网页搜索 方法及其系统,是通过软件程序自动向搜索引擎多次重复请求,并将得到的检索 结果进行URL排重分析,保存于数据库中,当用户进行对应的检索时,向用户提 供己经保存在数据库中的检索结果,这样,不仅提髙了响应速度,而且可以得到 更多的检索结果。本发明解决其技术问题所采用的技术方案是 一种基于检索过期的网页搜索 方法,包括查询流程和周期自动检索流程; 在査询流程中,其包括如下步骤a. 接受用户的关键词输入,产生对应于该关键词的唯一编号;b. 将该关键词与已存储在第一存储区的所有关键词进行一一比较判断;当判断结果是该关键词已存在时,转至步骤g;当判断结果是该关键词不存在时, 继续下一步骤;C.将该关键词及其对应的编号存储于第一存储区中;d. 向互联网搜索引擎发送该关键词,触发互联网搜索引擎进行对应于该关 键词的网页搜索,并将对应于该关键词的搜索时间记录在第一存储区中;e. 接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;f. 将网页索引以及该网页索引所对应的该关键词的对应编号存储于第二存 储区中;g. 根据该关键词所对应的编号,从第二存储区中调出对应于该编号的网页索引;h. 将该网页索引作为搜索结果显示于用户的显示界面中;i. 退出或返回步骤a;在周期自动检索流程中,其包括如下步骤6j.从第一存储区中调出 一个关键词及其对应于该关键词的搜索时间;k.将该关键词的搜索时间与预先所设定的检索过期时间进行比较判断;当 判断结果为未过期时,返回步骤j;当判断结果为检索过期时,继续下一步骤;1.模拟浏览器行为,向互联网搜索引擎发送该关键词,进行对应于该关键 词的网页搜索,并将对应于该关键词的新的搜索时间去更新存储于第一存储区中 的对应于该关键词的原有的搜索时间m.接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;n.根据该关键词所对应的编号,从第二存储区中调出对应于该编号的原有 的网页索引,并将步骤m所获取的网页索引与巳有的网页索引进行URL唯一性比 对,以取得不重复的网页索引;o.将步骤n所取得的不重复的网页索引去更新存储于第二存储区中的对应 于该关键词的对应编号的原有的网页索引;p.判断第一存储区中的关键词是否逐个调取完毕,未调取完毕时,返回步 骤j,已调取完毕时,退出,等待下一周期开始。所述的检索过期为预先所设定的一个时间长度,在该时间长度内向搜索引擎 发送同样的査询关键词,其返回的结果是一样的。一种用于实现如上基于检索过期的网页搜索方法的系统,其包括査询模块,设有可接受用户输入关键词的输入界面;对用户输入的关键词进 行处理,产生对应于该关键词的唯一编号,向关键词管理模块输出该关键词及对 应的编号;接收并显示检索结果;关键词管理模块,设有关键词库用来存储关键词及其对应的编号;将査询模 块所发送的关键词与关键词库内的关键词进行比较,判断关键词库中是否已有该 关键词,当关键词库中没有该关键词时,将该关键词发送给搜索代理模块并记录 搜索时间,当关键词库中已有该关键词时,利用该关键词所对应的编号从搜索结 果库中调出与该关键词相对应的检索结果并发送给查询模块;同时,周期性判断 每个关键词是否已检索过期,并将已检索过期的关键词发送给搜索代理模块并记录新的搜索时间;搜索代理模块,模拟浏览器行为,向互联网搜索引擎发送关键词,同时接收 搜索引擎返回的检索结果,并将该检索结果发送给检索结果处理模块;检索结果处理模块,从搜索结果库中提取与关键词相关的结果集,将接收的 来自于搜索代理模块的检索结果,与结果集进行比对,进行URL唯一性分析,将 URL不重复的检索结果重新保存到对应于该关键词编号的搜索结果库中;搜索结果库,存储对应于各关键词编号的检索结果。用户通过本系统,不仅可以得到最新检索结果,而且可以得到以往的检索结 果;本系统尤其适用于多用户检索,能减少网络流量,提高响应速度,降低对搜 索引擎服务器的压力;本系统也适用于对多个搜索引擎进行检索的情况,能提高 工作效率。本发明的有益效果是,由于采用了由用户输入关键词到本系统,系统对关键 词进行初步处理,进入到关键词库,对于已存在的关键词,直接从搜索结果库提 取检索结果返回给用户;对于不存在的关键词,从搜索引擎获取检索结果,进行 排重,保存到搜索结果库后,返回给用户;同时,系统对关键词库中的关键词周 期性的进行自动检索和保存;使得用户不仅能得到最新的结果,而且可以得到以 往的检索结果,并且即使用户没有每天进行检索,该方法及其系统也能根据设定 的检索过期时间,周期性的自动检索、保存,从而提供给用户尽可能多的检索结 果;该方法及其系统还减少了对搜索引擎的访问,降低了网络与搜索引擎服务器 的压力;由于用户进行检索时,系统是将保存于本地的检索结果提供给用户,既 能极大地提高响应速度,也实现了进一步对检索结果进行分析处理的可能。以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于检 索过期的网页搜索方法及其系统不局限于实施例。


图l是本发明的系统原理框图;图2是本发明的查询过程的流程图;图3是本发明的周期自动检索过程的流程图。
具体实施方式
参图1所示,本发明的一种基于检索过期的网页搜索方法,是基于如下的系 统来实现的,该系统包括-查询模块11,设有可接受用户输入关键词的输入界面;对用户输入的关键词 进行处理,产生对应于该关键词的唯一编号,向关键词管理模块12输出该关键词 及对应的编号;接收并显示检索结果;关键词管理模块12,设有关键词库用来存储关键词及其对应的编号;将査询 模块11所发送的关键词与关键词库内的关键词进行比较,判断关键词库中是否已 有该关键词,当关键词库中没有该关键词时,将该关键词发送给搜索代理模块13 并记录搜索时间,当关键词库中己有该关键词时,利用该关键词所对应的编号从 搜索结果库15中调出与该关键词相对应的检索结果并发送给査询模块11;同时, 周期性判断每个关键词是否已检索过期,并将已检索过期的关键词发送给搜索代 理模块并记录新的搜索时间;搜索代理模块13,模拟浏览器行为,向互联网搜索引擎16发送关键词,同 时接收搜索引擎16返回的检索结果,并将该检索结果发送给检索结果处理模块14;检索结果处理模块14,从搜索结果库15中提取与关键词相关的结果集,将 接收的来自于搜索代理模块13的检索结果,与结果集进行比对,进行URL唯一 性分析,将URL不重复的检索结果重新保存到对应于该关键词编号的搜索结果库 15中;搜索结果库15,存储对应于各关键词编号的检索结果。 依据硬件环境,本系统可以安装在一台或者多台服务器上面。 一般情况下,可以准备两台服务器(一台为数据库服务器, 一台为应用服条 器),数据库单独用一台,安装搜索结果库15,把査询模块ll、关键词管理模块 12、搜索代理模块13、检索结果处理模块14安装在应用服务器上。9多个用户可以同时访问应用服务器,应用服务器通过査询流程,将处理结果 返回给用户。以下结合图2、图3来进一步说明本发明的一种基于检索过期的网页搜索方 法,该方法包括査询流程和周期自动检索流程; 在査询流程中,其包括如下步骤a. 査询模块11接受用户的关键词A输入,产生对应于该关键词A的唯一编 号Al,并将该关键词A与对应编号Al提交到关键词管理模块12;如图2中的框 201所示;b. 关键词管理模块12将该关键词A与已存储在第一存储区(即关键词库) 的所有关键词进行一一比较判断,如图2中的框202所示;当判断结果是该关键 词已存在时,转至步骤g;当判断结果是该关键词不存在时,继续下一步骤;c. 关键词管理模块12将该关键词A及其对应的编号Al存储于第一存储区 (即关键词库)中;d. 关键词管理模块12将该关键词A提交至搜索代理模块13,并记录提交时 间Tl,即将对应于该关键词A的搜索时间Tl记录在第一存储区(即关键词库) 中,且与关键词库中的该关键词A相对应;搜索代理模块13模拟浏览器对搜索 引擎进行检索,触发互联网搜索引擎进行对应于该关键词A的网页搜索;如图2 中的框203所示;e. 搜索代理模块13接收由互联网搜索引擎检索后返回的对应于该关键词A 的检索结果即网页索引B;如图2中的框204所示;f. 搜索代理模块13通过检索结果处理模块14将检索结果即网页索引B以 及该网页索引所对应的该关键词的对应编号Al存储于第二存储区(即搜索结果 库15)中;如图2中的框205所示;g. 关键词管理模块12根据该关键词A所对应的编号A1,从第二存储区(即 搜索结果库15)中调出对应于该编号Al的检索结果即网页索引B给查询模块11; 如图2中的框206所示;h. 查询模块11将该网页索引B作为搜索结果显示于用户的显示界面中;i. 退出或返回步骤a;在上述的査询过程中,当用户利用关键词A进行初次检索时,则査询工作流 程是由步骤a—步骤b—步骤c—步骤d—步骤e—步骤f—步骤g—步骤h;当用 户利用关键词A进行再次检索时,则査询工作流程是由步骤a—步骤b—步骤g— 步骤h,再次检索时,是将已存储在搜索结果库15中的网页索引B所为查询结果 返给用户;在周期自动检索流程中,其包括如下步骤j.关键词管理模块12从第一存储区(即关键词库)中调出一个关键词(比 如关键词A)及其对应于该关键词的搜索时间(比如搜索时间T1);如图3中的 框301所示;k.关键词管理模块12将该关键词A的搜索时间Tl与预先所设定的检索过 期时间Ta进行比较判断,检索过期时间Ta为预先设定的,可以为一天,也可以 为其它所设定的时间长度,该检索过期是预先设定的一个时间长度,在该时间长 度内向搜索引擎发送同样的査询关键词,其返回的结果是一样的,超过这个时间 周期,就定义为检索过期;取当前的时间为T2,由当前时间T2与搜索时间T1 的差值就得到该关键词A从互联网检索后获得检索结果到当前的时间段T,将时 间段T值与检索过期时间Ta值进行比较,当T值大于Ta值时,就认定为检索过 期,当T值小于Ta值时,就认定为未过期;如图3中的框302所示;当判断结果 为未过期时,返回步骤j;当判断结果为检索过期时,继续下一步骤;1.关键词管理模块12将该关键词A提交至搜索代理模块13,并记录提交时 间T3,搜索代理模块13模拟浏览器行为,向互联网搜索引擎发送该关键词A, 进行对应于该关键词A的网页搜索,并将对应于该关键词A的新的搜索时间T3 去更新存储于第一存储区(即关键词库)中的对应于该关键词A的原有的搜索时 间T1;如图3中的框303所示;m.搜索代理模块13接收由互联网搜索引擎检索后返回的对应于该关键词A的网页索引Bl,并将网页索引Bl发送给检索结果处理模块14;如图3中的框304 所示;n.检索结果处理模块14根据该关键词A所对应的编号A1,从第二存储区 (即搜索结果库15)中调出对应于该编号A1的原有的网页索引B,并将步骤m 所获取的网页索引Bl与已有的网页索引B进行URL唯一性比对,以取得不重复 的网页索引B2;如图3中的框305所示;o.检索结果处理模块14将步骤n所取得的不重复的网页索引B2去更新存 储于第二存储区(即搜索结果库15)中的对应于该关键词A的对应编号A1的原 有的网页索引B;如图3中的框306所示;P.关键词管理模块12判断第一存储区(即关键词库)中的关键词是否逐个 调取完毕,如图3中的框307所示;未调取完毕时,返回步骤j,已调取完毕时, 退出,等待下一周期开始。在周期自动检索流程中,周期可以根据需要进行设定,比如一天一个周期或 二天一个周期或三天一个周期等,当周期时间到时,系统启动自行进入周期自动 检索流程。上述实施例仅用来进一步说明本发明的一种基于检索过期的网页搜索方法 及其系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施 例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。
权利要求
1. 一种基于检索过期的网页搜索方法,其特征在于包括查询流程和周期自动检索流程;在查询流程中,其包括如下步骤a. 接受用户的关键词输入,产生对应于该关键词的唯一编号;b. 将该关键词与已存储在第一存储区的所有关键词进行一一比较判断;当判断结果是该关键词已存在时,转至步骤g;当判断结果是该关键词不存在时,继续下一步骤;c. 将该关键词及其对应的编号存储于第一存储区中;d. 向互联网搜索引擎发送该关键词,触发互联网搜索引擎进行对应于该关键词的网页搜索,并将对应于该关键词的搜索时间记录在第一存储区中;e. 接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;f. 将网页索引以及该网页索引所对应的该关键词的对应编号存储于第二存储区中;g. 根据该关键词所对应的编号,从第二存储区中调出对应于该编号的网页索引;h. 将该网页索引作为搜索结果显示于用户的显示界面中;i. 退出或返回步骤a;在周期自动检索流程中,其包括如下步骤j. 从第一存储区中调出一个关键词及其对应于该关键词的搜索时间;k. 将该关键词的搜索时间与预先所设定的检索过期时间进行比较判断;当判断结果为未过期时,返回步骤j;当判断结果为检索过期时,继续下一步骤;1. 模拟浏览器行为,向互联网搜索引擎发送该关键词,进行对应于该关键词的网页搜索,并将对应于该关键词的新的搜索时间去更新存储于第一存储区中的对应于该关键词的原有的搜索时间;m. 接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;n. 根据该关键词所对应的编号,从第二存储区中调出对应于该编号的原有的网页索引,并将步骤m所获取的网页索引与已有的网页索引进行URL唯一性比对,以取得不重复的网页索引;o. 将步骤n所取得的不重复的网页索引去更新存储于第二存储区中的对应于该关键词的对应编号的原有的网页索引;p. 判断第一存储区中的关键词是否逐个调取完毕,未调取完毕时,返回步骤j,已调取完毕时,退出,等待下一周期开始。
2. 根据权利要求1所述的一种基于检索过期的网页搜索方法,其特征 在于所述的检索过期为预先所设定的一个时间长度,在该时间长度内向 搜索引擎发送同样的査询关键词,其返回的结果是一样的。
3. —种用于实现如权利要求1所述的基于检索过期的网页搜索方法的 系统,其包括査询模块,设有可接受用户输入关键词的输入界面;对用户输入的关 键词进行处理,产生对应于该关键词的唯一编号,向关键词管理模块输出 该关键词及对应的编号;接收并显示检索结果;关键词管理模块,设有关键词库用来存储关键词及其对应的编号;将 査询模块所发送的关键词与关键词库内的关键词进行比较,判断关键词库 中是否已有该关键词,当关键词库中没有该关键词时,将该关键词发送给 搜索代理模块并记录搜索时间,当关键词库中已有该关键词时,利用该关 键词所对应的编号从搜索结果库中调出与该关键词相对应的检索结果并发 送给査询模块;同时,周期性判断每个关键词是否已检索过期,并将已检 索过期的关键词发送给搜索代理模块并记录新的搜索时间;搜索代理模块,模拟浏览器行为,向互联网搜索引擎发送关键词,同 时接收搜索引擎返回的检索结果,并将该检索结果发送给检索结果处理模块;检索结果处理模块,从搜索结果库中提取与关键词相关的结果集,将 接收的来自于搜索代理模块的检索结果,与结果集进行比对,进行URL唯 一性分析,将URL不重复的检索结果重新保存到对应于该关键词编号的搜 索结果库中;搜索结果库,存储对应于各关键词编号的检索结果。
全文摘要
本发明公开了一种基于检索过期的网页搜索方法及其系统,由用户输入关键词到本系统,系统对关键词进行初步处理,进入到关键词库,对于已存在的关键词,直接从搜索结果库提取检索结果返回给用户;对于不存在的关键词,从搜索引擎获取检索结果,进行排重,保存到搜索结果库后,返回给用户;同时,系统对关键词库中的关键词周期性的进行自动检索和保存;该方法及其系统使得用户不仅能得到最新的结果,而且可以得到以往的检索结果,并且即使用户没有每天进行检索,系统也能根据设定的检索过期时间,周期性的自动检索、保存,从而提供给用户尽可能多的检索结果;该方法及其系统还减少了对搜索引擎的访问,降低了网络与搜索引擎服务器的压力。
文档编号G06F17/30GK101546308SQ20081007187
公开日2009年9月30日 申请日期2008年9月25日 优先权日2008年9月25日
发明者林胜通, 达 腾 申请人:厦门市美亚柏科资讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1