使用页面集而提供信息搜索服务的服务器、方法和系统的制作方法

文档序号:6363018阅读:258来源:国知局
专利名称:使用页面集而提供信息搜索服务的服务器、方法和系统的制作方法
技术领域
本发明涉及一种信息搜索服务,更确切的说,是一种使用页面组而提供信息搜索服务的方法、系统和服务器。
背景技术
随着因特网的发展,网络信息搜索技术已经得到了很大的发展,而使得大量的信息在网络上可被处理和堆积,而且用户可以又快又准地搜索到信息。网络信息搜索技术使得用户能够使用web浏览器(网络浏览器)轻松的从网上搜索到各种各样的信息,例如图片,声音,电影图像等。然而,搜索技术存在着一个不利的因素就是,随着网址以几何级数增长,它们无法提供用户真正必需的信息。最常见的一种解决这种问题的方法就是使用搜索引擎。搜索引擎是一种被设计用来帮助发现信息的程序,这些信息存储在计算机系统中,例如存储于公共或私人网络或个人电脑内的万维网。搜索引擎通过搜索程序,例如搜索机器人或者网络蜘蛛,来创建网址信息的索引,并且将索引信息存储到数据库中。它允许用户查询符合特定规则的内容(特别是那些含有给定单词或者短语的内容),并返回一个和特定规则相匹配的参考列表。搜索引擎使用网络索引方法,网络路径方法和元搜索方法。网络索引方法是一种最通用的搜索方法。它通过搜索程序例如搜索机器人或者网络蜘蛛,来创建网址信息的索弓丨,并且将索引信息存储到数据库中,它允许用户查询符合特定规则的内容,并返回一个和特定规则相匹配的参考列表。网络路径方法按照主题和层次对因特网上的页面进行分类以编辑一个数据库,然后创建条目的路径,它允许用户选择和需要信息最接近的条目,进而逐渐的缩小搜索的范围。元搜索方法是一种高级网络索引方法,它在网络索引方法中创建一个可提供搜索服务的搜索引擎的列表,使得用户可以选择一个搜索引擎进行搜索。但是,这些搜索引擎各自都存在着以下的不足。网络路径方法不能获得实质性的搜索结果,因为在搜索结果内只包含了相对少量的网页。此外,网络路径方法搜索很耗时,因为它需要很多步骤来获得信息。网络索引方法和元搜索方法使得用户在大量的搜索结果前感到困惑,而且其搜索结果可靠性很低,因为它们提供给用户所有的页面,包括查询页面。元搜索方法和网络索引方法首先使用它们自己的算法来提供可靠性高的网页。但是,这些页面未必提供给用户他们想要的信息,因为包括查询在内的所有页面都被提供了。例如,以上提及的搜索方法会提供书中一页的存储信息,而不会提供一本或多本书的存储信息,而使得复杂搜索是不可能的。因此,要解决搜索结果的低可靠性问题,辅助内容,例如网络咖啡馆博客(Internet caf blog),或者信息服务,就被应用到搜索引擎中了。

发明内容
技术方案本发明提供了能够提供信息捜索服务的ー种方法,系统和服务器,这种服务可以对符合特定规则的ー组页面进行索引,并在这组页面内进行搜索。有益效果
根据本发明,用户可以又快又准的在因特网上查到信息,因为ー组网页被分析用以创建ー个位置信息模式,使用位置信息模式将含有类似信息的网页分组为多组,接着含有与查询相关信息的多个页面,也就是ー个代表页面和一些低级别的页面的形式被划为ー组后再提供给用户。


通过示意性实施例的详细描述,本发明的以上及其他特征和优势将更清楚,其中參照下述附图图I是根据本发明的一个实施例,使用一组页面来提供信息捜索服务的系统的方框图;图2根据本发明的一个实施例,一个组搜索服务器的方框图;图3和4是说明根据本发明的一个实施例的URL(统ー资源定位符)模式和ー个URL模式树(UP树)的示意图;图5是根据本发明的一个实施例,使用一组页面来提供信息捜索服务的方法的流程图;以及图6是根据本发明的一个实施例的一个组检索結果。实施发明的最优方式根据本发明的ー个方面,它提供了ー种提供组搜索服务的方法,包括(a)通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;(b)根据已经创建的位置信息模式对所收集数据进行分组;以及(C)从数据组中选择ー个与关键字相关的数据组并且提供一个组搜索結果。根据本发明的另ー个方面,它提供了在一个系统中提供一种组搜索服务的方法,该系统包括一个发送查询并输出搜索结果的用户终端,ー个提供多个页面的web服务器,以及ー个从用户终端接收查询并创建和发送搜索结果到用户终端的组搜索服务器,该方法包括(a)从用户終端接收查询和查询请求信号;(b)接收来自web服务器的网页;(C)分析网页以创建ー个URL模式,并且用该URL模式把这些网页分到ー个网页组;(d)从网页组中提取索引,创建索引信息,并创建索引所參照的网页组的URL信息;以及(e)比较查询和索引来创建ー个组搜索结果并将该结果发送给用户終端。根据本发明的另ー个方面,它提供了ー个提供组搜索服务的系统,该组捜索服务通过搜索在无线/有线网络中多个网页内的信息而获得,系统包括ー个在无线/有线通讯网络上实现网上冲浪的用户终端,它通过传送查询和搜索请求信号来产生搜索请求,接收该请求对应的组搜索结果,并且输出组搜索结果到显示单元;一个从信息中创建网页并提供网页的web服务器;以及一个接收和分析网页以创建URL模式,并使用URL模式而把网页分组为网页组,对网页组进行索引,在网页组中搜索信息并创建和传送组搜索结果给用户终端的组搜索服务器。 根据本发明的另一个方面,它提供了一个组搜索服务器,其包括一个位置信息模式生成模块,它通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;一个网页分组模块,它根据已创建的位置信息模式将所收集数据分组为数据组;以及一个控制器,它从数据组中选择一个与关键字相关的一个数据组并且提供一个组搜索结果O根据本发明的另一个方面,它提供了一个组搜索服务器,该服务器接收在无线/有线通讯网络上实现网上冲浪的用户终端发送的查询和搜索请求,在web服务器提供的网页中搜索信息,并发送搜索结果给用户终端,该组搜索服务器包括一个网页收集模块,它执行网页收集程序,用以自web服务器接收web服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创建URL模式;一个网页分组模块,它利用URL模式生成模块创建的URL模式将网页分组为网页组;一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用以创建并存储索引信息和索引所参照的网页组的URL信息;一个查询管理模块,它根据收到的查询和搜索请求信号而搜索索引信息,将具有与查询相关的索引的网页组的URL信息创建为组搜索结果,以及将组搜索结果传送至用户终端;以及一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
具体实施例方式现在用结合附图,对本发明的示意性实施例进行详细描述。图I是根据本发明的一个实施例,使用页面分组而提供信息搜索服务的系统的方框图。根据本发明的一个实施例,使用页面分组而提供信息搜索服务的系统包括一个用户终端110,一个无线/有线通讯网络120,一个web服务器130,一个组搜索服务器140,一个组搜索数据库(此后都用DB来表示数据库)141,一个索引服务器150,和一个索引数据库 151。用户终端110通过无线/有线通讯网络120访问组搜索服务器140,发送一个查询和搜索请求信号,并接收来自组搜索服务器140的组搜索结果,再输出组搜索结果到显示单元。用户终端110包括一个有线通讯单元,该单元包括一个因特网调制解调器,例如极高比特速率数字用户线路(VDSL)调制解调器和电缆调制解调器,和/或一个移动通讯单元,该单元包括一个移动通讯调制解调器,例如码分多址(CDMA) 2000调制解调器和宽带CDMA(ff-CDMA)调制解调器。用户终端110使用包含的通讯单元通过无线/有线通讯网络120来访问组搜索服务器140。用户终端进一步包括一个包含一块内存和一个微处理器的控制器。内存存放网络浏览器程序,这些程序被用来接收用户查询,请求信息捜索,以及输出捜索结果给显示单元。微处理器控制用户终端110的运行。 用户终端110的例子包括一台个人计算机(PC),例如一台桌上电脑或者一台膝上电脑,以及ー个通讯終端,例如个人数码助理(PDA)、手机、个人通讯服务电话、掌上电脑、全球移动通讯系统(GSM)电话、W-CDMA手机、CDMA-2000手机和移动宽带系统(MBS)手机。无线/有线通讯网络120将用户終端110、web服务器130、组搜索服务器140、索引服务器150连接起来,使得它们可以使用有线或无线的方式重复它们之间发送和接收的数据。web服务器130是ー个典型的网络服务器,包括用网页形式提供各种信息的多个计算机系统或计算机软件。网络服务器指一个计算机系统和计算机软件(网络服务器程序),它被连接到一个子单元,而与其他网络服务器通过计算机网络,例如企业内部互联网或者因特网,进行通信,接收运行请求并提供运行結果。然而,除了网络服务器程序,网络服务器应该被解释为包括运行在网络服务器上的应用程序以及存储在上面的各种数据库。网络服务器被具体化为根据操作系统,例如DOS、Windows, Linux、UNIX或者MacOS,而使用相应的网络服务器程序。索引服务器150执行ー个数据收集程序,通常是ー个web机器人,从连接到无线/有线通讯网络120的web服务器130上收集数据。索引服务器150定时更新收集的数据,且索引数据库151使用一个翻转文件或者类似的机制存放收集到的数据。组搜索服务器140与索引服务器150以及索引数据库151相通讯以阅读网络数据,组搜索服务器140还分析网络数据的位置信息以创建多种位置信息模式。位置信息是指包括收集到的网络数据的因特网路径。它优选包括网络数据的统ー资源定位符(URLs)。它分析在位置信息模式之间的联系以执行分组操作。上述过程能包括使用ー个URL模式树而创建在多个不同URL模式之间的ー个联系,还包括对具有相同URL模式分组域值的网页进行分组。可选择地或另外地,创建和URL模式分组的过程能包括參照ー个预定的URL模式路径。组搜索服务器140提取在网页组単元内的索引,创建由索引參照的网页的索引信息和URL信息,并且在组搜索数据库141内储存索引信息和URL信息。当组搜索服务器140从用户终端接收ー个查询和ー个信息搜索需求时,它将该查询与搜索相对比以创建关于组捜索结果的信息。组搜索结果与关于查询的其他捜索结果一起,能被传送至用户终端110。组搜索服务器140将会參照图2而被详细描述。即使组捜索服务器140没有从用户接收到关于查询的组搜索结果,它也能被用于提供一个关于一个确定关键字的组搜索結果。例如,它能使用ー个包含用户查询的更高水平的概念或一个关于用户查询的确定的关键字以提供一个组搜索結果。进ー步地,它能使用一个关于情报的关键字以提供一个组搜索結果。组搜索数据库141储存网页组的索引信息和位置信息(包括URL信息),这些信息由组搜索服务器140所创建。它能进一歩地储存组的中心词。数据库是指通过DBMS(数据库管理系统)程序而在计算机系统的存储区内形成的数据结构,在其中数据被取得、删除、编辑和添加。数据库能使用一个相关的DBMS而适应于本发明,例如,Oracle, Informix,Sybase, MS SQL (微软结构查询语言),或DB2的数据库管理系统。数据库包括存储、取得、删除、编辑和添加数据所需的域和元素。进一步地,组搜索数据库141和索引数据库151能彼此分开,或为完整一体。
图2根据本发明的一个实施例,一个组搜索服务器的方框图。一个组搜索服务器140是包括一个网页收集模块210、一个URL模式生成模块220、一个网页分组模块230、一个索引管理模块240、一个查询管理模块250和一个控制器260的网络服务器。网页收集模块210通过无线/有线通讯网络而访问web服务器130以收集数据。网页收集模块210能选择性地包括在组搜索服务器140内,以反映被位置信息所参照的数据的变化,该位置信息由索引服务器150所收集且存储于索引数据库151内。URL模式生成模块220分析控制器260或网页收集模块210所需的网页的URLs以创建URL模式。URL模式是指网页的URL的预定模式,且其被创建以管理具有相同内容的一组网页或以同样模式写成的一组网页。在本发明中,相同网页被分组和被管理以用于信息搜索。此时,URL模式被用作选择相同网页的一个标准。URL模式生成模块220分析控制器260或网页收集模块210接收的网页的URLs,以创建包括分组域的URL模式。例如,在由Neowiz公司提供的SayClub主页服务器内,每一个ID (身份)的代表页的URL被分析,ID被设置为一个分组域,因此创建了一个http: //hompy.sayclub. com/[ID]的URL模式。URL模式将会参照图3而被详细描述。除了分组域,URL模式能基于超文本传输协议(HyperText Markup Language, HTML)模版而创建,该模版由两个网页或网页内容所共享。HTML模版是指通常使用的基础结构,以使得网页能够易于被写入。例如,它以标签形式被书写,如〈Table. · · ><TD>[text number]</TDXTD>[title]</TD>. · ·〈/TABLE〉,其常用于写入网页。写入为网页的一个HTML文件典型地是一个HTML标签和一个文本的组合,它遵守HTML的语法。HTML文件由多个功能块组成,如,菜单块、用于与其他入口站点相连的连接块、和一个用于包含内容的信息块。功能块经常用于网页内,且因此用模版写入以方便用户。由同样操作件创建的网页能包含于多个由web服务器所管理的网页内,而该服务器提供了公告服务、博客服务、最小化主页服务及其类似物。即,共享一个相同HTML模版的多个网页趋向于由相同的操作件所创建,且趋向于包含相同的内容。因为提供了公告服务、博客服务和最小化主页服务的web服务器130使用相同的HTML模版以写入由web服务器130所管理的最多的网页,所以由相同web服务器130所管理的网页共享同样的HTML模版。相应地,共享同样HTML模版的网页能具有同样的URL模式。基于所需URL模式之间的通过UP树信息的联系,网页分组模块230对由URL模式生成模块220创建的不同URL模式进行分组,而且在URL模式组内对具有同样分组域的网页进行分组。即,网页分组模块230对URL模式进行分组,该URL模式与由URL模式生成模块220创建的URL模式不同,但是它们又相互相关,基于所需URL模式之间的通过UP树信息的联系,网页分组模块230在URL模式组内对具有相同URL模式分组域值的网页进行分组。例如,登记于SayClub主页内网页的URLs能够概括为大约20种不同的URL模式。基于UP树信息,这20种不同URL模式被分组在ー个单个组。在它们中,具有同一个用户ID的网页作为ー个分组域值而被分组在ー个网页组内。相应地,当登记于SayClub主页的网页被依据用户ID而分组,网页的分组数等同于登记于SayClub主页的用户ID的数量。进一歩地,这能等同地应用于登记于Naver博客的网页,以使得网页的分组数等同于登记于Naver博客的用户ID的数量。然而,在本发明中,用于分组网页的标准不局限于分组域值。例如,能通过对分组域执行“和”或“或”操作的而对网页分组。本发明可进ー步包括对在ー个索引和一个相应组之间的联系进行评价,以对页面组进行细分或改变,该索引由索引管理模块240提取。例如,当自页面组提取的索引涉及两个或多个域时,页面可被整合为ー个组或基于域而被细分两个或多个子组。当从ー组页面提取的ー个索引不正确地表示其内容,该组可被删除以产生ー个可靠的搜索結果。索引管理模块240从ー个由网页分组模块230分组的页面组提取ー个索引,以及 存储在组搜索数据库141内网页的索引信息和URL信息。即,索引管理模块240从ー个页面组提取ー个索引以创建索引信息,以及在组搜索数据库141的索引数据库151内储存索引信息。另外,索引管理模块240使用UP树信息以创建网页组的URL信息和在组搜索数据库141内储存URL信息。在从用户终端110接收ー个查询或关键字时,查询管理模块250搜索索引数据库151,从组搜索数据库141接收具有匹配查询索引的网页组信息和创建组捜索結果。在查询或关键字与索引之间的匹配可通过使用指定术语词典或共有信息(MI)值而执行。另外,可使用公知算法而执行。控制器260控制网页收集模块210、URL模式生成模块220、网页分组模块230、索引管理模块240和查询管理模块250,以使得组搜索服务器能够使用ー组网页进行查询。另夕卜,控制器与索引服务器150和索引数据151进行通讯,从用户终端110接收查询搜索请求,和发送组捜索結果。图3和图4是根据本发明的一个实施例,对URL模式和UP树的进行解释的示意图。图3 说明了使用 Neowiz SayClub 主页(http://hompy. sayclub. com,此后称之为hompy)服务的用户主页的URL,以及其相关页面的URL。用户主页包括ー些在用户URL内含有其ID的网页。在SayClub hompy, URL被表现为查询形式,如被“变量名称=变量值”跟随的“◎”符号。相应地,在图3中,当跟随“targetmsrl =”的值被认为是确认用户ID的标准吋,URL模式被如图4所示而创建。另外,在由门户站点所提供的私人博客服务或公告服务中,服务提供商的域名可被一个分隔符所跟随用以区别用户和公告。图4是通过分析在hompy内网页的URL而得到的URL的树状结构的模式。參照图3,每ー个网页在其URL内包括用户的ID。因此,在网页的URL中,“用户ID”的部分可被转换为[ID]的分组域,而包含在hompy内的“公告类型”部分可被转换为[公告类型]的分组域。即使是分组域值变化了,而当URL浏览的内容实质上没有改变时,分组域可被设置为[忽略]域,而[忽略]域在分组URL模式的过程中被忽略。基于分组域值的变化,可通过分析在相应组内文件的囊括和联系而确定分组域之间的优先。
当URL模式通过上述过程而被创建,被创建的URL模式能被用于概括Neowizhompy所有用户的网页。分组域能自动地被形成于分析URL地址的过程中。在由门户站点或社区站点提供的私人博客或公告中,URL模式被统一地按照服务提供商的策略而创建。在这种情况下,创建和对URL模式分组的过程能通过参照关于分组域的预定URL模式和路径而被执行。图5是根据本发明的一个实施例,使用一组页面而提供信息搜索服务的方法的流程图。 一个因特网用户使用用户终端以输入一个信息搜索的查询,且发送该查询和搜索请求至组搜索服务器140(操作S410)。操作S410可被省略。即,一个组搜索服务器可通过分析储存数据而被执行,而无需用户输入查询或查询请求。在从用户终端110接收查询和搜索请求信号后,组搜索服务器140从索引数据库151接收关于网页的信息(包括地址信息),而该索引数据库151由索引服务器150所预先收集和编译(操作S420)。组搜索服务器140可选择性地操作网页收集模块210以从索引数据库151接收附助材料。期间,根据一个预定方法,web机器人程序可被执行以接收网页索引服务器150而存储于索引数据库151内。在从索引服务器150接收网页后,组搜索服务器140分析网页以创建URL模式(S430)。在创建URL模式后,基于通过UP树信息获得的URL模式与网页组的联系,而该网页组在一组URL模式内具有同样的URL模式的分组域值(操作S440),组搜索服务器140对不同的URL模式进行分组。在分组网页后,组搜索服务器140从组单元内的网页组提取索引,以创建索引信息和由索引参照的网页组的URL信息(操作S450),以及在组搜索数据库150内存储索引信息和网页组的URL信息(操作S460)。在组搜索数据库150内存储索引信息和网页组的URL信息后,组搜索服务器140对接收自用户终端110的查询和存储于组搜索数据库150内的索引进行对比,进行搜索,创建和发送组搜索结果至用户终端110 (操作S470)。在从组搜索服务器140接收搜索结果后,用户终端110输出搜索结果至显示单元。根据本发明,即使是查询没有从用户被输出,也可提供组搜索服务。根据本发明,组搜索服务将多个网页分组为一个网页组,且搜索与该网页相关的实体,而不是搜索包含于网页内的一个术语。搜索服务可与公告搜索服务一起而被使用。最近,公告服务广泛地用于网页上,在其中用户登记关于特定信息的材料,写入信息的问题和解答。公告服务可包括含有比用户搜索更多信息的网页。相应地,当一个用户输入查询以请求搜索,一个代表性的网页和共享关于该查询信息的低水平的公告网页,被分组在一起以及以预定次序被提供,而不是简单地提供包含该查询的网页。根据本发明的一个实施例,组搜索服务在下午中采取为公告服务。然而,本发明并不局限至此,而是可被应用为使用网页组以进行搜索的多种服务。图6是根据本发明的一个实施例,解释组搜索结果的示意图。在提供组搜索结果的方面,其输出顺序可取决于用户查询和关键字、组内文件的数目、在现实期间内组内文件数目的增加、组和组文件的创建时间或普及度之间的联系,而所述普及度如用户访问单个组的数量。为了评价该联系,评价技术可被使用,其中使用了在相应组内和预定术语路径内,用户使用查询和关键字的频次。普及度可取决于在相应组内文件查询的数目,用户访问组的数目以及在预定时间内在相应组内创建的数据量。当一个用户在网页内的输入窗口 510内输入“psp”查询,即输出一个组搜索结果530,所述网页输出至用户终端110以提供组搜索服务和选择“搜索”。组搜索结果530按照“Neo rank order (新登记次序)”而在分类菜单520内被分类。用户可在分类菜单520内的“相关文章次序”或“普及度次序”内对组搜索结果530进行分类。组搜索结果530可显示网络文件的名称、文章名称等以有效地提供信息。页面组信息540可进一步包括关于页面组分类和所囊括文件的数目的信息。另外,可提供单个页面组内单个文件的清单550以方便用户。进一步地,可提供关于单个页面组来源信息的分类项560以有效地提供信息。虽然本发明被参照其说明性实施例而被描述,但是本领域技术人员能够理解,在下述权利要求的范围内,可以作出形式和细节上的多种变化,而不会脱离本发明的保护范围。产业上的可利用性本发明能被有效地适用于提供信息搜索服务的方法、系统和服务器。
权利要求
1.一种组搜索服务器,包括 网页收集模块,执行网页收集程序,用以接收网页并存储所述网页; URL模式生成模块,通过分析网页收集模块接收到的网页的URL来创建包含为网页分组的分组域的URL模式; 网页分组模块,它利用URL模式生成模块创建的URL模式将网页分组为网页组;索引管理模块,从网页分组模块分组的网页组中提取索引,用以创建并存储索引信息和索引所参照的网页组的URL信息; 查询管理模块,在接收到查询和搜索请求信号时搜索索引信息,将具有与所述查询相关的索引的网页组的URL信息创建为组搜索结果;以及 控制器,控制网页收集模块,URL模式生成模块,网页分组模块,索引管理模块和查询管理模块,使得组搜索服务器能够使用网页组来完成搜索; 其中,URL模式生成模块使用网页的URL生成分组域。
2.根据权利要求I所述的组搜索服务器,其中,URL模式生成模块创建用作标准的URL模式,所述标准用于以预定模式对网页分组,该预定模式由具有相同信息的网页所共享。
3.根据权利要求I所述的组搜索服务器,其中,所述网页分组模块基于通过URL模式数信息获得的URL模式之间的联系,将不同URL模式分组以创建URL模式的组,以及将URL模式的组中的具有相同的URL模式的分组域值的网页分组为网页组。
4.根据权利要求I所述的组搜索服务器,其中,所述网页分组模块将具有相同值的网页分组为网页组,所述值通过对URL模式的分组域执行“和”或“或”操作的而获得。
5.根据权利要求I所述的组搜索服务器,其中,所述索引管理模块从包含于网页组内的网页提取索引,以创建和存储索引信息,以及创建和存储由索引所参照的网页组的URL信息,以使得URL信息与索引相对应。
全文摘要
披露的是提供信息搜索服务的方法、系统和服务器。提供组搜索服务的方法,包括通过分析所收集数据最初定位的位置信息,来创建这些数据的位置信息模式;根据已经创建的位置信息模式,将所收集数据分组为数据组;以及从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
文档编号G06F17/30GK102622402SQ201210008279
公开日2012年8月1日 申请日期2006年3月3日 优先权日2005年3月4日
发明者南世东, 愼重熩 申请人:搜索方案株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1