一种用于间接爬行的系统和过程的制作方法

文档序号:6477047阅读:194来源:国知局
专利名称:一种用于间接爬行的系统和过程的制作方法
技术领域
本发明领域总体上涉及到有关计算机的信息搜索和检索,具体而言,涉及到结构化地搜索网上的内容。
作为理解本发明的背景,因特网(也称为万维网或者Web)在其普及方面作出的贡献使得用户可以利用的多媒体和流媒体文件供过于求。然而,查找淹没于Web上的数以万计的文件之中的具体多媒体或流媒体文件却常常是一件极其困难的任务。可从Web上获得的信息内容的容量和种类可能在以相当可观的速度持续增加。这样的增长结合Web的高度分散性使得在定位特定信息内容上产生相当大的困难。
流媒体是指这样的音频、视频、多媒体、文本以及交互式数据文件,它们通过因特网或者其它网络环境传送到用户的计算机,并在整个文件都传送完毕之前,就开始在用户的计算机上播放。流媒体的一个优点在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去用户长久等待,这种长久等待通常是与下载整个文件相关联的。数字记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,不怎么昂贵的高带宽连接(诸如电缆、DSL以及T1)使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家庭用户的流媒体内容。
用户通常使用搜索引擎搜索因特网上的具体信息。搜索引擎包括一组在网络(例如局域网(LAN)或者因特网以及万维网)中的网络站点上可被访问的程序。一种被称为“机器人”或“蜘蛛”的程序在搜索文档(例如网页)以及其它程序时预先遍历网络,并建立在所述文档中发现的关键字的大型索引文件。典型地,用户形成包含一个或多个搜索词的查询,然后将查询提交给搜索引擎的另一个程序。在响应时,所述搜索引擎检查自己的索引文件,并且显示与搜索查询相匹配的文档列表(通常作为超链接)。然后,用户可以激活一个超链接来查看在所述文档中包含的信息。
然而,搜索引擎存在有缺陷。例如,许多典型的搜索引擎是适用于仅仅发现文本信息的。具体而言,它们并不能很好地用于对包含在结构化的数据库(例如关系数据库)中的信息、与语音有关的信息、与音频有关的信息、多媒体以及流媒体作索引等等。此外,混合来自不相兼容的数据源的数据对于常规搜索引擎是很困难的。此外,当搜索引擎搜索(也称为爬行)网络时,它典型地采用随机的方式通过跟踪它所遇到的web链接进行爬行。典型地,搜索引擎(例如,网上爬行器(web crawler))对所有网站进行分类。这种低效类型的搜索常常产生非常大量的数据,这些数据对于生成可搜索的索引而言是没用的。这尤其适用于像流媒体这样的对象。
本发明是一种用于搜索基于网络的内容中的目标内容的方法,包括确定结构化数据存储的选定层,以便搜索与目标内容有关的内容。本方法还包括搜索选定层中与目标内容有关的内容。


对于本发明,通过结合附图阅读以下详细的描述能够得到最好的理解。附图的各种技术特征可以是不按照比例的。包括在附图中的是以下的图图1是互联的计算机系统网络的系统的形式化概要说明;图2是根据本发明一个实施例的用于数据存储的示范性结构化格式的框图;图3是根据本发明一个实施例的示范性站点地图的框图;图4是在本发明一个示范性实施例的数据库400中存储的信息的图解;以及图5是根据本发明的示范性搜索过程的流程图。
因特网是世界范围的计算机网络系统,它是其中一台计算机的用户能够从任何其他计算机中获得信息以及与其他计算机的用户进行通信的网络的网络。因特网最广泛应用的部分是万维网(常缩写为“WWW”或者称为“Web”)。Web的突出特征是它使用超文本,它是一种交叉引用的方法。在大多数的网站中,某些单词或者短语是以不同于周围文本颜色的文本出现的。这种文本常常还有下划线。有时,是“可点击”的按钮、图像或者部分图像。使用Web可以访问数以万计的信息页。网上“冲浪”是通过网页浏览器(诸如NETSCAPE NAVIGATOR以及MICROSOFT INTERNET EXPLORER)实现的。特定网站的外观可以有些许变化,这取决于所使用的特定浏览器。最近版本的浏览器带有“插件(plugins)”,它们提供动画、虚拟现实、声音和音乐。
本发明是这样一种系统和方法,所述系统和方法用于通过搜索系统使用元数据在计算机网络上检索基于网络的内容,包括媒体文件和与媒体文件有关的数据。在此所使用的术语“媒体文件”包括音频、视频、文本、多媒体数据文件以及流媒体文件。多媒体文件包括文本、图像、视频以及音频数据的任意组合。流媒体包括音频、视频、多媒体、文本以及交互式数据文件,它们是通过因特网或者其它通信网络环境传送到用户的计算机的,在整个文件都传送完毕之前,它们就开始在用户的计算机/设备上播放。流媒体的一个优势在于在整个文件都被下载之前,流媒体文件就开始播放,从而免去了用户长久等待,这种长久等待通常是与下载整个文件相关联的。数字记录的音乐、电影、预告片、新闻报道、无线广播以及事件实况都有助于增加Web上的流内容。此外,通过使用高带宽连接(诸如电缆、DSL、T1线以及无线网络(例如基于2.5G或者3G的蜂窝网络))而在通信网络成本上的降低会使因特网用户能更加快速、更加可靠地访问新闻机构、好莱坞电影制片商、独立生产商、记录标记、甚至家庭用户他们自己的流媒体内容。
流媒体的例子包括歌曲、政治演讲、新闻广播、电影预告片、实况广播、无线广播、财政新闻发布会、现场音乐厅、网络摄像机(web-cam)的连续镜头以及其他特殊事件。流媒体的编码采用各种格式,包括REALAUDIO,REALVIDEO,REALMEDIA,APPLE QUICKTIME,MICROSOFT WINDOWSMEDIA FORMAT,QUICKTIME,MPEG-2 LAYERIII AUDIO以及MP3。通常,媒体文件指定有扩展名(后缀),用于指示与具体格式的兼容性。例如,以扩展名.ram,.rm,.rpm之一结尾的媒体文件(例如音频和视频文件)与REALMEDIA格式相兼容。在下表中列出了文件扩展名以及与它们相兼容的格式的一些例子。更详尽的媒体类型、扩展名以及兼容格式的列表可以在http//www.bowers.cc/extensions 2.htm中查找到。
表1

作为描述性数据的元数据字面意思是“关于数据的数据”。元数据是这样的数据,它包括描述其他数据(例如媒体文件)的内容或者属性的信息。例如,标题为“用于资源发现的都柏林核心元数据”(http//www.ietf.org/rfc/rfc 2413.txt)的文档将元数据分为三组,它们概略地指示在其中所包含的信息的类别或者范围。这三个组是(1)主要与资源的内容有关系的元素,(2)按知识产权观看时主要与资源有主要关系的元素,以及(3)主要与资源的实例化有关系的元素。落在这些组的元数据的例子表示在下表中。
表2

元数据的来源包括网页内容、统一资源指示符(URI)、媒体文件以及用于传送媒体文件的传输流。网页内容包括HTML、XML、元标记以及在网页上的任何其它文本。如在此更加详细的解释,元数据还可以从URL、网页、媒体文件以及其它元数据中获得。在媒体文件之中的元数据可能包括在媒体文件中所包含的信息,例如多媒体或者流文件的诸如头标和尾标。元数据还可以从例如媒体/元数据的传输流诸如TCP/IP(例如包)、ATM、帧中继、基于蜂窝的传输模式(例如基于蜂窝的电话模式)、MPEG传输、HDTV广播以及基于无线的传输中获得。元数据还可以在流中并行地传输或者作为用于传输媒体文件的流的一部分传输(高清晰度电视广播在一个流上传输,元数据则采用电子可编程向导的形式在第二流上传输)。
参考图1,它表示互联的计算机系统网络102和112的系统100的形式化的概要说明。每个计算机系统网络102和112包括至少一个对应的本地计算机处理器单元104(例如服务器)以及本地网络用户108,其中所述本地计算机处理器单元104与至少一个对应的本地数据存储单元106(例如数据库)相连。例如,计算机系统网络可以是局域网(LAN)102或者是广域网(WAN)112。本地计算机处理器单元104通过所述网络(例如因特网)114选择性地连到多个媒体设备110。多个本地计算机处理器单元104中的每个、网络用户处理器108和/或媒体设备110具有与其本地计算机系统相连接的各种设备,诸如扫描仪,条形码读取器,打印机以及其它接口设备。为了访问网页的内容,本地计算机处理器104,网络用户处理器108和/或媒体设备110(与WEB浏览器一起被编程)(例如通过使用鼠标点击)定位和选择特定网页,所述特定网页的内容位于计算机系统网络102,112的本地数据存储单元106中。网页可以包含至其它计算机系统和其它网页的链接。
本地计算机处理器104,网络用户处理器108和/或媒体设备110可以是计算机终端、能够使用网际协议(IP)通过因特网进行通信的寻呼机、具有因特网接入的公用电话亭、相连接的电子规划器(planner)(例如Palm公司所制造的掌上(Palm)设备)或者能够通过网络进行交互式通信的其它设备(诸如电子个人规划器)。本地计算机处理器104,网络用户处理器108和/或媒体设备110也可以是使用无线访问协议(WAP)连接到因特网以及通过因特网进行通信的无线设备,诸如手持式装置(例如蜂窝电话)。网络102和112可以通过调制解调器连接、局域网(LAN)、电缆调制解调器、数字用户线(DSL)、双绞线、基于无线的接口(蜂窝,红外,无线电波)或者利用数据信号的等效的连接与网络114相连接。数据库106可以通过本领域已知的任何装置与本地计算机处理器单元104相连接。数据库106可以采用任何类型合适的存储器形式(例如磁、光等等)。数据库106可以是外部存储器或者位于本地计算机处理器104、网络用户处理器108和/或媒体设备110之中。
计算机还可以包括嵌入在消费产品之中的计算机以及其它计算机。例如,本发明的实施例可以包括嵌入在电视机、机顶盒、音频/视频接收机、CD播放器、VCR、DVD播放器、多媒体使能设备(例如电话)以及因特网使能的设备中的计算机(充当处理器)。
在本发明的示范性实施例中,网络用户处理器108和/或媒体设备110包括通过网络114使用户处理器108和/或媒体设备110能与本地处理器104相互通信并且彼此相通信的一个或多个程序模块以及一个或多个数据库。程序模块包括程序代码,所述程序代码是用PERL、扩展标记语言(XML)、Java、超文本标记语言(HTML)或者使网络用户处理器108能够通过存储在网络用户处理器108之中的浏览器程序访问本地处理器104的程序模块的任何其它等效的语言编写的。
网站和网页位于网络(诸如因特网)上,信息(内容)驻留在所述网络中。网站可以包括单一的或者若干个网页。网页是通过统一资源定位符(URL)来标识的,所述统一资源定位符作为URI的例子包括网络上的网页的位置(地址)。网站以及网页可以位于局域网102、广域网112、网络114、处理单元(例如服务器)104、用户处理器108和/或媒体设备110之中。信息或者内容可以存储在例如任何存储设备(诸如硬盘、光盘以及主机设备)之中。内容可以采用各种格式存储,所述格式可以随网站的不同,甚至是网页的不同而不同。
典型地,当搜索网络上的内容时,代理器(诸如,“网上爬行器”或者“机器人”)采用伪随机方式循着它所遇到的每个Web链接来爬行(搜索)网络。爬行只是从网络收集描述性数据(诸如元数据)的一个说明性的例子。这种类型的伪随机搜索过程常常会导致去搜索非常大量的非必要数据。本发明人已经发现了这样一种技术,其中搜索是受到限制的,以便避免搜索非必要的内容。简而言之,第一次碰到网站(或者内容的任何位置,诸如文件目录)时,实施穷举式搜索,并且生成站点地图。此外,将网站的URL添加到所遇到的网站的目录。下一次遇到所述网站时,所述代理器利用所述目录以及相应的站点地图来仅搜索相关的内容(称为聚焦式爬行)。此外,因为因特网的动态性质,为了更新所述站点地图和所述目录,不时地对网站进行重新访问来实施另一次穷举式搜索/爬行。站点地图包括结构化的数据存储格式,其中所述网站的内容(或者文件目录)是按照层次组织的(也称为分层)。
图2是根据本发明一个实施例的用于数据存储的示范性结构化格式的框图。所述结构化数据存储被格式化为层。所述结构化数据存储可以包括任意数目的层。数据存储的每一层可以包括与公共内容有关的任意数目的链接、对象、元数据、混杂文本,或者它们的任意组合。对象是网络上的可搜索的实体。例如,对象可以是多媒体文件或者流媒体文件。在本发明的一个示范性实施例中,每一层代表在搜索特定网站时所遇到的网页、另一个网站、对象(例如多媒体、流媒体)、元数据、混杂文本或者它们的任意组合。更具体而言,每一层包括至网页、另一个网站、对象、元数据、混杂文本、或者它们的任意组合的链接。例如,如图2所示,第一层代表网站的主页(例如顶层页212)。顶层页212可以包括诸如所述网站的主页的URL这样的信息以及可选地在所述网站上包含的URL列表。第二层代表在进行搜索时在所述网站上所遇到的下一网页。第三层代表在进行所述搜索时当退出第二层时在所述网站上遇到的下一网页。层的数目和/或每一层的内容是可以重新配置的。也就是说,层的数目和/或每一层的内容可以周期性地和/或按需加以更新。
站点地图包括根据结构化数据存储格式而格式化的网站内容。图3是根据本发明一个实施例的示范性站点地图300的框图。站点地图300被格式化为五层。这五层相当于所遇到的网站的网页。站点地图300的第一层包括顶层页312(主页)。顶层312包括所述网站的主页的URL,并且可以包括其它信息(诸如在该网站上的网页的URL)。站点地图300的第二层包括位于从主页向下的下一层网页上的内容。站点地图300的第二层包括音乐对象314和316以及网页318。对象314和316代表至在该网站所包含的音乐对象的链接。网页318包含在该网站上具有音乐对象的网页的的URL列表。站点地图300的第三层包括具有公共视频媒体属性的内容。站点地图300的第三层包括视频对象320、网页322以及至外部网站的链接324。对象320代表至在该网站上包含的视频对象的链接。网页322包括在该网站上的具有视频媒体对象的网页的URL列表。至外部网站的链接324包括其它网站的URL,所述其它网站包括属于视频对象的对象和/或元数据。站点地图300的第四层包括网页326和至外部网站的链接328。站点地图300的第五层包括与目标内容有关的元数据和文本数据。
站点地图300的格式是示范性的。本发明的站点地图可包括多于或者小于五层。在本发明的一个实施例中,对第一次所遇到的每个网站都进行穷举式搜索(例如爬行),并且,相应建立的站点地图包括用于包含所述网站上所有实体(例如对象、网页、外部网站、元数据、文本)所需要的层数。在本发明的另一个实施例中,在所述站点地图中的层数被设置为不超过预定阈值。例如,在单个站点地图中的层数可以设置为不超过3层。在本发明的又一个实施例中,探试性地确定站点地图的层数。例如,当第一次遇到特定网站时,对其进行穷举式搜索,并且,判定出六层包括与流媒体和/或多媒体有关的信息(即目标内容)。在以后的时间可以对同样的网站进行重新访问以便实施附加的穷举式搜索。通过这种探试性技术,可以判定出流媒体和/或多媒体内容一致性地包含在六层站点地图中。因此。这个例子的站点地图的层数被设置为六。
当第一次遇到网站时,建立站点地图,并且将属于所遇到的网站的信息和对应的站点地图存储在数据库中。图4是在本发明一个示范性实施例的数据库400中存储的信息的图解。在对目标内容进行搜索的过程中,会遇到各种网站。第一遇到网站时,就为所遇到的网站建立站点地图。每个站点地图(例如站点地图414、416)存储在数据库400中。为了确定网站是否前次曾遇到过,通过指示站点地图存在于所述网站的数据库中,而将每个所遇到的网站与遇到的网站的目录412加以比较。遇到的网站的目录412包括已经建立有站点地图的每个遇到的网站的URL以及属于每个网站的内容的信息。遇到的网站的目录412可以重新配置,并且随着新站点地图的建立和/或删除而继续进行更新。
根据本发明,搜索网站中的目标内容。目标内容包括查找中的特定词以及与所述词有关的信息。数据库是使用网站搜索的结果来构成的。为了构成这些数据库,对所述网站不采用随机形式搜索,而实施聚焦式搜索过程。历史数据(例如,站点被访问的频率、有多少用户访问过站点)以及元数据被利用来辅助搜索。此外,如果网站以前遇到过,并且存在有所述网站的站点地图,则不对该网站进行穷举式搜索;而实施聚焦式搜索过程。聚焦式搜索(也称为聚焦式爬行)过程包括仅仅搜索前次已经判定出包含有属于所述目标内容的内容的网站和/或站点地图的实体。如图4所示,条纹实体(诸如实体418)代表包含与目标内容有关的内容的实体。非条纹实体(诸如实体420)代表不包含属于目标内容的内容的实体。此外,与站点地图414和416相比,站点地图422和424包括更多的属于目标内容的内容。因此,在聚焦式搜索期间,本发明的系统搜索所述站点地图(例如422和424)的条纹实体(例如418)。
注意,站点地图416与站点地图414相比,包含更多的条纹实体;而与站点地图422或424相比则包含更少的条纹实体。根据预定的阈值,在聚焦式搜索过程中,可以或者不必对站点地图进行搜索。阈值包括要加以搜索的网站的最大数目,要加以搜索的层的最大数目、要加以搜索的实体的最大数目和/或要加以检索为搜索结果的数据的最大量。在本发明的示范性实施例中,探试性地确定每个阈值。
图5所示为根据本发明的示范性搜索过程的流程图。蜘蛛或者其它适当的代理器搜索网站中的目标内容。在步骤514,定位包含目标的网站。在步骤516,搜索数据库400以便确定所定位的网站是否是前次遇到的网站。如果所定位的网站是前次遇到的网站,则在步骤518,系统决定根据指示所述网站的站点地图实施聚焦式搜索。如果所定位的网站不是前次遇到的网站,则在步骤518,系统决定不实施聚焦式搜索,而是对所述网站执行穷举式搜索。如果判定出所定位的网站不是以前次遇到的网站,则在步骤522对所述网站实施穷举式搜索。因此,在步骤524建立站点地图。在步骤526,对数据库400加以更新以便包括新建立的站点地图,并且还对遇到的站点目录412加以更新以便包括新遇到的网站的URL。如果还没有达到任何阈值,则在步骤528判定搜索包括目标内容的更多的网站。一旦某个网站被定位,过程从步骤514继续。如果已达到阈值(例如所搜索的网站总数),则在步骤528判定出检索并提供对目标内容的搜索结果给系统、用户和/或另一个搜索系统(步骤530)。
如果(在步骤518)判定出将要实施聚焦式搜索,则在步骤614根据相应站点地图对定位的网站加以搜索。在步骤526对数据库400进行更新,以便适当地更新相应站点地图以及遇到的站点目录412。例如,如果数据库400指示特定网站包括与目标内容有关的内容,则用相应站点地图来搜索仅包含与目标内容有关的内容的实体。如果发现所述特定网站不再包含与目标内容有关的内容,就从数据库400删除所述站点地图,并从所述站点目录412删除所述网站的URL。如果未达到阈值,则在步骤528确定要搜索包含目标内容的更多网站。一旦定位了网站,所述过程就从步骤514继续进行。如果已达到了阈值(例如所搜索的网站的总数目),则在步骤528判定出检索并提供对所述目标内容的搜索结果给系统、用户和/或另一个搜索系统(步骤530)。
在本发明的另一个示范性实施例中,系统100将属于所遇到网站的辅助信息存储在数据库400中。使用这一辅助信息来确定阈值,诸如要搜索的网站的最大数目、要搜索的层的最大数目、要搜索的实体的最大数目和/或要作为搜索结果检索的数据的最大量。这些阈值可以统计性地、探试性地和/或按照用户的输入加以确定。
在本发明的又一个实施例中,系统100对前次遇到的网站实施后续的彻底搜索(称为重新爬行)以便更新数据库400(例如,更新网站的相应站点地图;更新遇到的站点的目录412;删除站点地图;从目录412中删除URL)。所述系统使用辅助信息来确定要实施重新爬行的频率。实施重新爬行的频率和时间可以统计性地、探试性地和/或按照用户的输入加以确定。
为了实施上述过程,本发明可以按用计算机实现的过程和设备的形式来加以实现。本发明也可以按计算机程序代码的形式来加以实现,所述计算机程序代码包括在实际的媒体中,所述媒体例如是软盘、只读存储器(ROM)、CD-ROM、硬盘、高密度盘或者任何其它的计算机可读存储媒体,其中,当计算机程序代码加载到计算机中并由计算机执行时,计算机就成为实施本发明的设备。本发明还可以按计算机程序代码的形式来加以实现,例如,所述计算机程序代码或者是存储到存储媒体中,或者加载到计算机中并由计算机执行,或者通过某些传输媒体(诸如通过电线或者电缆、通过光纤,通过电磁辐射)进行传输,其中,当计算机程序代码被加载到计算机中并由计算机执行时,计算机就变成实践本发明的设备。当在通用计算机上实施时,计算机程序代码段就配置处理器以便建立具体的逻辑电路。
与现有技术的搜索代理器相比,本发明的系统100能以更加有效的方式搜索网络中的目标内容。系统100根据站点地图提供目标搜索,通过消除对网站中不包含与目标内容有关的内容的网站和目录的搜索来提供更有效的搜索。这尤其适于属于没有被包含在网站中的大多数网站和/或目录的内容的目标内容(例如流媒体)。此外,本发明的系统100利用统计性地和/或探试性地确定的标准来实施后续的搜索,从而确保系统数据库的准确性。
权利要求
1.一种搜索基于网络的内容中的目标内容的方法,所述方法包括如下步骤确定结构化数据存储的选定层,以便搜索与所述目标内容有关的内容,其中所述结构化数据存储包括基于网络的内容;以及搜索所述选定层中与所述目标内容有关的内容。
2.权利要求1的方法,其中所述目标内容包括多媒体、流媒体、多媒体元数据以及流媒体元数据中的至少之一。
3.权利要求1的方法,还包括如下步骤建立所述结构数据存储。
4.权利要求1的方法,还包括如下步骤确定更新所述结构化数据存储的时间间隔。
5.权利要求1的方法,还包括如下步骤搜索至少一个网站中的与所述目标内容有关的内容;以及为每个新遇到的网站建立相应的站点地图。
6.权利要求5的方法,其中每个站点地图包括至少一层,每一层包括链接、对象、以及与公共内容有关的元数据中的至少之一。
7.权利要求5的方法,其中所述数据存储包括每个遇到的网站的相应站点地图、以及遇到的站点的目录。
8.权利要求5的方法,还包括如下步骤确定所遇到的网站是否是前次遇到的网站;如果遇到的网站是前次遇到的网站,则搜索相应站点地图的选定层;以及如果遇到的网站不是前次遇到的网站,则穷举式地搜索该网站中的所述目标内容,并建立相应的站点地图。
9.一种搜索基于网络的内容中的目标内容的计算机系统,所述计算机系统包括至少一台计算机,所述系统中的所有计算机都通信地互相连接,其中所述至少一台计算机中的每一个包括在其中存储有用于实现所述至少一台计算机中的每一个和各个之间的通信的至少一个程序,所述至少一个程序中的每个互相结合地操作以便使所述至少一台计算机执行如下步骤确定结构化数据存储的选定层,以便搜索与所述目标内容有关的内容(516),其中所述结构化数据存储包括基于网络的内容;以及搜索所述选定层中与所述目标内容有关的内容。
10.权利要求9的计算机系统,其中所述目标内容包括多媒体、流媒体、多媒体元数据以及流媒体元数据中的至少之一。
11.权利要求9的计算机系统,其中所述至少一个程序中的每个互相结合地操作以使所述至少一台计算机还执行如下步骤建立所述结构数据存储。
12.权利要求9的计算机系统,其中所述至少一个程序中的每个互相结合地操作以使所述至少一台计算机还执行如下步骤确定更新所述结构化数据存储的时间间隔。
13.权利要求9的计算机系统,其中所述至少一个程序中的每个互相结合地操作以使所述至少一台计算机还执行如下步骤搜索至少一个网站中的与所述目标内容有关的内容(522);以及为每个新遇到的网站建立相应的站点地图(524)。
14.权利要求13的计算机系统,其中每个站点地图包括至少一层,每一层包括链接、对象、以及与公共内容有关的元数据中的至少之一。
15.权利要求13的计算机系统,其中所述数据存储包括每个遇到的网站的各自的站点地图、以及遇到的站点的目录。
16.权利要求13的计算机系统,其中所述至少一个程序中的每个互相结合地操作以使所述至少一台计算机还执行如下步骤确定所遇到的网站是否是前次遇到的网站;如果遇到的网站是前次遇到的网站,则搜索相应站点地图的选定层;以及如果遇到的网站不是前次遇到的网站,则穷举式地搜索该网站中的所述目标内容,并建立相应的站点地图。
17.一种在其上包含有用于使处理器来搜索基于网络的内容中的目标内容的程序的程序可读媒体,所述程序可读媒体包括用于使所述处理器确定结构化数据存储的选定层以便搜索与所述目标内容有关的内容的装置,其中所述结构化数据存储包括基于网络的内容;以及用于使所述处理器搜索所述选定层中与所述目标内容有关的内容的装置。
18.权利要求17的程序可读媒体,其中所述目标内容包括多媒体、流媒体、多媒体元数据以及流媒体元数据中的至少之一。
19.权利要求17的程序可读媒体,所述程序可读媒体还包括用于使所述处理器建立所述结构数据存储的装置。
20.权利要求17的程序可读媒体,所述程序可读媒体还包括使所述处理器确定更新所述结构化数据存储的时间间隔的装置。
21.权利要求17的程序可读媒体,所述程序可读媒体还包括使所述处理器搜索至少一个网站中的与所述目标内容有关的内容的装置;以及使所述处理器为每个新遇到的网站建立相应站点地图的装置。
22.权利要求21的程序可读媒体,其中每个站点地图包括至少一层,每一层包括链接、对象、以及与公共内容有关的元数据中的至少之一。
23.权利要求21的程序可读媒体,其中所述数据存储包括每个遇到的网站的相应站点地图、以及遇到的站点的目录。
24.权利要求21的程序可读媒体,所述程序可读媒体还包括用于使所述处理器确定所遇到的网站是否是前次遇到的网站的装置;用于在遇到的网站是前次遇到的网站的情况下使所述处理器搜索相应站点地图的选定层的装置;以及用于在遇到的网站不是前次遇到的网站的情况下使所述处理器穷举式地搜索网站中的所述目标内容并建立相应站点地图的装置。
25.一种体现为载波的数据信号,包括用于确定结构化数据存储的选定层以便搜索与所述目标内容有关的内容的确定选定层代码段,其中所述结构化数据存储包括基于网络的内容;以及用于搜索所述选定层中与所述目标内容有关的内容的搜索选定层代码段。
26.权利要求25的数据信号,其中所述目标内容包括多媒体、流媒体、多媒体元数据以及流媒体元数据中的至少之一。
27.权利要求25的数据信号,还包括用于建立所述结构数据存储的建立数据存储代码段。
28.权利要求25的数据信号,还包括用于确定更新所述结构化数据存储的时间间隔的确定时间间隔代码段。
29.权利要求25的数据信号,还包括用于搜索至少一个网站中的与所述目标内容有关的内容的搜索网络代码段;以及用于为每个新遇到的网站建立相应站点地图的建立站点地图代码段。
30.权利要求29的数据信号,其中每个站点地图包括至少一层,每一层包括链接、对象、以及与公共内容有关的元数据中的至少之一。
31.权利要求29的数据信号,其中所述数据存储包括每个遇到的网站的相应站点地图、以及遇到的站点的目录。
32.权利要求29的数据信号,还包括用于确定所遇到的网站是否是前次遇到的网站的确定前次遇到的网络的代码段;用于在遇到的网站是前次遇到的网站的情况下,搜索相应站点地图的选定层的搜索层代码段;以及用于在遇到的网站不是前次遇到的网站的情况下,穷举式地搜索网站中的所述目标内容并建立相应站点地图的搜索网站代码段。
全文摘要
一种用于搜索基于网络的内容的系统和方法可限制搜索非必要的内容。第一次遇到网站时,实施穷举式搜索(522),并且生成(524)站点地图(300),将网站的URL添加到遇到的网站的目录(526)。下一次遇到所述网站时,所述系统利用站点地图和目录来搜索仅相关的内容(614)。根据前次访问得出的信息,对网站进行重新访问,以便实施后续的穷举式搜索从而更新站点地图和目录。站点地图包括结构化的数据存储格式,其中网站内容是按照层组织的。
文档编号G06F17/30GK1486457SQ01822163
公开日2004年3月31日 申请日期2001年11月20日 优先权日2000年11月21日
发明者P·C·埃文斯, P C 埃文斯, R·A·亚历山大, 亚历山大, P·T·桑农, 桑农 申请人:汤姆森许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1