检索相关超文本文件的超文本文件检索装置的制作方法

文档序号:6412028阅读:314来源:国知局
专利名称:检索相关超文本文件的超文本文件检索装置的制作方法
技术领域
本发明一般涉及一种超文本文件检索装置,特别涉及从大量超文本文件里检索出多个可能符合用户检索要求的超文本文件并提供给用户的超文本文件检索装置。
作为一种已知的常规装置,在

图1的文件检索装置200中,从大量文件中检索出一个或多个可能符合用户检索要求的文件并提供给用户。在该装置200中,预先在检索标引检索标引检索标引生成单元202中分析贮存于文件管理单元201里的大量文件,并检查登录在检索标引检索标引生成单元202字典中的多个字的每个字在每个文件中出现多少次。即,对贮存在文件管理单元201中的每个文件计算每个字在一个文件中的出现频度,把一个字在全部文件中的偏差度IDF计算为该字的校正系数,对每个文件计算每个字的归一化出现频度(称TF值),对每个字计算每个文件的估算值(表示为TF×IDF),即把偏差度与归一化出现频度乘起来,并在检索标引生成单元202中生成某个检索标引。在检索标引中,对每个字登录一个集合,而该集合包括一个字、指明出现该字的一个或多个文件的标识数据和该字的一个估算值。
之后,当在关键字输入单元203中收到用户207输入的多个关键字时,就把这些关键字发送给检索单元204。在检索单元204中,从贮存在检索标引检索标引检索标引生成单元202中的检索标引里找出符合输入关键字的多个检索字,为每个检索字从检索标引检索标引生成单元202中取出特定的集合(一个检索字、指明出现该检索字的一个或多个检索文件的标识数据和该检索字的一个估算值),并把相应于这些关键字的特定集合发送给文件排序确定单元205。
在文件排序确定单元205中,按检索文件的估算值的递减次序编排多个指示检索文件的标识题,以便确定检索文件的排序,并在检索结果显示单元206中把按检索文件排序编排的标识题作为检索结果显示出来。此后,当用户选择显示单元206上以编排次序陆续显示的标识题时,每次选择一个标识题,就把由被选标识题指示的检索文件从文件管理单元201读出给显示单元206,而每次选择一个标识题,就在检索结果显示单元206上显示出该检索文件。
因此,由于符合用户检索要求的关键字是用户输入的,所以能按估算值TF×IDF的次序提供多个可能符合用户检索要求的文件。
估算值TF×IDF的算法已有多种。例如有一种算法规定偏差度IDF(=1-logNw/N)是1减去比率的对数值(logNw/N),这里的Nw指出现附注字的文件数,而N指贮存在文件管理单元201中的文件数。同时规定,归一化出现频度TF(=Fo/Nwd)是将附注字在附注文件中的出现频度F。除以出现在该附注文件中的字数Nwd。此时,估算值TF×IDF即是把偏差度与归一化出现频度乘起来。
在Salton,Gerard著的论文“现代信息检索导论”(McGraw-Hill,ComputerScience Series,1983)中,详细揭示了估算值TF×IDF和使用该估算值的普通文件检索装置。
然而,若应用常规文件检索装置从大量超文本文件中检索可能符合用户检索要求的一个或多个特定的超文本文件,由于超文本文件通常不相互独立而是往往具有参照关系,所以其不足之处是无法合理地确定可能符合用户检索要求的特定超文本文件的排序。即,由于具有相互参照关系的多个特定超文本文件的内容通常与某个一致的含义有关,所以仅读一个特定超文本文件就无法理解这些特定超文本文件的内容,只有阅读全部的特定超文本文件才能理解内容。因此,若应用常规文件检索装置检索可能符合用户检索要求的一个或多个特定超文本文件,会错误地估算每个特定超文本文件的重要度,所以其不足之处是无法合理地确定这些特定超文本文件的排序。同样地,即使显示出按其估算值排序的特定超文本文件,由于确定的特定超文本文件排序不合理,所以另一个不足之处是用户无法按某种合适的重要度次序顺利地选择特定超文本文件。
具体地说,由于在万维网(World wide web)中以超文本标记语言(HTML)编写的多个超文本文件相互具有参照关系的概率相当高,所以无法合理地确定特定超文本文件的排序,尽管显示出按其估算值编排的特定超文本文件,用户仍无法顺利地选择每个特定超文本文件。
考虑到此类常规文件检索装置的诸多不足,本发明的一个目的是提供一种超文本文件检索装置,其中,从大量超文本文件中检索出可能符合用户检索要求的一个或多个超文本文件,并按其重要度作合理排序,因而即使超文本文件在万维网中以超文本标记语言编写,也能顺利地选出每一个文件。
为实现本发明的这个目的,在超文本文件检索装置中,从一组具有相互参照关系的超文本文件中检索可能符合用户检索要求的多个特定的超文本文件,其中,具有某个固定语句的一个超文本文件作为另一个起参照文件作用的超文本文件的母文件,而用户在选出相应于参照文件的一个母文件的一个固定语句后查阅该参照文件。
具体地说,在超文本文件表制备装置中,对每个超文本文件制备了超文本文件信息,其中登录了一个超文本文件标识符(标识一个超文本文件)、超文本文件的正文、标识母文件(对应于起到一个参照文件作用的超文本文件)的母文件标识符和该母文件的一个固定语句;并且对所有超文本文件预先制备了一张超文本文件信息的超文本文件表。
之后,在检索标引制备装置中,根据超文本文件表制备装置制备的超文本文件表识别多个出现在每个超文本文件和每个文件中的字,根据超文本文件表识别每个超文本文件和母文件中多个字的出现位置,对每个字制备字信息(包括一个或多个标识其中出现一个字的一个或多个超文本文件的出现文件标识符、该字在超文本文件中的出现位置以及相应于超文本文件的一个或多个母文件的一个或多个固定语句),并预先对这些字制备几段字信息的检索标引。
之后,当关键字接收装置收到指明用户检索要求的关键字时,检索装置就从检索标引制备装置制备的检索标引里检出相应于该关键字的特定字信息。同样地,再根据该特定字信息检索出多个特定出现文件标识符(标识多个其中出现该关键字的特定超文本文件)、关键字在特定超文本文件中多个特定的出现位置以及相应于特定超文本文件的一个或多个特定母文件的一个或多个特定固定语句。
之后,在文件排序确定装置中,限定由特定出现文件标识符标记的特定超文本文件,从超文本文件表制备装置制备的超文本文件表中为特定超文本文件检出几段特定超文本文件信息,把一个特定超文本文件和一个或多个对应于该特定超文本文件的特定母文件统一成每个特定超文本文件的统一的超文本文件,对每个统一的超文本文件计算该关键字在一个统一的超文本文件里的出现频度,根据统一超文本文件的出现频度确定多个统一超文本文件的重要度,而对于每个统一超文本文件则把一个统一超文本文件的一个重要度定为对应于该统一超文本文件的一个特定超文本文件的重要度,并且根据该统一超文本文件的重要度确定该特定超文本文件的排序。
之后,检索结果显示装置以对应于该特定超文本文件排序的编排方式,把多个特定超文本文件的标引作为检索结果显示出来。
由于对每个特定超文本文件是通过把一个特定超文本文件和一个或多个对应于该特定超文本文件的特定母文件统一起来制备一个统一的超文本文件的,而对每个统一的超文本文件计算的一个统一的超文本文件的一个重要度作为对应于该统一的超文本文件的一个特定超文本文件的一个重要度,所以可通过研究同特定超文本文件有参照关系的特定母文件来确定该特定超文本文件的排序。因此,即使相互具有参照关系的多个特定超文本文件的内容同一一致的意义有关,也能从大量超文本文件里正确地检出可能符合用户检索要求的特定超文本文件,并按其重要度合理编排,这样即使用万维网的超文本标记语言编写这类特定超文本文件,用户也可按合适的重要度次序顺序地选择特定的超文本文件。
通过以下结合附图所作的描述,本发明的目的、特征和优点将变得明显起来。附图中图1是常规文件检索装置的方框图;图2表示Internet万维网中分散管理的多个超文本文件之间的参照关系;图3为本发明第一实施例的超文本检索装置的方框图;图4表示用图3中母文件清单制备单元在超文本文件表中制备的几段超文本文件信息的超文本文件表;图5表示在图3中检索标引制备单元中制备的几段字信息的检索标引;图6是本发明第二实施例的超文本检索装置的方框图;图7为一例检索结果,其中用图6中检索结果显示单元示出了一个特定超文本文件的标引,对每个特定超文本文件都有一个第一级特定母文件标引和一个第二级特定母文件标引;图8是本发明第三实施例的超文本检索装置的方框图;图9为一例检索结果,其中用图8中检索结果显示单元示出多个特定超文本文件的标引,包括第一级特定母文件标引和第二级特定母文件标引;图10是本发明第四实施例的超文本检索装置的方框图;图11是本发明第五实施例的超文本检索装置的方框图;图12是一例检索结果,其中用图11中检索结果显示单元示出了一特定超文本文件的标引,对每个特定超文本文件都显示出该特定超文本文件的概要、第一级特定母文件标引和第二级特定母文件标引;图13是本发明第六实施例的超文本检索装置的方框图;图14是本发明第七实施例的超文本检索装置的方框图;图15是本发明第八实施例的超文本检索装置的方框图;图16是本发明第九实施例的超文本检索装置的方框图17表示用一个或多个参照标记划分一长篇超文本文件的状况;图18是本发明第十实施例的超文本检索装置的方框图;图19为一例检索结果,其中根据第十实施例示出了超文本文件的标引及对应于多个高排序相关字的按钮;图20是本发明第十一实施例的超文本检索装置的方框图;以及图21为一例检索结果,其中根据第十一实施例示出了超文本文件的标引及对应于多个高排序相关字的按钮。
在超文本文件检索装置的较佳实施例中,从Internet的万维网中分散管理的大量超文本文件里检索一个或多个可能符合用户检索要求的特定超文本文件的情况,将参照根据本发明原理的附图进行描述。
图2表示在Internet万维网中分散管理的多个超文本文件之间的参照关系。
如图2所示,在Internet万维网中分散管理的多个超文本文件D80~D86,相互有某种参照关系。即,把固定语句S800置于超文本文件D80,固定语句S801置于超文本文件D81,固定语句S802置于超文本文件D82,多个固定语句S803~S805置于超文本文件D83,固定语句S806置于超文本文件D84。在每个固定语句中,不是隐藏了某个标识符(标识用户可作参照的文件)就是隐藏了某个文件位置(用户可作参照)。
在这一技术规范中,把用户当作参照的文件称为参照文件,而把含有一固定语句(指明一个或多个参照文件)的文件称为母文件。而且,每个固定语句包括一个句子或多个句子。
因此,当用户阅读浏览文件选择装置(称浏览器)显示器示出的母文件D81并用所谓的指点器件指出母文件D81的固定语句S801的位置时,可调显参照文件D83,使用户能有效地利用分散的超文本文件D80~D86。
用超文本标记语言编写一组超文本文件D80~D86,把每个超文本文件称为一页,且在每个超文本文件中写入字符串、图像或程序。例如,在把母文件D81贮存在名为“farmer.html”的文件中,把参照文件D83贮存在名为“ apple.html”的文件中,而把指示参照该参照文件D83的指示器(或文件贮存位置)隐藏于字符串“apple producing farmer”(用母文件D81编写以便配合固定语句S801)的情况下,把固定语句S801表述为“<a href=“apple.html”>appleproducing farmer<1a>”。此时,因为在参照文件D83中不写任何语句,所以就有一种情况是在远离另一台计算机的一台计算机中制备文件D82,其中,在制备文件D81前先贮存已制备的文件D83,而文件D82就起着参照文件D83的母文件的作用。第一实施例图3是本发明第一实施例的超文本检索装置的方框图。
如图3所示的超文本检索装置1,用于从贮藏在超文本文件管理单元8中的大量超文本文件里检索可能符合用户检索要求的一个或多个超文本文件,其中,在万维网内广泛分布的大量计算机中制备的超文本文件,是在这些超文本文件具有相互参照关系的条件下分散管理的,而该超文本检索装置1包括带母文件清单的超文本文件表制备单元7,用于分析由超文本文件管理单元8管理并具有参照关系的超文本文件;对每个超文本文件制备超文本文件信息,其中把标识一个或多个母文件的一个或多个母文件标识符和母文件的固定语句同标识一个超文本文件的一个超文本文件标识符与该超文本文件的文件贮存位置表列在一起;对超文本文件管理单元8管理的所有超文本文件制备该超文本文件信息的超文本文件表;具有字典的检索标引制备单元6根据带母文件清单的超文本文件表制备单元7制备的超文本文件表,对超文本文件管理单元8管理的每个超文本文件预先分析一个超文本文件的正文、该文件的标题以及对应于该文件的一个或多个母文件的一个或多个固定语句的字符串,以便识别出现在该超文本文件中的多个字;对其中用一个出现文件标识符标识一个超文本文件的一个字制备一段字信息,其中,对每个超文本文件列出登录在字典里出现的这个字、指明该字在超文本文件的标题中出现位置的定位信息、超文本文件正文以及对应于该超文本文件的母文件的固定语句;以及对贮存在字典里的字制备几段字信息的检索标引;一关键字输入单元2,用于接收用户9输入的多个关键字;一检索单元3,用于检索多段对应于多个特定字的特定字信息,特定字与关键字输入单元2从检索标引接收到的关键字相符,而检索标引在检索标引制备单元6里制备,并且用于检索标识特定超文本文件的特定出现文件标识符,其中,一个特定字与出现的一个关键字相符,而特定定位信息根据每个特定字的特定字信息指明一个特定字在特定超文本文件和对应于该特定超文本文件的多个特定母文件中的特定出现位置;一文件排序确定单元4,用于对检索单元3获得的每个特定超文本文件,根据带母文件清单的超文本文件表制备单元7制备的超文本文件表的文件信息,把一个特定超文本文件与对应于该特定文件的一个或多个特定母文件统一成一种统一的特定超文本文件;对每个特定字和每个统一的特定超文本文件计算一个特定字在一个统一的特定超文本文件中的出现频度TF;对每个特定字计算倒数文件频度IDF,并被规定为其中出现一个特定字的特定超文本文件数的倒数;计算一个出现频度TF与一个倒数文件频度IDF的乘积TF×IDF;把所有特定字的多个乘积相加以得出一相加的积,作为每个统一的特定超文本文件的估算值;根据估算值确定该统一的特定超文本文件的多个重要度;根据该统一的特定超文本文件的重要度确定特定超文本文件的排序;并对每个特定超文本文件制备一个特定超文本文件的标引;以及一检索结果显示单元5,把以文件排序确定单元4确定的次序编排的特定超文本文件的标引作为检索结果来显示。
在上述结构中,描述超文本检索装置1的操作状况。在万维网中广为分布的大量计算机中制备相互有参照关系的多个超文本文件。在超文本文件管理单元8中,分散管理这些超文本文件。带母文件制备单元7的参照文件表具有相关的文件汇总功能(通常称作网络自动机)。因此,当对带母文件制备单元7的参照文件表给出多个超文本文件的多个文件贮存位置地址(通常称作多个通用资源定位器)时,通用资源定位器陆续把多个超文本文件指示为多个母文件,分析写入每个母文件里的一个或多个固定语句,并为每个母文件收集一个或多个参照文件。之后,以收集次序把相互不重迭的多个超文本文件标识符配给收集的参照文件,以便识别收集的参照文件。在此情况下,若不在每个收集的参照文件里写入任何图像或程序,而是写入字符串,则可节省收集时间。同时,列出收集的参照文件的多个文件贮存位置地址,以防再次收集已列出的一个已收集参照文件。因此,如图2所示,不仅母文件D83按照固定语句S803同参照文件D84相关,而且母文件D84按照固定语句S806也同参照文件D83相关,这就防止了超文本文件D83和D84被收集二次。
之后,按下述步骤在带母文件清单的超文本文件表制备单元7中制备几段超文本文件信息的超文本文件表(参照图4),其中,对每个超文本文件列出了一个或多个母文件的标识符和诸母文件的固定语句。制备其编号等于被收集参照文件数的多个文件信息输入空间DS1~DS3。在每个文件信息输入空间中,将标识一个被收集参照文件的超文本文件标识符的编号和被收集参照文件的一个文件贮存位置地址写入文件信息输入空间。之后,通过检查写入被收集参照文件的多个字符串,从被收集参照文件里提取其标题。在本实施例中,例如从字符串“<title>apple that I grew<title>”里提取标题“apple that I grew”,并把它写入文件信息输入空间。之后,从被收集参照文件正文中原有的多个字符串中移去分别表示置于“<”与“>”之间某一字符串的超文本标记语言标签的一个或多个字符串,以形成文本正文并把它写入文件信息输入空间。之后,检查与一个或多个母文件中原有的一个参照文件相关的一个或多个固定语句是否与该参照文件相关。若母文件里原有的一个固定语句与一个参照文件相关,就把标识母文件的母文件标识符与母文件的固定语句的集合写入文件信息输入空间,以对每个超文本文件信息形成母文件清单。同时,把文本正文中使用的多个字、标题和固定语句都写入文件信息输入空间,以对每个超文本文件信息形成字清单。
因此,如图3所示,在带母文件的参照文件表制备单元7中,对超文本文件管理单元8管理的每个超文本文件都准备了文件信息输入空间,在此空间中写入超文本文件标识符、文件贮存位置、标题、文本正文、母文件清单和字清单,以制备一张超文本文件表。
在本例中,是在分析了写入每个母文件的一个或多个固定语句以收集参照文件以后制备超文本文件表的。所以,固定语句被分析或检查了二次,以确定收集的参照文件并制备超文本文件表。然而,若在分析固定语句以收集参照文件的同时制备超文本文件,就能有效地制备该表。
之后,在具有字典的检索标引制备单元6中,预先对超文本文件表的每个超文本文件分析超文本文件的正文、标题和一个或多个固定语句的字符串,对贮存在字典中的每个字制备一段字信息,包括字、一个或多个出现文件标识符(用于标识出现该字的超文本文件)以及定位信息(指出该字在超文本文件中的出现位置),并对多个字制备几段字信息的检索标引,如图5所示。
具体地说,检索标引制备单元6在字典中登录了成千上万计的字,并制备了多个字信息输入空间WS1~WS3(其编号等于字典中登录的字数),在字信息输入空间WS~WS3之一内写入每个字。之后,把登录在超文本文件表一个文件信息输入空间的字清单里的字作为特定字来检测,把对应于该文件信息输入空间的特定超文本文件的超文本标识符作为出现超文本文件标识符来检测,把特定超文本文件中特定字的一个或多个位置作为定位信息来检测,而在对应于该特定字的特定字信息输入空间里写入作为字信息的出现超文本文件标识符与定位信息组成的集合。对于登录在超文本文件表所有文件信息输入空间的字清单中的每一个字都这样处理,从而制备与超文本文件中使用的多个字相对应的几段字信息的检索标引。
图5示出一段检索标引的字信息,它被写入字信息输入空间WS1,对应于字“apple”。“(Title,1)”表示字“apple”出现在超文本文件D83标题的第一字位置,“(Body,4,33,43)”表示字“apple”出现在超文本文件D83正文的第4、第33和第43字位置,“(000081,1)”表示字“apple”出现在起到母文件作用的超文本文件D81的固定语句S801的第一字位置,而“(000082,4)”表示字“apple”出现在起到母文件作用的超文本文件D82的固定语句S802的第四字位置。
同样地,预先在检索标引制备单元6中计算出现某一字的出现文件数的倒数值(常称作倒数文件频度IDF)和该字在每个出现文件中的出现频度(常称作文本频度TF),并把它们写入每个字所对应的字信息输入空间,也是合适的。这样,可缩短检索所需的处理时间。
因此,在检索标引制备单元6中,分析超文本文件正文中出现的每个字、超文本文件的标题以及同该超文本文件相关的母文件的固定语句,并对每个字制备出现文件清单(包括一个或多个出现文件标识符和定位信息)。从而可制备出检索标引,其中,对每个字指出在每个超文本文件中的字出现位置。
关键字输入单元2具有文本盒的作用,其检索起动按钮用于返回文本盒的内容,HTML文件按超文本标记语言编写,其诸如“retrieval page”之类的标题供关键字输入单元2使用。即,用户9在万维网浏览器(诸如在其委托的计算机中操作的Mosaic或Netscape)中调用HTML文件,把单个关键字输入到文本盒或把多个空间分隔的关键字输入到文本盒,并按下检索起动按钮,这样就输入了单个或多个关键字。
因此,关键字输入单元2收到了用户9输入的多个关键字并把它们发送给检索单元3。在本例中,用户通过按压键盘上的多个键,输入每个关键字。然而,在通过按钮选择某个关键字的每个候选字的情况下,即便是不熟练入员操作关键字输入单元2,也能方便地用指点器件执行关键字输入操作而无须应用键盘。
在检索单元3中,从贮存在检索标引制备单元6中的检索标引里取出对应于多个特定字的几段特定字信息(同关键字输入单元2输入的关键字相符),并从每个特定字的一段字信息里获得一个或多个出现文件标识符(用于标识其中一个特定字与出现的一个关键字相符的一个或多个特定超文本文件)和定位信息(用于指明该特定字在特定超文本文件中的位置)。包含出现文件标识符和定位信息的多个集合被发送给文件排序确定单元4。
在排序确定单元4中,从超文本文件表中取出对应于由出现文件标识符标识的特定超文本文件的几段超文本文件信息,并把由一个或多个母文件标识符(由对应于特定超文本文件的一段超文本文件信息列出)标识的一个特定超文本文件与一个或多个母文件统一成一种统一的特定超文本文件。对用检索单元3发出的出现文件标识符进行标识的每个特定超文本文件,都形成这种统一的特定超文本文件。之后,根据出现文件标识符与定位信息的多个集合,对每个特定字计算出被定义为统一特定超文本文件(其中一个特定字与出现的一个关键字相符)数之倒数值的倒数文件频度IDF以及一个特定字在每个统一特定超文本文件中的出现频度TF。倒数文件频度IDF表示每个特定字的校正系数。
之后,在只输入一个关键字的情况下,把用作一个特定字的倒数文件频度IDF与出现频度TF相乘得到的估算值作每个统一特定超文本文件的重要度。同时,在用户输入的关键字量为二个或更多的情况下,对每个关键字和每个统一特定超文本文件计算出一个出现频度TF与一个倒数文件频度IDF的乘积TF×IDF,把所有关键字算出的乘积之和作为每个统一特定超文本文件的估算值,并根据估算值确定每个统一特定超文本文件的重要度。把每个统一特定超文本文件的重要度定为对应于该文件的一个特定超文本文件的重要度。之后,根据该特定超文本文件的重要度确定包括母文件在内的特定超文本文件的排序。
在关键字数量为二个或更多的情况下,当N个特定字与特定超文本文件中出现的N个关键字相符时,可把一个特定超文本文件的估算值定为某一值的N倍(N为2或更大),像所有关键字算出的乘积TF×IDF之和那么大。此时,由于N个关键字之间的相关性反映在每个特定超文本文件的重要度上,所以还能满足用户的检索要求。
同样地,在一个特定超文本文件中使用与两个关键字相符的两个特定字(相互接近在20个字符以内)的情况下,可以把统一特定超文本文件的估算值增大一倍。此时,由于相互接近的两个关键字之间的相关性反映在每个特定超文本文件的重要度上,所以也能满足用户的检索要求。
之后,在文件排序确定单元4中,制备一个HTML文件,其中按排序列出特定超文本文件的多个标引,并把该文件发送给检索结果显示单元5。此时,一个特定超文本文件的标引就是该特定超文本文件的标题或者写入一个母文件的固定语句字符串,在该特定超文本文件的标引中隐藏着表示该文件在超文本文件管理单元8中位置的文件贮存位置地址,而标引起着固定语句的作用。即,当用户选择一个特定超文本文件的一个标引时,就按文件贮存位置地址从超文本文件管理单元8调出该特定超文本文件。
所以,在文件排序确定单元4中,从带母文件的参照文件表制备单元7对每个特定超文本文件所制备的超文本文件表中,取出一个或多个与一个特定超文本文件有参照关系的母文件,把一个特定超文本文件和一个或多个同其有参照关系的母文件统一成每个特定超文本文件的统一特定超文本文件,根据每个特定超文本文件的估算值TF×IDFN确定包括母文件在内的特定超文本文件的重要度,根据这些重要度编排这些特定超文本文件,并以排序列出这些特定超文本文件。
在本例中,由于出现频度TF未被一个统一的特定超文本文件的大小所划分,所以字的出现频度TF未作归一化。然而,在通过把出现频度TF除以一个统一的特定超文本文件大小而将字的TF归一化的情况下,必须把每个超文本文件的大小写入超文本文件表中。
在诸如以其委托的计算机中操作的Mosaic或Netscape一类的万维网浏览器体现了检索结果显示单元5。在委托计算机的显示器上示出在文件排序确定单元4中制备的HTML文件。之后,当用户利用指点器件选择HTML文件中表列的一个特定超文本文件的一个标引时,根据该特定超文本文件标引中隐藏的文件贮存位置地址确定用户所选特定超文本文件的位置,并从超文本文件管理单元8调出该超文本文件。
因此,在检索结果显示单元5中,显示出HTML文件列出的特定超文本文件的标引,用户选择一个特定超文本文件的一个标引,就从超文本文件管理单元8中调出用户选择的特定超文本文件。
这样,由于带母文件的参照文件表制备单元7制备的超文本文件表中列出了一个或多个同每个参照文件有参照关系的母文件,所以可通过从该超文本文件表里取出对应于该参照文件的文件信息,限定对应于一个参照文件的母文件。所以,由于不要求向超文本文件管理单元8打听对应于参照文件的一个或多个母文件,故能迅速地确定对应于每个参照文件的一个或多个母文件。
而且,由于在文件排序确定单元4中把一个特定超文本文件和同该文件有参照关系的一个或多个母文件统一成统一的特定超文本文件,所以可确定每个统一特定超文本文件的重要度。因此,考虑到对应于每个特定超文本文件的母文件,可按重要度确定其一个特定字与一个出现的关键字相符的诸特定超文本文件的排序。这样,在可靠地满足了以关键字表达的用户的检索要求的条件下,检索结果显示单元5可按特定超文本文件的排序显示出这些文件的标引,而用户能以排序选择这些文件。
同样地,由于带母文件清单的参照文件表制备单元7制备的超文本文件表的的每段文件信息列出了一个超文本文件和一个或多个母文件(与该超文本文件具有参照关系)的一个或多个固定语句,所以很容易在检索标引制备单元6中制备该检索标引的每段字信息,表示某个字出现在一个超文本文件和一个或多个母文件(与该超文本文件有参照关系)的一个或多个固定语句中。此外,由于在带母文件清单的参照文件表制备单元7所制备的超文本文件表中列出了一个或多个母文件(与每个参照文件有参照关系),所以在检索标引制备单元6中制备检索标引时,就不要求向管理单元8打听一个或多个对应于该参照文件的一个或多个母文件。因此,能迅速地制备检索标引。第二实施例图6是本发明第二实施例的超文本检索装置的方框图。
如图6所示,用于从贮存在超文本文件管理单元8的大量超文本文件中检索一个或多个可能符合用户检索要求的超文本文件的超文本检索装置11包括带母文件清单的超文本文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元12,用于根据带母文件清单的超文本文件表制备单元7对检索单元3获得的每个特定超文本文件制备的超文本文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多个特定母文件统一成统一的特定超文本文件,根据检索标引制备单元6得到的检索标引的特定字信息计算该统一的文件的估算值,根据估算值确定该统一的文件的多个重要度,根据该统一的文件的重要度确定这些特定超文本文件的排序,并对每个特定超文本文件制备对应于该特定超文本文件的带特定母文件标引的一个特定超文本文件的标引;以及检索结果显示单元13,以文件排序确定单元12确定的排序对每个统一的特定超文本文件显示带特定母文件标引的该特定超文本文件的标引作为检索结果。
在上述结构中,在像第一实施例同样的方式根据文件排序确定单元12中的重要度确定了特定超文本文件的排序后,对每个特定超文本文件不仅制备了一个特定超文本文件的标引,而且也制备了对应于该特定超文本文件的特定母文件的标引。在多个母文件对应于原有的特定超文本文件的情况下,把其文件贮存位置最接近于母文件中该特定超文本文件贮存位置的一个母文件选作特定母文件。选择是这样进行的,即把指示每个母文件之文件贮存位置的字符串部分同指示该特定超文本文件之文件贮存位置的字符串部分作一比较。同时,在本例中,把该特定母文件(即第一级特定母文件)视作第二级参照文件,限定与第二级参照文件有参照关系的第二级特定母文件,并制备第二级特定母文件的标引。之后,用检索结果显示单元13以每个特定超文本文件的第一级特定母文件标引和第二级特定母文件标引显示一个特定超文本文件的标引。
图7示例是用检索结果显示单元13以每个特定超文本文件的第一级特定母文件标引与第二级特定母文件标引显示一个特定超文本文件的标引。
如图7所示,若规定超文本文件D83为第四排位,超文本文件D85为第18排位,超文本文件D86为第19排位,则用第一级特定母文件D81的标引和第二级特定母文件D80的标引作为第四排位组来显示特定超文本文件D83的标引,用第一级特定母文件D83的标引和第二级特定母文件D81的标引作为第18排位组来显示特定超文本文件D85的标引,并用第一级特定母文件D83的标引和第二级特定母文件D81的标引作为第19排位组来显示特定超文本文件D86的标引。
这样,即使把未具有固定语句的超文本文件D86选作为一个特定超文本文件,也能方便地从超文本文件管理单元8里选择和调用与超文本文件D86有密切相关性的超文本文件D83或D81,并不依赖于任何固定语句。即,由于多个超文本文件相互间有密切相关的参照关系,所以显示出第一级和第二级特定母文件的标引极有利于用户。第三实施例在前二例中,在调读第四排位的超文本文件D83的情况下,通过选择固定语句S804的位置来调读文件D85,而排位低于第四位的多个超文本文件被逐一调读,这样由于用户忘了通过早已被读过的超文本文件D85,读取超文本文件D85,可能会错误地重新调读第18排位的超文本文件D85。同时,尽管已调读过第19排位的超文本文件D86,但由于在调读第四排位的超文本文件D83后已过了很长时间,故用户可能无法理解同超文本文件D83上下文密切相关的超文本文件D86的来龙去脉。因此,为克服第三实施例的上述缺点,对多个相关密切的超文本文件的排位被定为同一排位。
图8是本发明第三实施例的超文本检索装置的方框图。
如图8所示,用户从贮存在超文本文件管理单元8的大量超文本文件中检索可能符合用户检索要求的一个或多个超文本文件的超文本检索装置21包括带母文件清单的超文本文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元22,根据带母文件清单的超文本文件表制备单元7对检索单元3获得的每个特定超文本文件制备的超文本文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多个特定母文件统一成统一的特定超文本文件,根据检索标引制备单元6得到的检索标引的特定字信息计算该统一的特定超文本文件的估算值,根据这些估算值确定统一的特定超文本文件的多个重要度,在规定给两个或多个相互密切相关的特定超文本文件的排位定为同一排位的条件下,根据统一的特定超文本文件的重要度确定特定超文本文件的排序,并为每个特定超文本文件制备一个特定超文本文件的标引;以及检索结果显示单元23,在用对应于一组公共特定超文本文件任一文件的一个或多个特定母文件显示两个或多个同样排位的特定超文本文件的条件下,以文件排序确定单元22确定的编排次序把特定超文本文件的标引显示成检索结果。
在上述结构中,在以与第一实施例同样的方式计算出特定超文本文件的重要度并在文件排序确定22中按重要度确定出特定超文本文件的排序以后,取出对应于一个特定超文本文件的超文本文件表的一段文件信息所列出的一个或多个母文件标识符,并对每个特定超文本文件限定由母文件标识符标识的一个或多个母文件。之后,判断每个母文件是否与一个特定超文本文件相符。若对应于排位A的第一特定超文本文件的一个母文件与排位B的第二特定超文本文件相符,就判定第一与第二特定超文本文件相互密切相关,并把第一与第二特定超文本文件在排位A与B之间重新定到更高的排位。之后,用检索结果显示单元23以此排序显示特定超文本文件的标引。
例如,因为对应于第18排位的超文本文件D85的母文件D83与第四排位的文件D83相符,所以就把超文本文件D85重新定为第四排位。同样地,因为对应于第19排位的超文本文件D86的母文件D83与第4排位的超文本文件D83相符,所以把文件D86重新定为第四排位。
所以,由于把相互密切相关的多个特定超文本文件定为同样的排位并被显示得相互靠近,用户能顺利阅读相互密切相关的特定超文本文件,因而用户能方便地实现特定超文本文件的上下文联系。这样,防止了再次误读同一个特定超文本文件,用户能有效地阅读一组相互密切相关的特定超文本文件。
在本例中,在规定给多个特定超文本文件的排位中间,把相互密切相关的多个特定超文本文件定为最高排位。然而,第三实施例并不限于这一思路。即,当确定了相互密切相关的多个特定超文本文件后,可计算出特定超文本文件的重要度之和,并根据相加的重要度把特定超文本文件重新定到同一更高的排位。
同时,最好把第二和第三实施例的原理结合起来。例如像图7所示,在把第一组的特定超文本文件D83和母文件D80与D81定为第四排位时,把第二组的特定超文本文件D85和母文件D81与D83定为第18排位,并根据第二实施例把第三组的特定超文本文件D86和母文件D81与D83定为第19排位,则第二组文件D81、D83和D85从第18排位重新定为第四排位,第三组文件D81、D83和D86由第19排位改定为第四排位,如图9那样显示出重定为第四排位的组合起来的特定超文本文件D83、D85和D86及母文件D80与D81。第四实施例一般而言,表示某参照文件特征的专用字在对应于该参照文件的一个或多个母文件的一个或多个固定语句中出现多次。所以,在考虑该专用字出现在母文件固定语句中的情况而计算参照文件的估算值并根据该估算值编排该参照文件时,可提高检索多个可能符合用户检索要求的超文本文件的可靠性。
图10是本发明第四实施例的超文本检索装置的方框图。
如图10所示,用于从贮存在超文本文件管理单元8里的大量超文本文件中检索一个或多个可能符合用户检索要求的超文本文件的超文本检索装置31包括带母文件清单的超文本文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元32,计算每个特定字在一个特定超文本文件和对应于该特定超文本文件的一个或多个特定母文件的一个或多个固定语句中的出现频度,根据检索标引制备单元6得到的检索标引的特定字信息把该出现频度当作每个特定超文本文件中该特定超文本文件的修订出现频度TF,根据修订出现频度TF和倒数文件频度IDF计算特定超文本文件的估算值,根据估算值确定特定超文本文件的多个重要度,根据重要度确定特定超文本文件的排位,并制备特定超文本文件的标引;以及检索结果显示单元33,用以显示以文件排序确定单元22确定的排序的特定超文本文件标引作为检索结果。
在上述结构中,在用户输入关键字“apple”的情况下,如图4所示,该特定字“apple”在超文本文件D83的标题和正文中出现4次。而且,特定字“apple”还出现于母文件D81的固定语句S801和母文件D82的固定语句S802中。因此,因为特定字“apple”在超文本文件D83和母文件D81与D82的固定语句S801与S802中的出现频度之和为6,所以把特定超文本文件D83的修订出现频度定为6,并在文件排序确定单元32中用修订出现频度TF计算特定超文本文件D83的估算值。这样,把特定超文本文件D83排到更高的排位,所以提高了文件D83的检索可靠性。第五实施例在前四例中,在显示出特定超文本文件的标引后,若用户希望知道一个特定超文本文件的大体内容,就要求从超文本文件管理单元8调出该文件。因此,若用户希望阅读许多特定超文本文件的内容,用户就要麻烦地调出这些文件。
图11是本发明第五实施例的超文本检索装置的方框图。
如图11所示,用于从贮存在超文本文件管理单元8里的大量超文本文件中检索可能符合用户检索要求的一个或多个文件的超文本检索装置41包括带母文件清单的超文本文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元42,根据带母文件清单的超文本文件表制备单元7对检索单元3获得的每个特定超文本文件制备的超文本文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多个特定母文件统一成一种统一的特定超文本文件,根据标引制备单元6获得的检索标引的特定字信息对每个特定字计算统一的特定超文本文件的估算值,根据每个特定字的估算值确定统一的特定超文本文件的多个重要度,根据每个特定字的统一的特定超文本文件的重要度确定特定超文本文件的排位,对每个特定超文本文件制备一个特定超文本文件的标引,并对每个特定字制备特定超文本文件的多个摘要;以及检索结果显示单元43,对每个特定字以文件排序确定单元42确定的排序显示一组特定超文本文件的标引及特定超文本文件的摘要作为检索结果。
在上述结构中,在排序确定单元42中制备了特定超文本文件的标引后,根据检索标引制备单元6制备的检索标引字信息的定位信息,从一个特定超文本文件里取出包括一个特定字的特定语句或特定短语,并对每个特定字和每个特定超文本文件制备一个摘要,其中把特定语句或短语连续写到特定超文本文件的顶端语句或短语里。在一个特定超文本文件中存在包括一个特定字的多个特定语句或多个特定短语的情况下,制备一个摘要,其中把以原来次序编排的特定语句或短语连续写到特定超文本文件的顶端语句或短语里。之后,用检索结果显示单元43以文件排序确定单元42确定的排序对每个特定字显示该特定超文本文件的标引与摘要。
这样,由于对每个特定超文本文件示出了一个特定超文本文件的摘要,因此用户能通过阅读每个特定超文本文件的摘要了解每个文件的大体内容,不必从超文本文件管理单元8调看每个文件,能方便地选择一个或多个符合用户检索要求的特定超文本文件。
在本例中,即使包括一个特定字的特定语句或短语在一个特定超文本文件中出现多次,仍可从该特定超文本文件取出包括特定字的所有特定语句或短语,并制备出摘要。然而,若通过把特定超文本文件的一系列特定语句或短语同该特定超文本文件的顶端语句或短语连起来获得一个特定超文本文件的摘要,则显得太长,用户难以迅速地阅读长的摘要。因此,可行的办法是若用户输入的关键字数量为5或更少,可把特定超文本文件的三个特定语句或三个特定短语同该文件的顶端语句或短语连起来,对每个特定字制备一个摘要;若用户输入的关键字数量为10个或更少,就把两个特定语句或短语同该文件的顶端语句或短语连起来,对每个特定字制备一个摘要;若用户输入的关键字数量为11个或更多,则把一个特定语句或短语同该文件的顶端语句或短语连起来,对每个特定字制备一个摘要。这样就防止了摘要过长,用户能有效地阅读检索结果显示单元43显示的若干摘要。
同样地,最好把第二和第五实施例的原理结合起来。例如,如图12所示,若按第二实施例的原理把第一组特定超文本文件D83和母文件D80与D81定为第四排位,第二组特定超文本文件D85和母文件D81与D83定为第18排位,而第三组特定超文本文件D86和母文件D81与D83定为第19排位,就把文件D83的摘要加到第一组,把文件D85的摘要加到第二组,而把文件D86的摘要加到第三组。第六实施例在万维网中,把一个作品或一篇文章分成几部分,而每一部分写在一个超文本文件里。因此就会有这样一种情况,即写入一个超文本文件的一部分文章不能完全表达该文章的上下文关系。例如,尽管文章里叙述了苹果生长在Aomori,但是指明苹果产地的字“Aomori”不是写在超文本文件D83里,而是写在母文件D81里。
因此,若表示文章上下文关系的多个关键字被分开用在超文本文件里和多个与该文件有参照关系的母文件里,在原有技术中就把该文件不合理地排在较低的等级。然而,在第六实施例中,对每个母文件制备了一个组合超文本文件,它是通过把检索超文本文件(或特定超文本文件)和一个与该文件有参照关系的母文件组合起来而形成的,相互比较一下组合文件的重要度,选出其重要度最大的一个组合超文本文件,并把该最大重要度用作该检索超文本文件的重要度。
图13是本发明第六实施例的超文本检索装置的方框图。
如图13所示,用于从贮存在超文本文件管理单元8的大量超文本文件中检索一个或多个可能符合用户检索要求的超文本文件的超文本检索装置51包括带母文件清单的超文本文件制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元52,用于根据带母文件清单的超文本文件表制备单元7对检索单元3获得的每个对应于特定超文本文件的特定母文件和每个特定超文本文件制备的超文本文件表的文件信息,把一个特定超文本文件和一个对应于该文件的特定母文件组合成一个组合特定超文本文件,根据检索标引制备单元6对每个特定超文本文件获得的检索标引的特定字信息计算该组合文件的估算值,根据每个特定超文本文件的估算值确定组合文件的多个重要度,对每个特定超文本文件比较组合文件相互的重要度,对每个特定超文本文件选择同一个特定超文本文件相关的组合文件重要度中的最大重要度,对每个特定超文本文件把最大重要度规定给该特定超文本文件的重要度,根据这些重要度确定诸特定超文本文件的排序,并对每个特定超文本文件制备一个特定超文本文件的标引;以及检索结果显示单元53,用于以文件排序确定单元52对每个特定字确定的排序把一组特定超文本文件的标引及该文件的摘要显示为检索结果。
在上述结构中,在字“apple”出现在超文本文件D83而字“Aomori”(指示苹果产区)不出现在超文本文件D83或D82而出现在超文本文件D81的条件下,用户输入了关键字“apple”和另一个关键字“Aomori”,由于同关键字“apple”相符的特定字“apple”出现在文件D83里,就在检索单元3中把文件D83定为特定超文本文件。
之后,在文件排序确定单元52中,把特定超文本文件D83和特定母文件D81组合成第一组合特定超文本文件,把特定超文本文件D83和特定母文件D82组合成第二组合特定超文本文件,对每个特定字计算组合特定超文本文件的估算值,再计算特定字的第一组合特定超文本文件的第一估算值之和以及特定字的第二组合特定超文本文件的第二估算值之和。此时,由于特定字“Aomori”并不出现在超文本文件D82里而是出现在文件D81里,所以第一组合特定超文本文件的第一估算值之和要大于第二组合特定超文本文件的第二估算值之和。所以,选择了第一组合特定超文本文件,对于关键字“apple”和“Aomori”而言,把第一组合特定超文本文件的第一估算值之和规定为文件D83的估算值,并根据文件D83的估算值算出文件D83的重要度。其它文件的重要度以同样方法计算,并按重要度确定诸特定超文本文件的排序。
这样,即使把多个表示文章上下文关系的关键字分开应用于某个超文本文件和同该文件有参照关系的多个母文件,由于通过把一个特定超文本文件和一个特定母文件组合起来而对每个特定母文件形成了组合文件,并且把组合文件中间一个组合文件的最大估算值定为该文件的估算值,所以不可能把该文件不合理地排到较低的等级。第七实施例超文本文件的标题部分通常只是指明该文件的特征,所以为了刻意估算某个特定字出现在超文本文件的标题部分,就得把同该文件标题部分的一个关键字相符的该特定字的出现频度加倍。以标题部分为例,本例研究了超文本文件的标题或同该文件有参照关系的母文件的固定语句。
图14是本发明第七实施例的超文本检索装置的方框图。
如图14所示,用于从贮存在超文本文件管理单元8的大量超文本文件里检索一个或多个可能符合用户检索要求的文件的超文本检索装置61包括带母文件清单的文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元62,根据文件表制备单元7对检索单元3获得的每个文件制备的文件表的文件信息,把一个特定超文本文件和一个或多个对应于该文件的特定母文件统一成一种统一的特定超文本文件,在对出现在统一超文本文件标题部分的特定字的出现频度加倍的条件下,对每个特定字和每个统一超文本文件计算一个特定字在一个统一超文本文件中的出现频度TF,对每个特定字计算定为其中出现一个特定字的特定超文本文件数之倒数值的倒数文件频度IDF,计算一个出现频度TF与一个倒数文件频度IDF的乘积TF×IDF,把所有特定字的多个乘积相加产生作为每个文件估算值的求总乘积,按估算值确定统一超文本文件的多个重要度,按统一超文本文件的重要度确定诸文件的排位,对每个特定超文本文件制备一个文件的标引,而检索结果显示单元63以文件排序确定单元62确定的排序把诸文件的标引作为检索结果予以显示。
在上述结构中,每个统一超文本文件的标题部分包括一个对应于该统一超文本文件的特定超文本文件的标题和同该文件有参照关系的特定母文件的一个或多个固定语句。例如,在特定字在统一的特定超文本文件的标题部分出现三次的条件下,若同一个关键字相符的特定字在一个统一超文本文件里出现六次,则出现在统一超文本文件标题部分的特定字每次出现时作加倍计数,从而使该特定字在统一超文本文件中的出现频度TF等于9。
之后,按出现频度TF=9编排对应于统一的特定超文本文件的一个特定超文本文件。
这样,由于超文本文件的标题部分通常只表示文件的某个特征,而且出现在统一的特定超文本文件标题部分的特定字要加倍计数,所以可进一步提高特定超文本文件排序的可靠性。
在用超文本标记语言编写的HTML超文本文件中,用框有“<hl>”与”</hl>”的字符串表示小标引,所以可行的办法是让小标引包括在HTML文件的标题部分内。
本例中,出现在统一的特定超文本文件标题部分内的特定字的出现频度作了加倍。然而,可行的办法是把特定字的出现频度提高到3倍或更多倍。第八实施例在万维网的超文本文件中,有一种专用的超文本文件,其中有几个固定语句而没有其它任何语句。这种专用文件通常称为连接页,即使检索并显示了连接页,但在连接页中并不存在符合用户检索愿望的任何有用信息。所以在本例中,把特定字在连接页中的出现次数减为零。
图15是本发明第八实施例的超文本检索装置的方框图。
如图15所示,从贮存在超文本文件管理单元8的大量超文本文件中检索一个或多个可能符合用户检索要求的文件的超文本检索装置71包括带母文件清单的文件表制备单元7,检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元72,用于根据由文件表制备单元7对检索单元3获得的每个特定超文本文件制备的文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多个特定母文件统一成一种统一的特定超文本文件,从这些文件中限定连接页,在作为统一超文本文件的一个特定母文件的连接页中每次出现特定字时把特定字在连接页中的出现频度减1的条件下,对每个特定字和每个统一超文本文件计算一个特定字在一个统一超文本文件中的出现频度TF,对每个特定字计算定义为其中出现一个特定字的特定超文本文件数之倒数值的倒数文件频度IDF,计算一个出现频度TF与一个倒数文件频度IDF的乘积TF×IDF,把所有特定字的多个乘积相加而对每个特定超文本文件产生作为估算值的相加乘积,按估算值确定统一的特定超文本文件的多个重要度,按统一超文本文件的重要度确定诸文件的排序,对每个特定超文本文件制备一个特定超文本文件的标引,而检索结果显示单元73以文件排序确定单元62确定的排序把诸文件的标引作为检索结果来显示。
在上述结构中,超文本文件D82例如是一个与特定字“apple”相关的连接页,由10个固定语句组成。所以,就存在着分别与超文本文件D82有参照关系的10个参照文件。当计算出特定字“apple”在统一的特定超文本文件(包括被当作一个特定超文本文件的一个参照文件和当作一个特定母文件的超文本文件D82)中的出现频度后,在特定母文件D82中每发现一次特定字“apple”,就把该特定字“apple”在文件D82(当作一个特定超文本文件)中的出现频度减1。这一减少操作对所有当作特定超文本文件的参照文件都要执行。
这样,即使特定字“apple”在超文本文件D82中出现多次,特定字“apple”在文件D82中的出现频度必然减至零,并把文件D82排到最低等级。
因此,起一个连接页作用的任何一个特定超文本文件总能被排到最低等级。第九实施例有一个长的超文本文件,它由多个分别对应于某一含义的字区组成,并在该长文件每一字区顶部安置了一个参照标签。在本例中,把长文件分成多个字区,并制备了对应于长文件每个字区的文件表。
图16是本发明第九实施例的超文本检索装置的方框图。
如图16所示,从贮存在超文本文件管理单元8的大量超文本文件中检索一个或多个可能符合用户检索要求的超文本文件的超文本检索装置76包括带母文件清单的文件表制备单元77,用于分析其参照关系由管理单元8管理的诸超文本文件,限定由多个分别对应于某一含义的字区组成的长文件,把该长文件的每一字区规定为对应于一个含义的一个超文本文件,对每个超文本文件制备超文本文件信息,其中,用一个文件标识符(用于标识一个文件和该文件的文件贮存位置)列出了一个或多个标识一个或多个母文件的母文件标识符和母文件的固定语句,并对所有由管理单元8管理的文件制备文件信息的文件表;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元4以及检索结果显示单元73。
在上述结构中,如图17所示,在由多个分别对应于某一含义的字区组成的长超文本文件D873存在于由超文本文件管理单元8管理的超文本文件中的情况下,由带母文件清单的文件表制备单元77限定长文件D87,并找出分别安置在长文件D87一个字区顶端的一个或多个参照标签。之后,把长文件D87分成多个字区,而把每个字区定为一个超文本文件D87、D88或D89。此时,当用户读取一个文件某一固定语句的字符串“ABC”或“xyz”时,用户可立即参照诸如另一文件的“#ABC”或“#xyz”之类的参照标签。之后,以与第一实施例同样的方式对所有文件制备超文本文件信息的超文本文件表。
这样,即使在文件中存在由分别对应于某一含义的多个字区组成的长超文本文件,由于把长文件分成若干字区,而每个字区被定为一个超文本文件并对每个长文件字区制备超文本文件信息,所以能编排分别与一个含义相关的超文本文件,使用户方便地检索一组可能符合其要求的超文本文件。
本例中,在长超文本文件中使用围以“<hl>”与“</hl>”的字符串表示小标引的情况下,可行的办法是在每个字区顶端安置一个参照标签或一个小标引的条件下,把该长文件划分为多个字区。第十实施例在用户通过把原始关键字改为另一个关键字(与按原始关键字显示的多个特定超文本文件相关)想再次检索多个超文本文件的情况下,用户总想肯定一个或多个频繁出现在该文件中的字。因此在本例中,显示出经常出现在特定超文本文件中的一个或多个字。
图18是本发明第十实施例的超文本检索装置的方框图。
如图18所示,用于从贮存在超文本文件管理单元8的大量超文本文件中检索可能符合用户检索要求的一个或多个超文本文件的超文本检索装置91包括带母文件清单的文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元92,用于根据文件表制备单元7对检索单元3获得的每个特定超文本文件制备的文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多特定母文件统一成一种统一的特定超文本文件,对每个特定字和每个统一超文本文件计算一个特定字在一个统一超文本文件中的出现频度TF,对每个特定字计算倒数文件频度IDF(定义为其中出现一个特定字的特定超文本文件数的倒数值),计算一个出现频度TF和一个倒数文件频度IDF的乘积TF×IDF,把所有特定字的多个乘积相加得出的相加乘积作为每个文件的估算值,按估算值确定诸统一超文本文件的多个重要度,按统一超文本文件的重要度确定诸文件的排序,对每个文件制备一个文件的标引,从诸文件中选出多个高排位文件,在对应于高排位文件的文件表的几段文件信息多个字清单中提取多个相关字,对每个相关字和每个高排位文件计算一个相关字在一个高排位文件中的出现频度TF,对每个相关字计算倒数文件频度IDF(定义为其中出现一个相关字的高排位文件数的倒数值),对所有高排位文件计算多个乘积TF×IDF之和并把由此产生的相加乘积作为每个相关字的重要度,把相关字的重要度互相比较,选出多个高排位相关字(其重要度大于其它相关字的重要度),并制备超文本标记语言(HTML)文件,其中以高排位相关字重要度的递减次序编排对应于高排位相关字的多个关键字选择按钮,以便通过按一个关键字选择钮来选择一个高排位相关字;以及检索结果显示单元93,用于在结果显示窗口W1上以文件排序确定92确定的排序把特定超文本文件的标引作为检索结果显示出来,并在高排位相关字选择窗口W2上显示由文件排序确定单元92制备的HTML文件。
在上述结构中,在把第十和第三实施例相结合的情况下,如图19所示,当把关键字“apple”输入关键字输入单元2时,就以第三实施例同样的方式在结果显示窗口W1上显示出诸如文件D83、D85和D86的多个标引以及诸如文件D80与D81等母文件的多个标引。之后,在文件排序确定92中,从特定超文本文件中选出10个高排位的文件,从对应于这些高排位文件的文件表几段文件信息的多个字清单中取出多个相关字,对每个相关字计算所有高排位文件的多个乘积TF×IDF之和,并确定相关字的重要度。之后,从诸相关字中选出10个高排位相关字“Shinshu”、“farmer”、“Product”、“Aomori”、“manure”、“farm”、“festival”、“Nebuta”、“Nagano”与“Olympics”,制备HTML文件,其中对应于高排位相关字的10个关键字选择钮按高排位相关字的重要度的递减次序排列,并在选择窗口W2上显示出HTML文件。
所以,当用户按下对应于高排位相关字“Shinshu”的关键字钮时,就把表示苹果产区的该字“Shinshu”作为关键字送入关键字输入单元2,确定对应于关键字“Shinshu”的多个特定超文本文件的重要度,并以第一例同样的方式在显示窗口W1上显示出以重要度的递减次序排列的诸文件。
这样,即使用户最初无法想起合适的关键字,但用户仍能选择较接近于其检索意图的一个或多个关键字。同时,用户能参照高排位相关字而改变其检索意图,即可显示出对应于用户按其新的检索意图选择的新关键字的多个特定超文本文件。
在这种情况下,用户可用指点器件而不用键盘来按下关键字选择钮。而且,关键字选择钮的具体应用是操作一种在其中把高排位相关字加到文本盒的JAVA手写体,“清除”钮用来操作JAVA手写体,其中把加到文本盒里的一个高排位相关字清除掉,“初始条件”钮用来操作JAVA手写体,其中把加到文本盒里的高排位相关字返回诸如“apple”一类的初始组关键字,而“再检索”钮用来操作JAVA手写体,其中利用被作为一个或多个关键字被加到文本盒里的一个或多个字再次操作检索运行。
本例中,从诸特定超文本文件中选出高排位文件。然而,从特定超文本文件和母文件中选择高排位文件也是可行的。此时,可从相互有参照关系的多个文件中广泛收集多个相关字。第十一实施例在第十实施例中,确定相关字的重要度同用户最初输入的关键字毫无关系。然而,若用户希望选择同关键字密切相关的相关字,最好把同某一关键字密切相关的相关字选为高排位的相关字。因此在本例中,把同某关键字密切相关的相关字的出现频度增大一倍,以加强该相关字的重要度。
图20是本发明第十一实施例的超文本检索装置的方框图。
如图20所示,用于从贮存在超文本文件管理单元8的大量超文本文件中检索可能符合用户检索要求的一个或多个超文本文件的超文本检索装置101包括带母文件清单的文件表制备单元7;检索标引制备单元6;关键字输入单元2;检索单元3;文件排序确定单元102,用于根据文件表制备单元7对检索单元3获得的每个特定超文本文件制备的文件表的文件信息,把一个特定超文本文件和对应于该文件的一个或多个特定母文件统一成一种统一的特定超文本文件,对每个特定字和每个统一超文本文件计算一个特定字在一个统一超文本文件中的出现频度TF,对每个特定字计算倒数文件频度IDF(定义为其中出现一个特定字的特定超文本文件数的倒数值),计算一个出现频度TF与一个倒数文件频度IDF的乘积TF×IDF,把所有特定字的多个乘积相加以产生相加的乘积作为每个文件的估算值,按估算值确定统一超文本文件的多个重要度,按统一超文本文件的重要度确定诸文件的排位,对每个文件制备一个文件的标引,从诸文件中选出多个高排位的文件,在对应于高排位文件的文件表文件信息段的多个字清单中提取多个相关字,在相关字置于距离一个关键字40个字母范围内时加倍计算相关字的条件下,对每个相关字和每个高排位文件计算一个相关字在一个高排位文件中的出现频度TF,对每个相关字计算倒数文件频度IDF(定义为其中出现一个相关字的高排位文件数的倒数值,计算所有高排位文件多个乘积TF×IDF之和并由此产生的相加乘积作为每个相关字的重要度,比较相关字相互的重要度,选择多个其重要度大于其它相关字重要度的高排位相关字,制备超文本标记语言(HTML)文件,其中以高排位相关字的重要度的递减次序安置对应于高排位相关字的多个关键字选择钮,以便按一个关键字选择钮就选出一个高排位相关字;以及检索结果显示单元103,用于在显示窗口W1上以排序确定单元92确定的排序把诸文件的标引作为检索结果显示出来,并在高排位相关字选择窗口W2上显示由排序确定单元102制备的HTML文件。
在上述结构中,在以第十实施例同样的方法提取了相关字后,对每个相关字和每个高排位文件计算一个相关字在一个高排位文件中的出现频度TF。此时,当把该相关字置于距离一个关键字“apple”40个字母范围内时,就加倍计算该相关字。所以,由于指示某个苹果产区的相关字“Shinshu”或相关字“farmer”通常出现在距离一个关键字“apple”40个字母范围内,且由于指示苹果产区的相关字“Nagano”或指示1998在Nagano举行喜庆活动的相关字“Olympics”难以出现在距离一个关键字“apple”40个字母的范围内,如图21所示,所以在高排位相关字选择窗口W2的前头部分可靠地显示出相关字“Shinshu”和“farmer”,而在窗口W2的后面部分显示出相关字“Nagano”和“Olympics”,尽管相关字“Nagano”和“Olympics”频繁地出现在该特定超文本文件里。
这样,同该关键字具有密切关系的一个或多个相关字能显示在高排位位置上,而对应于用户不同于原先检索愿望的检索愿望的一个或多个相关字可以显示在低排位位置上。
这里以较佳实施例对本发明原理作了示例和描述,这对本领域的熟炼人员显得很明显,在不背离该原理的情况下可对本发明的结构与细节作出更改,我们认为所有这些更改都包括在所附的权利要求范围内。
权利要求
1.一种超文本文件检索装置,用于从一组相互有参照关系的超文本文件中检索多个可能符合用户检索要求的特定超文本文件,其中,一个超文本文件的一个固定语句起到另一超文本文件的母文件的作用,而所述另一超文本文件起着参照文件的作用,在用户选择了对应于该参照文件的一个母文件的一个固定语句后,用户就参照一个参照文件,其特征在于所述检索装置包括超文本文件表制备装置,用于制备超文本文件信息,其中对每个超文本文件登录了标识一个超文本文件的超文本文件标识符、超文本文件正文、标识对应于作为一个参照文件的超文本文件母文件的母文件标识符以及母文件的固定语句,并用于对超文本文件制备超文本文件信息的超文本文件表;检索标引制备装置,用于按超文本文件表制备装置制备的超文本文件表识别在每个超文本文件和母文件里出现的多个字,按超文本文件表识别这些字在每个超文本文件和母文件里的多个出现位置,对每个字制备字信息,包括一个或多个出现文件标识符,标识出现一个字的一个或多个超文本文件,该字在超文本文件里的出现位置以及对应于该超文本文件的一个或多个母文件的一个或多个固定语句,并对这些字制备几段字信息的检索标引;关键字接收装置,用于接收指明用户检索要求的关键字;检索装置,用于从检索标引制备装置制备的检索标引里检索对应于关键字接收装置接收的关键字的特定字信息,并用于检索多个特定出现文件标识符,标识多个出现该关键字的特定超文本文件,该关键字在特定超文本文件里的多个特定出现位置,以及从特定字信息里检索一个或多个对应于特定超文本文件的特定母文件的一个或多个特定固定语句;文件排序确定装置,用于限定由检索装置检索到的特定出现文件标识符所标识的特定超文本文件,从超文本文件表制备装置制备的超文本文件表里对特定超文本文件检索几段特定超文本文件信息,对每个特定超文本文件把一个特定超文本文件和一个或多个对应于该特定超文本文件的特定母文件统一成统一的超文本文件,对每个统一的超文本文件计算该关键字在一个统一超文本文件里的出现频度,根据该统一超文本文件的出现频度确定统一超文本文件的多个重要度,对每个统一超文本文件设定一个统一超文本文件的一个重要度并作为对应于该统一超文本文件的一个特定超文本文件的重要度,根据诸特定超文本文件的的重要度确定诸特定超文本文件的排序;以及检索结果显示装置,用于以对应于文件排序确定装置确定的特定超文本文件排位的排序,把多个特定超文本文件标引作为检索结果显示出来。
2.如权利要求1所述的超文本文件检索装置,其特征在于,对于每个特定超文本文件,对应于一个特定超文本文件的一个特定母文件的标引由检索结果显示装置显示为该特定超文本文件的标引。
3.如权利要求1所述的超文本文件检索装置,其特征在于,把对应于同一个特定母文件的多个特定超文本文件重定为同一排位,作为文件排序确定装置对这些特定超文本文件所确定的排位中最高的排位,而定为同一排位的诸特定超文本文件由检索结果显示装置以成组方式显示特定母文件。
4.如权利要求1所述的超文本文件检索装置,其特征在于,根据诸特定超文本文件的重要度之和,由文件排序确定装置把对应于同一特定母文件的多个特定超文本文件重定为同一排位,并由检索结果显示装置以成组方式用该特定母文件显示定为同一排位的特定超文本文件。
5.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置通过把对应于一个特定超文本文件的一个或多个特定母文件的一个或多个固定语句同该特定超文本文件统一起来,形成每个统一的超文本文件。
6.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置从每个特定超文本文件里提取包括关键字的特定语句或短语,而且对每个特定超文本文件,用该特定超文本文件的标引显示连续写到该特定超文本文件顶端语句或短语的一个特定超文本文件的一个特定语句或短语的摘要。
7.如权利要求1所述的超文本文件检索装置,其特征在于,对于每个对应于超文本文件的母文件,文件排序确定装置通过计算关键字在一个超文本文件里的出现频度与该关键字在对应于该超文本文件的一个母文件里的出现频度之和,来确定每个统一超文本文件的重要度,在母文件之和当中选出最大和值,限定对应于该最大和值的一个特定母文件,根据该最大和值确定该超文本文件与特定母文件组合的一个重要度,并把该重要度视作对应于该超文本文件的一个统一超文本文件的一个重要度。
8.如权利要求1所述的超文本文件检索装置,其特征在于,通过加倍计算出现在对应于统一超文本文件的一个或多个特定母文件的一个或多个固定语句中的关键字,文件排序确定装置计算该关键字在每个统一超文本文件里的出现频度。
9.如权利要求1所述的超文本文件检索装置,其特征在于,关键字在作为由一个或多个固定语句组成的连接页的一个超文本文件里的出现频度,被排序确定装置定为零。
10.如权利要求1所述的超文本文件检索装置,其特征在于,其内容对应于由参照标签分别标识的多个含义的一个超文本文件,被超文本文件表制备装置分成多个字区,并在每个字区顶端包括一个参照标签,而且超文本文件表制备装置对超文本文件的每个字区制备一个超文本文件信息。
11.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置从诸特定超文本文件当中选出预定数量的高排位特定超文本文件,从高排位特定超文本文件里提取出现在这些高排位特定超文本文件里的多个相关字,根据诸相关字在高排位特定超文本文件里的多个出现频度计算这些相关字的多个重要度,根据相关字的这些重要度从编排的相关字里选出预定数量的高排位相关字,检索结果显示装置以特定超文本文件的标引显示出高排位相关字的多个选择钮。
12.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置从特定超文本文件当中选出预定数量的高排位特定超文本文件,从高排位特定超文本文件里提取在这些高排位特定超文本文件和对于这些高排位特定超文本文件的多个特定母文件中出现的多个相关字,根据这些相关字在高排位特定超文本文件与特定母文件中的多个出现频度计算相关字的多个重要度,再根据相关字的重要度从被排位的相关字里选出预定数量的高排位相关字,而检索结果显示装置以特定超文本文件的标引显示出高排位相关字的多个选择钮。
13.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置从特定超文本文件当中选出预定数量的高排位特定超文本文件,从这些高排位特定超文本文件里提取出现在高排位特定超文本文件里的多个相关字,若相关字的出现位置靠近关键字的出现位置,则在加倍计算出现在一个高排位特定超文本文件里的该相关字的条件下,计算每个相关字在高排位特定超文本文件中的出现频度,根据相关字的出现频度计算相关字的多个重要度,再根据相关字的重要度从被排位相关字中选出预定数量的高排位相关字,而检索结果显示装置以特定超文本文件的标引显示出高排位相关字的多个选择钮。
14.如权利要求1所述的超文本文件检索装置,其特征在于,文件排序确定装置从特定超文本文件当中选出预定数量的高排位特定超文本文件,从这些高排位特定超文本文件里提取出现在高排位特定超文本文件和对应于这些高排位特定超文本文件的多个特定母文件里的多个相关字,若相关字的出现位置靠近关键字的出现位置,则在加倍计算出现在一个高排位特定超文本文件里或一个特定母文件里的相关字的条件下,计算每个相关字在高排位特定超文本文件中的出现频度,根据相关字的出现频度计算相关字的多个重要度,再根据相关字的重要度从被排位的相关字中选出预定数量的高排位相关字,而检索结果显示装置以特定超文本文件的标引显示出高排位相关字的多个选择钮。
15.如权利要求1所述的超文本文件检索装置,其特征在于,关键字接收装置接收多个关键字;文件排序确定装置对每个关键字和每个统一的超文本文件计算一个关键字在一个统一超文本文件里的出现频度TF,对每个关键字计算倒数文件频度IDF,它定义为其中出现一个关键字的特定超文本文件数的倒数值,计算一个出现频度TF和一个倒数文件频度IDF的乘积TF×IDF,把关键字的多个乘积相加而得出作为每个统一特定超文本文件的估算值的相加乘积,并按这些估算值确定统一超文本文件的重要度。
16.如权利要求15所述的超文本文件检索装置,其特征在于,在两个或多个关键字出现在统一特定超文本文件中或者两个关键字在统一特定超文本文件里的距离保持在预定数量的字范围内的情况下,就增大一个统一特定超文本文件的一个估算值,以提高该特定超文本文件的排位。
全文摘要
对每个相互有参照关系的超文本文件,用超文本文件标识符作为文件信息登录一个超文本文件和该文件母文件的固定语句,用户可按起母文件作用的另一超文本文件的固定语句参照一个超文本文件。同时把超文本文件和母文件的一个字的出现位置作为每个字的字信息来登录。输入关键字后,按字信息限定多个特定超文本文件和特定母文件,并把它们统一成统一超文本文件,按文件信息计算每个统一超文本文件中关键字出现频度,按出现频度计算统一超文本文件的重要度,并按重要度确定特定超文本文件的排位。
文档编号G06F17/30GK1170908SQ97111439
公开日1998年1月21日 申请日期1997年5月22日 优先权日1996年5月22日
发明者石川干人, 佐藤光弘, 星田昌纪, 野口喜洋, 安川秀树 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1