检索方法、检索装置的制作方法

文档序号:6367429阅读:196来源:国知局
专利名称:检索方法、检索装置的制作方法
技术领域
本发明涉及适合于提示与用户的意图相符合的检索结果的检索方法、检索装置。
背景技术
伴随着文档的电子化的増大,从以前积蓄的大量文档群中找出希望的文档的检索技术的重要性提高了。电子设备中的典型的检索,从检索对象的文档群中找出包含从用户接受的检索词的文档并向用户显示该找出的文档。这时,在找到大量包含希望的检索词的文档的情况下,在找到的大量文档之间赋予优先顺序,从优先顺序高的文档开始进行显示。考虑到各种因素来赋予该优先顺序,使得与用户的目的相符合的文档优先显示。例如,在专利文献1(日本特开2006-106889号公 报)中公开了以下技术,即在电子词典中的检索中,与用户的水平对应地赋予要显示的文档的优先顺序,取得与用户的意图相符合的检索結果。在存在多个包含希望的检索词的文档的情况下,为了能够尽量优先地提示符合用户的意图的文档,要求一种更简便地对各文档赋予优先顺序的方法。特别是在电子词典这样的比一般的计算机小的电子设备中,由于处理能力、电池性能这样的可使用资源有限,因此更強烈希望能够通过尽可能高效的方法对文档赋予优先度,优先地提示符合用户的意图的文档。

发明内容
本发明用于解决上述那样的问题,其目的在于提供ー种适合于提示符合用户的意图的检索结果的检索方法、检索装置。为了达到上述目的,本发明的检索方法具备以下步骤从多个文档数据中提取出包含多个检索字符串的文档数据的提取步骤;在上述提取出的各个文档数据中取得包含全部上述多个检索字符串的字符串的取得步骤;针对上述提取出的各个文档数据,根据在该文档数据中取得的字符串的字符数,设定输出优先度的设定步骤;以及与上述设定的输出优先度对应地输出上述提取出的文档数据的输出步骤。根据本发明,能够提供ー种适合于提示符合用户的意图的检索结果的检索方法、检索装置。


图I是表示本发明的实施方式的检索装置的概要结构的图。图2是表示本发明的实施方式的检索装置的物理结构的图。图3是表示本发明的实施方式的多个文档数据的结构的图。图4是表示本发明的实施方式的检索装置的处理的流程的流程图。图5、图6是表示在本发明的实施方式中从文档数据中取得包含字符串的情况的图。
图7是表示在本发明的实施方式的检索装置中的候补得分设定处理的流程的流程图。图8、图9是表示在本发明的实施方式中对包含字符串设定的候补得分的例子的图。图10是针对本发明的检索装置的结构概要表示其他例子的图。
具体实施例方式下面,參照

本发明的实施方式。另外,以下说明的实施方式是用于说明的,并不限制本发明的范围。因此,只要是本领域的技术人员,就能够采用将下述的各结构要素置換为等价物所得到的实施方式,这些实施方式也包含在本发明的范围内。另外,在以下的说明中,为了容易理解本发明,适当地省略不重要的公知的技术事项的说明。在本实施方式中,作为实现检索装置的信息处理装置,设想具备电子词典等功能 的小型信息处理装置来进行说明。即,本实施方式的检索装置是从构成电子词典的多个文档数据中检索包含希望的检索词的文档数据的装置。这样的检索装置I具有图I所示那样的结构,具备控制部100、存储部110、输入部120、显示部130。另ー方面,该检索装置I在物理上如图2所示那样构成,具备CPU (中央处理单元)151、R0M(只读存储器)152、RAM (随机存取存储器)153、键盘154、监视器155。以下,參照图I和图2,说明检索装置I的结构要素。控制部100控制检索装置I全体的动作,与各结构要素连接,收发控制信号或数据。即,控制部100与存储部110、输入部120、显示部130连接,在利用这些各部的功能的同时,执行检索处理。在此,控制部100具备提取部101、取得部102、设定部103、输出部104、跨越判定部105、重叠判定部106。所述各部如后面详细说明的那样执行以下的处理,即从存储在存储部110中的多个文档数据(文档数据群300)中确定包含希望的检索词的文档数据,并按照预定的顺序排序来输出。这样的控制部100 (提取部101、取得部102、设定部103、输出部104、跨越判定部105、重叠判定部106)例如由CPU151构成。在此,CPU151通过用于转发命令、数据的传输路径即系统总线,与各结构要素相互连接,依照记录在R0M152中的控制检索装置I全体的动作所需的计算机程序或各种数据而动作。另外,CPU151将从R0M152读出的计算机程序或数据、进行其他处理所需的数据暂时存储在RAM153中,同时控制各种动作。这样通过CPU151与R0M152或RAM153协作,控制部100对检索装置I全体的动作进行控制。存储部110例如由在检索装置I内具备的R0M152那样的只读存储介质构成,存储控制部100进行检索处理所需的各种数据。具体地说,在此预先存储有作为检索对象的多个文档数据(文档数据群300)。在此,预先存储在存储部110中的文档数据群300如图3所示那样构成。即,文档数据群300由各个文档数据301a 301c等构成,进而,文档数据301a 301c等分别由“词条”和“说明文”构成。即,文档数据301a 301c等是构成词典的构成单位,“词条”是作为该词典的标题的I个词句,使I个词条对应于I个文档数据301。另外,“词条”与说明该词条的“说明文”对应,合并它们而构成I个文档数据301。进而,存在“词条”的个数的这样的文档数据301,全体构成文档数据群300。输入部120例如由键盘154那样的输入装置构成,接受来自用户的输入。具体地说,在此接受来自用户的检索词。所接受的检索词被提供给控制部100的提取部101,并被用于提取包含该检索词的文档数据301的处理中。显示部130例如由监视器155那样的显示装置构成,向用户显示由控制部100进行处理的結果。具体地说,在此通过按照后述的预定的输出优先度的顺序将包含用户所输入的检索词的文档数据301输出到监视器155,来向该用户进行显示。由此,用户能够取得包含自身所输入的检索词的文档数据301作为输出结果,并进行各种利用。另外,输入部120和显示部130也可以由触摸面板等将输入装置与显示装置组合起来的装置构成。在该情况下,由内置于触摸面板中的触摸传感器等构成的位置输入装置 构成输入部120,由液晶显示器等构成的显示装置构成显示部130。以上那样构成的检索装置I基于控制部100的控制来进行检索处理。具体地说,按照图4的流程图所示的步骤执行处理。以检索装置I的输入部120接受从用户输入的检索词为契机而开始本处理。即,由用户使用键盘154输入希望的检索词并指示进行检索的主_,从而开始本处理。在此,检索装置I能够从用户接受I个以上的检索词,在接受了多个检索词的情况下,能够进行针对实施了它们的逻辑积、逻辑和等各种运算处理所得的结果的检索。其中,在本实施方式中,在针对多个检索词的逻辑积进行的检索处理中发挥特征,因此,以下设想从用户接受了多个检索词而进行取得了它们的逻辑积的检索处理的情况来进行说明。如果从用户接受了多个检索词并开始检索处理,则首先提取部101从多个文档数据301a 301c等(文档数据群300)中提取出包含全部多个检索词的文档数据301 (步骤S401)。例如,如果假设用户输入了“ A”、“BC”、“DE”(文档数据是日语或中文,A E表示日语或中文的特定字符)这样的3词的检索词,则提取部101进行在文档数据群300内包含的字符串的检索,提取出包含全部该“A”、“BC”、“DE”这3词的检索词的字符串(检索字符串)的文档数据301。这时所进行的检索是所谓的全文检索,对各文档数据301内的词条和说明文的字符串进行。即,如果在文档数据301内的词条或说明文的某ー个中包含所输入的检索词,则提取出该文档数据301。另外,这时所进行的检索的详细方法,可以基于公知的检索技术的任意ー种技术。即,提取部101例如可以进行逐次型的检索(grep型的检索),即按顺序地扫描多个文档数据301a 301c等来找出检索字符串,或者为了提高检索处理的速度,也可以进行预先准备了索引文件的索引型(index型)的检索。另外,在索引型的检索的情况下,例如可以通过所谓的形态分析的方法生成索引文件,也可以通过所谓的N元(N-gram)方法(N字符索引法)来生成索引文件。如果这样提取出包含多个检索词的文档数据301的处理结束,则接着由取得部102在提取出的文档数据301内取得包含全部多个检索词的字符串(步骤S402)。S卩,从文档数据301内的构成词条和说明文的字符串中取得包含所输入的多个检索词的字符串(以下称为“包含字符串”)。
例如,以以下情况为例进行说明,即如上述的例子那样输入“A”、“BC”、“DE”这样的3词的检索词,作为包含该3个检索字符串的文档数据301,如图5那样提取出了日语或中文的文档数据301b。在本图中,在文档数据301b内的说明文中具有“□ □ □ □ A □ □ □ □ BCO DE [□△□□□□□□□ BC □□□□”( □表示日语或中文的I个字符)这样的字符串,在该字符串中分别包含3个检索词中的2个“A”、2个“BC”、1个“DE”。因此,从该字符串中作为包含这些3词的检索词的字符串,能够取得“A □□□□ BC □ DE ”这样的包含字符串,而且不只这I个,还能够取得“ BC □ DE [ロ A”、“DE[ □ A □□□□□□□ BC”这样的包含字符串,合计能够取得3个包含字符串。在文档数据301b中在其他句子中也包含检索词的情况下,能够进一歩取得包含该3词的包含字符串。使用图6说明英语的文档的情况。例如以以下情况为例进行说明,即输入“ rain”、“result”day”这3词的检索词,作为文档数据301提取出了文档数据301b’。在本图中,
在文档数据 301b’ 内的说明文中具有“ If it rained yesterday, the result of today’sgame had changed by the rain. ”这样的字符串,在该字符串中分别包含3个检索词中的2个“rain”、l个“result'2个“day”。因此,从该字符串中,作为包含这3词的检索词的包含字符串,能够取得“〈rain>ed yester<day>, the〈result>”这样的包含字符串,而且不只是这一个,还能够取得“〈result>of to〈day>’s game had changed by the〈rain>”这样的包含字符串,合计能够取得2个包含字符串。在步骤S402中,取得部102从这些能够取得的包含字符串中取得I个,暂时保存在 RAM153 中。如果取得了包含字符串,则接着设定部103对所取得的包含字符串设定候补得分(步骤S403)。在此,候补得分用于在后述的输出文档数据的处理中确定进行输出的顺序的优先度的指标(得分),对ー个包含字符串设定I个值。以下,參照图7的流程图说明具体的候补得分的设定处理。如果开始候补得分的设定处理,则首先设定部103将包含字符串的字符数设定为候补得分(步骤S601)。即,首先设定部103对所取得的包含字符串的字符数进行计数,将其作为候补得分。具体地说明,在如图8那样检索词是“FG”和“GH”(F、G、H表示日语或中文的特定的字符)这2词,从文档数据301内取得了包含这2词的“FG □ GH” ( □是日语或中文的I个字符)这样的包含字符串700a的情况的例子中,由于该包含字符串700a的字符数是5个字符,所以将该“5”的值设定为该包含字符串700a的候补得分。另ー方面,在从文档数据301内取得了“FG □□□□□ GH”这样的包含字符串700b的情况的例子中,由于该包含字符串700b的字符数是9个字符,所以将该“9”的值设定为该包含字符串700b的候补得分。这样,包含字符串的字符数在其所包含的多个检索词处于相互接近的位置时变小,相反,在所包含的多个检索词处于相互远离的位置时变大。另外,认为多个检索词位于相互接近的位置的文档数据301是符合用户的检索意图的文档数据301的情况较多。因此,通过将包含字符串的字符数作为候补得分,并作为后述的文档数据301的排列顺序的指标,能够优先地输出符合用户的检索意图的文档数据301。然后,在候补得分设定处理中,进而由跨越判定部105判定包含字符串是否跨越了多个句子(步骤S602)。在此,句子是指所谓的语句,通常表示用句点、句号等分割的ー连串的词汇。文档数据301内的说明文通常由I个以上的句子构成。在此,跨越判定部105判定所取得的包含字符串是否跨越了多个句子,即包含字符串在其间是否包含句点、句号。具体地用图8的例子进行说明时,在所取得的包含字符串是“FG □ロ。□□ GH”这样的包含字符串700c的情况下,由于包含句点“。”,所以判定为跨越了多个句子。在判定为跨越了多个句子的情况下(步骤S602 :是),设定部103将预定的罚分与候补得分相加(步骤S603)。即,将预定的罚分与在上述步骤S601中被设定为包含字符串的字符数的候补得分相加,使候补得分的值増大。在图8的例子中,跨越了多个句子的“FG □ロ。OOGH”这样的包含字符串700c的候补得分,在作为其字符数的8字符(句点不包含在字符数中)上,作为句子罚分而加上“20”的值,而被设定为“28”的值。通过这样増大候补得分的值,导致后述的文档数据301的输出优先度的指标(得分)降低,导致向用户输出的顺序推后。即,可以认为用户所输入的多个检索词分散地存在 于不同句子内的文档数据301与集中地存在于I个句子内的文档数据301相比,不是用户希望找到的文档数据301的可能性高,因此降低向用户输出的优先度。将在此相加的句子罚分的值设为文档数据群300 (多个文档数据301a 301c等)中的句子中的最长的句子的字符数以上的值。为此,在检索装置I的存储部110中预先保存文档数据群300中的最长的句子的字符数,在每次进行检索时用作句子罚分。由此,多个检索词分散地存在于多个句子内的文档数据301的得分为集中地存在于I个句子内的某个文档数据301的得分以上,容易输出更符合用户的意图的检索結果。然后,处理转移到步骤S604。另ー方面,在步骤S602中没有判定为跨越多个句子的情况下(步骤S602 :否),不通过上述那样的将句子罚分与候补得分相加的处理而转移到步骤S604。然后,在该步骤S604中,重叠判定部106判定在包含字符串内检索词是否相互重叠(步骤S604)。即,判定从用户输入的多个检索词在包含字符串内是否共有位于同一位置的字符。在用户输入了 3个以上的检索词的情况下,判定其中的任意2个检索词是否相互重叠。具体地用图8的例子进行说明时,在包含字符串内检索词相互重叠的情况,相当于在输入了“ FG”和“ GH”这2词的检索词时取得了“ FGH”这样的包含字符串700d的情況。这是由于该2词的检索词共有包含字符串700d中的“G”这ー相同的字符。这样,在判定为重叠的情况下(步骤S604 :是),设定部103将预定的罚分与候补得分相加(步骤S605)。具体地说,在图7的例子中,跨越了多个句子的“FGH”这样的包含字符串700d的候补得分,在作为其字符数的3字符上,作为重叠罚分而加上“30”的值,设定为“33”的值。这样增加候补得分的值,是因为重叠地具有用户所输入的多个检索词的字符串不符合用户希望的用法的可能性高。因此,在此设定部103使候补得分的值増大,降低向用户输出的优先度。在此相加的重叠罚分的值为比上述句子罚分大的值。具体地说,如图7的例子那样,相对于句子罚分的值为“20”,将重叠罚分的值设为“30”的大值。其理由是因为认为用户所输入的多个检索词重叠的文档数据301与跨越多个句子的文档数据301相比,符合用户的意图的可能性一般比较低。另ー方面,在步骤S604中没有判定为在包含字符串内检索词相互重叠的情况下(步骤S604 :否),不通过上述那样的将重叠罚分与候补得分相加的处理而结束本图的处理。參照图9说明英语的文档的具体的候补得分的设定处理。例如在检索词是“his”和“story”这2个词,从文档数据301内取得了包含该2词的“his □ story”这样的包含字符串700a’的情况下,由于字符数是9字符,所以将该“9”的值设定为候补得分。另ー方面,在从文档数据301内取得了“ his □□□□□ story”这 样的包含字符串700b’的情况下,由于字符数是12字符,所以将该“12”的值设定为候补得分。在所取得的包含字符串是“his . □□ story”这样的包含字符串700c’的情况下,由于包含句点“.”,所以判定为跨越了多个句子。在判定为跨越了多个句子的情况下,将预定的罚分与候补得分相加。在该例子中,作为句子罚分而加上“50”的值,设定“62”的值。在输入了“ his”和“story”这2词的检索词的情况下,在取得了“ history”这样的包含字符串700d’的情况下,在包含字符串内检索词相互重叠。这是由于该2词的检索词共有包含字符串700d’中的“s”这ー相同字符。这样,在判定为重叠的情况下,作为重叠罚分而加上“60”的值,设定“67”的值。如果图7的候补得分设定处理结束,则检索装置I的处理返回图4的流程图,转移到步骤S404。然后,如果所设定的候补得分比已经设定的得分小,则设定部103将该候补得分设定为文档数据301的得分(步骤S404)。即,在此,在从ー个文档数据301内取得多个包含字符串的情况下,为了将其中最小的候补得分设定为该文档数据301的得分,对新设定的候补得分的值与已经设定的得分的值进行比较,在该候补得分的值比该得分的值小的情况下,将该候补得分的值设定为该文档数据301的得分。另外,在从文档数据301取得最初的包含字符串,该文档数据301的得分为未设定的状态的情况下,不对值进行比较,而将该最初的包含字符串的候补得分直接设定为该文档数据301的得分。然后,检索装置I的控制部100判定在文档数据301内是否有未处理的包含字符串(步骤S405)。如果有未处理的包含字符串(步骤S405 :是),则处理返回到步骤S402。即,取得文档数据301内的未处理的包含字符串,对该包含字符串设定候补得分,如果所设定的候补得分比对该文档数据301已经设定的得分小,则将该候补得分重新设定为文档数据301的得分。通过对所提取出的文档数据301内的全部包含字符串重复进行这样的处理,将能够从该文档数据301取得的包含字符串的候补得分中的最小的候补得分设定为该文档数据301的得分。然后,如果没有未处理的包含字符串(步骤S405 :否),则接着,检索装置I的控制部100判定多个文档数据301a 301c等中是否有未处理的文档数据301 (步骤S406)。如果有未处理的文档数据301 (步骤S406 :是),则处理返回到步骤S401。通过对包含多个检索词的全部文档数据301重复进行这样的处理来分别设定得分。然后,如果没有未处理的文档数据301 (步骤S406 :否),则接着,输出部104按照得分从小到大的顺序对所提取出的文档数据301进行排序(步骤S407)。S卩,比较对各文档数据301设定的得分的值,升序地进行排序。然后,输出部104进而对得分相同的文档数据301进行排序(步骤S408)。这时的排序着眼于被用于设定得分(候补得分最小)的包含字符串在文档数据301内的位置,使相对于文档数据301的开头近的文档数据301优先地进行排序。这是因为认为从用 户输入的多个检索词的位置在文档数据301内位于离开头近的位置的文档数据301与位于离开头远的位置的文档数据301相比,是用户所希望的文档数据301的可能性高。然后,输出部104按顺序地输出这样排序后的文档数据301 (步骤S409),结束处理。即,输出部104将排序后的文档数据301发送到显示部130,并显示在检索装置I的监视器155上,由此按照排序的顺序向用户输出。其结果是用户能够从符合自身的检索意图的文档数据301中按顺序地确认检索结果并利用。根据以上那样的结构,本实施方式的检索装置I在向用户输出多个文档数据301a 301c等中的包含多个检索词的文档数据301时,根据包含该多个检索词的字符串的字符数等设定顺序,按照该设定的顺序输出包含多个检索词的文档数据301。由此,本实施方式的检索装置I能够通过以简便的方法设定优先度来提示符合用户的意图的检索結果。特别在作为比较短的文档数据的集合体,并且在相互的文档数据之间难以对所包含的检索词的个数和可靠性进行区分的电子词典那样的信息设备中,或者在处于可使用的CPU性能、电池性能等有限的环境中的小型的信息设备中是有效的。另外,上述实施方式是ー个例子,本发明的适用范围并不限于此。即,能够进行各种应用,所有的实施方式都包含在本发明的范围内。例如在上述实施方式中,检索装置I将文档数据群300等存储在R0M152那样的存储部110内。但是并不限于此,检索装置I也可以具备硬盘等大容量存储装置、DVD-ROM驱动器,将文档数据群300等存储在硬盘、DVD-ROM等中。或者检索装置I也可以与网络连接,而文档数据群300等存在于网络上。另外,在上述实施方式中,在检索装置I中,用户输入检索词的输入部120、显示检索结果的显示部130与控制部100、存储部110存在于同一装置内。但是并不限于此,输入部120和显示部130也可以位于检索装置I的外部。S卩,例如如图10所示,检索装置I也可以不具备输入部120和显示部130,而经由网络150与具备它们的終端装置2连接,构成在线型的电子词典那样的信息设备。这时,检索装置I和终端装置2通过各自具备的通信部140a、140b经由网络150相互进行数据通信。即,在終端装置2中用户通过输入部120输入的多个检索词被发送到检索装置1,由控制部100执行检索处理。然后,作为检索结果的文档数据的信息在与分别设定的输出优先度对应的基础上,再次被发送到終端装置2,经由显示部130按照输出优先度从高到低的顺序向終端装置2的用户显示。通过采用这样的结构,能够统一地管理检索装置I内的文档数据群300等而由多个用户利用,另外,用户侧的終端装置2不需要保存文档数据群300等,因此有能够抑制数据大小的优点。另外,在上述实施方式中,作为检索装置I设想了电子词典那样的小型的信息处理装置进行了说明。但是并不限于此,检索装置I也可以是商用、家用的普通的计算机装置、便携电话等其他信息设备。另外,并不限于电子词典中的检索,也可以是检索各种电子数据。例如在普通的计算机装置中,也可以从存储在硬盘等大容量存储装置或DVD-ROM等中的电子文件中检索包含希望的检索字符串的电子文件。或者也可以与网络连接,检索存在于网络上的网页。另外,在上述实施方式中,构成文档数据群300的多个文档数据301由“词条”和“说明文”构成。但是并不限于此,也可以由各种要素构成。例如也可以具有用于说明“词条”的图、表。或者,在词典中的检索以外的普通电子文件等的检索中,并不限于这样的“词条”和“说明文”的构成要素,文档数据301也可以以各种形式具有字符串数据。另外,在上述实施方式中,文档数据301包含ー个以上的句子,跨越判定部105判定包含字符串是否跨越多个句子。这时,将句点、句号作为句子间的分隔符来进行说明。但是并不限于此,也可以将顿号、逗号、冒号、分号等作为句子间的分隔符。即,跨越判定部105也可以判定包含字符串是否跨越了这些顿号、逗号等,在跨越的情况下将预定的句子罚分与该包含字符串的候补得分相加。 另外,进而在此时也可以针对每个分隔符的种类将相加的句子罚分的值设定为不同的值。即,例如可以将在包含句点时相加的句子罚分设为比在包含顿号时相加的句子罚分大的值。这样,通过根据分隔符的种类而调整相加的句子罚分的值,使得按照更符合用户的意图的顺序输出检索結果。另外,同样,在由重叠判定部106判定为在包含字符串内多个检索词重叠时与该包含字符串的候补得分相加的重叠罚分的值也并不限于预先确定的I个值。即,例如可以将在2个检索词相互重叠2字符时相加的重叠罚分设为比在只重叠I字符时相加的重叠罚分大的值。或者,也可以将在ー个检索词完全包含另ー个检索词的时相加的重叠罚分设为在相互只重叠一部分时相加的重叠罚分大的值。列举具体的例子进行说明,在用户输入了 “about”和“out”这2个检索词的情况下,如果是包含“about”这样的字符串的包含字符串,则必然包含“out”的字符串。但是,这样的包含字符串并不包含“out”的单词,因此可以认为符合用户的意图的可能性比2个检索词相互只重叠一部分的情况更低。因此,也可以将在一方完全包含另一方时相加的重叠罚分的值设为比其他情况更大的值。这样,通过根据重叠的程度来调整相加的重叠罚分的值,能够按照更符合用户的意图的顺序输出检索結果。当然,能够提供预先具备用于实现本发明的功能的结构的检索装置,通过程序的应用,也可以使现有的个人计算机、信息終端设备等作为本发明的检索装置发挥功能。即,通过以能够由控制现有的个人计算机、信息終端设备等的CPU等执行的方式应用用于实现在上述实施方式中示例的检索装置I的各功能结构的检索程序,能够作为本发明的检索装置I来发挥功能。另外,能够使用检索装置I实施本发明的检索方法。 另外,这样的程序的应用方法是任意的,例如除了能够存储于⑶-ROM、DVD-ROM、存储卡等计算机可读的存储介质中来应用以外,例如还能够经由因特网等通信介质来应用。以上,说明了本发明的优选的实施方式,但本发明并不限于所述特定的实施方式,本发明中包含请求专利保护的范围所记载的发明和与之等同的范围。
权利要求
1.一种检索方法,其特征在于,包括以下步骤 从多个文档数据中提取出包含多个检索字符串的文档数据的提取步骤; 在上述提取出的各个文档数据中,取得包含全部上述多个检索字符串的字符串的取得步骤; 针对上述提取出的各个文档数据,根据在该文档数据中取得的字符串的字符数,设定输出优先度的设定步骤;以及 与上述设定的输出优先度对应地输出上述提取出的文档数据的输出步骤。
2.根据权利要求I所述的检索方法,其特征在于, 在上述设定步骤中, 针对上述提取出的各个文档数据,根据在该文档数据中取得的字符串的字符数中的最小字符数,设定输出优先度。
3.根据权利要求2所述的检索方法,其特征在于, 上述多个文档数据的各个文档数据包含I个以上的句子, 所述检索方法还包括判定上述取得的字符串是否跨越了多个句子的跨越判定步骤,在上述设定步骤中,针对上述提取出的各个文档数据,根据在被判定为跨越了上述多个句子的字符串的字符数上加上预定的值所得的字符数,设定输出优先度。
4.根据权利要求3所述的检索方法,其特征在于, 在上述设定步骤中,将上述预定的值设为在上述多个文档数据的任意一个文档数据中包含的句子中的字符数最大的句子的字符数以上的值。
5.根据权利要求2所述的检索方法,其特征在于, 还包括判定在上述取得的字符串中包含的多个检索字符串是否共有位于同一位置的字符的重叠判定步骤, 在上述设定步骤中,针对上述提取出的各个文档数据,根据在被判定为上述包含的多个检索字符串共有位于同一位置的字符的字符串的字符数上加上预定的值所得的字符数,设定输出优先度。
6.根据权利要求5所述的检索方法,其特征在于, 在上述设定步骤中,将上述预定的值设为在上述多个文档数据的任意一个文档数据中包含的句子中的字符数最大的句子的字符数以上的值。
7.根据权利要求2所述的检索方法,其特征在于, 在上述输出步骤中,进一步使上述设定的输出优先度相等的文档数据与第二输出优先度对应地输出上述提取出的文档数据,其中,该第二输出优先度基于该文档数据的开头字符与被用于设定该文档数据的输出优先度的字符串之间的字符数。
8.一种检索装置,其特征在于,包括 提取单元,其从多个文档数据中提取出包含多个检索字符串的文档数据; 取得单元,其在上述提取出的各个文档数据中取得包含全部上述多个检索字符串的字符串; 设定单元,其针对上述提取出的各个文档数据,根据该在文档数据中取得的字符串的字符数设定输出优先度;以及 输出单元,其与上述设定的输出优先度对应地输出上述提取出的文档数据。
9.根据权利要求8所述的检索装置,其特征在于, 上述设定单元,针对上述提取出的各个文档数据,根据在该文档数据中取得的字符串的字符数中的最小字符数,设定输出优先度。
10.根据权利要求9所述的检索装置,其特征在于, 上述多个文档数据的各个文档数据包含I个以上的句子, 所述检索装置还包括跨越判定单元,其判定上述取得的字符串是否跨越了多个句子, 上述设定单元,针对上述提取出的各个文档数据,根据在被判定为跨越了上述多个句子的字符串的字符数上加上预定的值所得的字符数,设定输出优先度。
11.根据权利要求10所述的检索装置,其特征在于,上述设定单元,将上述预定的值设为在上述多个文档数据的任意一个文档数据中包含的句子中的字符数最大的句子的字符数以上的值。
12.根据权利要求9所述的检索装置,其特征在于, 还包括重叠判定单元,其判定在上述取得的字符串中包含的多个检索字符串是否共有位于同一位置的字符, 上述设定单元,针对上述提取出的各个文档数据,根据在被判定为上述包含的多个检索字符串共有位于同一位置的字符的字符串的字符数上加上预定的值所得的字符数,设定输出优先度。
13.根据权利要求12所述的检索装置,其特征在于, 上述设定单元,将上述预定的值设为在上述多个文档数据的任意一个文档数据中包含的句子中的字符数最大的句子的字符数以上的值。
14.根据权利要求9所述的检索装置,其特征在于, 上述输出单元,进一步使上述设定的输出优先度相等的文档数据与第二输出优先度对应地输出上述提取出的文档数据,其中,该第二输出优先度基于该文档数据的开头字符与被用于设定该文档数据的输出优先度的字符串之间的字符数。
全文摘要
本发明提供一种检索方法和检索装置。检索装置(1)具备提取部(101),其从多个文档数据(文档数据群300)中提取出包含多个检索字符串的文档数据;取得部(102),其在提取出的各个文档数据中取得包含全部多个检索字符串的字符串、即包含字符串;设定部(103),其对于提取出的各个文档数据,根据在该文档数据中取得的包含字符串的字符数设定输出优先度;以及输出部(104),其与所设定的输出优先度对应地输出所提取出的文档数据。
文档编号G06F17/30GK102737103SQ20121009159
公开日2012年10月17日 申请日期2012年3月30日 优先权日2011年3月30日
发明者井手博康 申请人:卡西欧计算机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1