专利名称:使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序的制作方法
技术领域:
本发明涉及搜索技术,更具体地涉及使用了公开的搜索引擎的搜索装置、搜索方 法以及搜索程序。
背景技术:
现在,在因特网上公开了用于搜索网页的各种搜索引擎,谁都可以利用。但是如果 使用公开的搜索引擎对秘密信息(专利信息、新产品的开发信息、技术窍门(know-how)、个 人信息等)进行搜索,则担心根据在该搜索查询中包含的关键字来推测秘密信息。为了解决这样的问题,(日本)特开平11-259512号公报(专利文献1)公开了如 下的数据搜索系统,该数据搜索系统将输入到数据搜索装置的搜索条件的全部或者一部分 作为机密信息对数据搜索装置设为隐藏或者不鲜明而进行搜索,并由数据搜索装置缩窄该 搜索结果。该系统为了将搜索条件设为隐藏或者不鲜明,从输入的全部的搜索条件删除预 先注册的应隐藏的搜索条件,将输入的搜索条件置换成类似词或者上位概念词,对输入的 搜索条件附加多余的搜索条件,或者将输入的搜索条件分割成多个搜索词。但是,由于该系统如上所述地改变搜索条件,因此存在只能取得很少的必要信息 或者取得很多不需要的信息的问题。(日本)特开2002-297606号公报(专利文献2)公开了能够在隐藏用户想要设为 机密的搜索条件的状态下利用信息提供服务的数据库接入系统。客户机计算机将对包含在 搜索条件的应隐匿的数据项目进行了加密的加密询问发送到服务器计算机,服务器计算机 不对加密了的搜索条件进行解密,而一边与上述隐匿数据项目同样地对成为搜索对象的数 据进行加密,一边通过加密数据匹配进行数据搜索。但是,该系统只不过通过进行加密将搜索条件的组合方法(AND、OR、NOT等)设为 秘密。此外,存在加密以及该数据匹配的处理负担增大的问题。除了上述之外,提出了如下的搜索方法。“秘密信息恢复(PIR =Private Information Retrieval),,存在服务器拥有N比特的数据,并且客户机不对服务器通知而取得N比特中的一 个比特的问题,但该问题的简单的解决方法是服务器将所有N比特发送到客户机。但是,从 90年代已具有在多个服务器的存在和计算复杂性的前提下不发送所有比特而能够解决的 研究结果。这些是数学性的基础理论,还没有达到实用(参照http://WWW. cs. umd. edu/ gasarch/papers/pirsurvey. pdf ( __专禾1J文献 1))。“遗忘传递(0T =Oblivious Transfer) ”在PIR的情况下,客户机可能得到自身所希望的信息以外的信息,但在OT的设定 中除了满足MR之外,设计客户机不会得到自身所希望的数据以外的信息的协议。此外,在 OT的情况下没有通信量的限制。OT与出现在非专利文献1的对称(Symmetric)PIR相同。 这些也是理论,几乎没有安装例。
“ WiJltII^Wfrii^ (New techniques for private stream searching)"该方法中,通过在服务器侧利用用户的公开密钥对查询进行加密,同时也对索引 进行加密,从而能够不对服务器侧公开信息而得到搜索结果。但是,在该方法中由于需要 服务器侧的安装,因此无法应用通常利用的搜索服务器(参照http://acsc. csl. sri. com/ privss/(非专利文献2))。现有技术文献专利文献专利文献1 (日本)特开平11-259512号公报专利文献2 (日本)特开2002-297606号公报非专利文献__专禾1J文献 1 :http://www. cs. umd. edu/ gasarch/papers/pirsurvey. pdf非专禾丨J文献 2 :http://acsc. csl. sri. com/privss/
发明内容
发明要解决的课题本发明的目的在于,提供秘密信息不被推测而能够有效地取得必要的信息的、使 用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序。用于解决课题的手段本发明的搜索装置包括搜索词输入部件,接受由三个以上的字符构成的期望的 搜索词的输入;正当字符串生成部件,从在搜索词输入部件中输入的搜索词提取连续的两 个以上的任意字符,并生成各自由该提取出的字符构成的多个正当字符串;噪声词选择部 件,作为噪声词选择任意的单词;噪声字符串生成部件,从由噪声词选择部件选择的噪声词 提取连续的两个以上的任意字符,并生成由该提取出的字符构成的噪声字符串;查询生成 部件,组合由正当字符串生成部件生成的正当字符串和由噪声字符串生成部件生成的噪声 字符串,从而生成查询;外部搜索部件,将由查询生成部件生成的查询发送到搜索引擎;内 部搜索部件,对响应于来自外部搜索部件的查询而从搜索引擎返回的搜索结果使用在搜索 词输入部件中输入的搜索词进行再次搜索;以及搜索结果显示部件,显示内部搜索部件的 搜索结果。发明的效果根据本发明,由于组合从搜索词提取的正当字符串和从噪声词提取出的噪声字符 串而生成查询,并发送到搜索引擎,因此根据搜索词不会推测出秘密信息而能够有效地取 得必要的信息。优选为,搜索装置还包括一般词搜索部件,将一般的单词作为查询发送到搜索引 擎;以及词典生成部件,从响应于来自一般词搜索部件的查询而从上述搜索引擎返回的搜 索结果提取单词从而生成词典。噪声词选择部件从由词典生成部件生成的词典作为噪声词 选择任意的单词。这时,由于生成适合于搜索引擎的词典,因此根据噪声词的搜索的匹配(hit)数 目增加,因此搜索词的隐匿性变高。优先为,正当字符串生成部件随着在搜索词输入部件中输入的搜索词的字符数目变多,增加应生成的正当文字串的数目。这时,虽然搜索词的隐匿性变低,但搜索精度变高。优先为,噪声字符串生成部件生成噪声字符串直到其数目超过规定的阈值为止。这时,虽然搜索精度变低,但搜索词的隐匿性变高。优选为,噪声词选择部件选择噪声词直到其数目超过规定的阈值为止。这时,虽然搜索精度变低,但搜索词的隐匿性变高。本发明也提供在如上所述的搜索装置中执行的搜索方法以及搜索程序。
图1是表示本发明的实施方式的搜索装置的结构的功能方框图。图2是表示图1所示的搜索装置内的搜索程序的流程图。图3是用于说明图1所示的搜索装置的动作的图。图4是表示图2中的查询生成的子程序的流程图。
具体实施例方式以下,参照附图详细地说明本发明的实施方式。对图中相同或者相当的部分附加 相同的标号,不重复其说明。 参照图1,本发明的实施方式的搜索装置10包括CPU (中央运算处理装置)11、存 储器12、硬盘13、通信装置14、输入装置15、以及显示器16。通信装置14将搜索装置10连 接到因特网20,将各种请求发送到搜索引擎21 23,并且接收来自搜索引擎21 23的各 种响应。输入装置15为键盘、鼠标等。通过将后述的搜索程序安装到个人计算机(PC)从 而构筑搜索装置10。搜索程序被固定到CD-ROM等存储介质而被提供,或者从服务器经由因 特网20被下载。各种运营商在连接到因特网20的WWW (World Wide W^eb,万维网)服务器上构筑搜 索引擎21 23,并免费或者收费地向公共提供网页搜索服务。搜索引擎21 23响应于来 自连接到因特网20的不特定的多个客户机的搜索请求(查询)而返回搜索结果。搜索装 置10也作为一个客户机,使用如此的公开了的搜索引擎21 23进行搜索。这里所使用的 搜索引擎21 23全部采用N革兰(N-gram)法。以下,说明搜索装置10的动作。CPUll执行图2所示的搜索程序。参照图2和图3,搜索装置10接受期望的搜索词的输入(Si)。具体地,在显示于 显示器16上的画面上,用户对输入装置15进行操作,输入与要搜索的信息相关联的一个或 者两个以上的搜索词30。各搜索词30由三个以上的字符构成。在图3所示的例子中,作为 搜索词30输入“gene,,。用户若从搜索引擎21 23之中选择使用于搜索的期望的搜索引擎(以下,以选 择了搜索引擎21的情况为例进行说明),则搜索装置10对是否已经生成所选择的搜索引擎 21专用的词典32进行判断(S2)。在还没有生成词典32的情况下(S2中否),搜索装置10将一般的单词作为查询发 送到搜索引擎21(S3)。作为一般的单词,预先准备10个左右的“have”、“get”等单词。这 些单词一个一个作为查询发送到搜索引擎21。
接着,搜索装置10从响应于查询从搜索引擎21返回的搜索结果提取单词从而生 成搜索引擎专用的词典32 (S4)。在将10个单词一个一个作为查询的情况下,从搜索引擎 21返回10个搜索结果。每个搜索结果包含用于确定匹配的一个或者两个以上的网页所需 的数据(例如网页的URL (Uniform Resource Locator,统一资源定位器)、标题(title)、所 提取的文本的一部分)。作为查询而发送的单词是一般的,因此搜索结果包含作为索引储 存在搜索引擎21的几乎所有网页。因此,词典32是能够由搜索引擎21搜索的网页的单词 集。另外,从相同的搜索引擎21得到不同的搜索结果时,如果追加包含在其中的新单词,则 能够更新词典32。接着,搜索装置10基于在步骤Sl中输入的搜索词30以及在步骤S4中生成的词 典32中的单词,生成应发送到搜索引擎21的一个或者两个以上的查询(S5)。具体地参照图4,从步骤Sl中输入的搜索词30提取连续的两个以上的任意字符, 生成多个正当字符串34(S51)。各正当文字串34由提取的两个以上的字符构成。在搜索词 30的字符数目小于12个的情况下(S52中是),直到生成两个正当字符串34为止重复执行 步骤S51 S52 (S53中否)。另一方面,在搜索词30的字符数目为12个以上的情况下(S52 中否),直到生成三个正当字符串;34为止重复执行步骤S51 S52(S54中否)。在图3所示的例子中,从搜索词“gene”提取正当字符串“gen”和“ene”。各正当 字符串34由三个字符构成。若增大各正当字符串34的字符数目,则搜索精度变高,但搜索 词30的隐匿性变低。若增大正当字符串34的数目,则搜索精度变高,但搜索词30的隐匿 性变低。另外,在输入了多个搜索词30的情况下,生成多个正当文字串34使得尽量包含所 有搜索词30的字符。在搜索词30的数目多的情况下,预先决定要生成的正当字符串34的 最大数目,生成正当字符串34使得不超过该数目。此外,从词典32之中作为噪声词36选择一个以上的任意单词(S55)。接着,从噪 声词36提取连续的两个以上的任意字符,生成一个以上的噪声字符串38(S56)。各噪声字 符串38由提取的两个以上的字符构成。直到所生成的噪声字符串38的数目超过规定的阈 值(例如为正当字符串34的数目的两倍)为止重复执行步骤S56(S57中否)。此外,作为 噪声词36而选择的单词的数目超过规定的阈值(例如为搜索词30的单词数目的三倍)为 止重复执行步骤S55 S57 (S58中否)。在图3所示的例子中,从噪声词“algorithm”提取噪声字符串“ori”、“rit”以及 “thm”,从噪声词“hello”提取噪声字符串“hel”以及“Ho”。与正当字符串34相同,各噪 声字符串38由三个字符构成。另外,优选为选择与搜索词30不同的噪声词36,但也可以选择与搜索词30相同的 噪声词36。在所生成的噪声字符串38的数目超过规定的阈值、而且所选择的单词的数目超 过规定的阈值的情况下(S57中是、且S58中是),组合在步骤S51中生成的正当字符串34与 在步骤S56中生成的噪声字符串38从而生成一个以上的查询(S59)。各查询优选为由正当 字符串34与噪声字符串38的逻辑“与” (AND)构成,但也可以由逻辑“或” (OR)、“非” (NOT) 或者这些组合构成。再次参照图2,搜索装置10将在步骤S5中生成的各查询发送到搜索引擎21 (S6)。搜索引擎21响应于各查询而将搜索结果40返回到搜索装置10。搜索引擎21预先通过N 革兰法对因特网20上的多个网(web)42编索引,生成索引(未图示)。基于这些索引生成 搜索结果40。接着,搜索装置10对响应于各查询而从搜索引擎21返回的搜索结果40使用在步 骤Sl中输入的搜索词30进行再次搜索,从而生成最终搜索结果44 (S7)。从搜索引擎21返 回的搜索结果40全部临时保存于搜索装置10内的硬盘13中,因此再次搜索完全地在本地 执行。具体地,使用搜索词30筛选各搜索结果40,从搜索结果排除若将主查询原样发送到 搜索引擎的话不匹配的无关的网页。然后,对排除了无关的网页的多个搜索结果进行合并。最后,搜索装置10将在步骤S7中生成的最终搜索结果44显示在显示器16。在用 户看到最终搜索结果44而判断为不充分的情况下,也可以从步骤S59改变正当文字串34 和噪声文字串38的组合而再次执行。如以上那样,根据本发明的实施方式,组合从搜索词30提取的正当字符串34与从 噪声词36提取的噪声字符串38而生成查询,并发送到搜索引擎21,因此根据搜索词30不 会推测出秘密信息而能够有效地取得必要的信息。即,多个正当字符串34和多个噪声字符 串38包含在查询中,因此即使在搜索引擎21侧想要组合正当字符串34和噪声字符串38 而复原搜索词30,也会因组合数目爆炸性地庞大从而几乎不可能推测搜索词30。此外,由于生成适合于搜索引擎21的词典32,因此根据噪声词36的搜索的匹配数 目增加,搜索词30的隐匿性变高。此外,搜索词30的字符数目越多越增加应生成的正当字 符串34的数目,使得搜索词30的字符数目小于12的情况下生成两个正当字符串34,并且 搜索词30的字符数目为12以上的情况下生成三个正当字符串34,因此虽然搜索词30的隐 匿性变低,但搜索精度变高。此外,生成噪声字符串38直到其数目超过规定的阈值为止,因 此虽然搜索精度变低,但搜索词30的隐匿性变高。此外,选择噪声词36直到其数目超过规 定的阈值为止,因此虽然搜索精度变低,但搜索词的隐匿性变高。上述实施方式虽然在搜索词30的字符数目小于12的情况下生成两个正当字符串 34,在搜索词30的字符数目为12以上的情况下生成三个正当字符串34,但作为阈值而设定 的搜索词30的字符数目没有特别限定,此外所生成的正当字符串34的数目也没有特别限 定。此外,不限定于以一个等级改变要生成的正当字符串34的数目,也可以以多个等级改 变。总之,优选为搜索词30的字符数目越多越增加应生成的正当字符串34的数目。此外,上述实施方式使用适合于搜索引擎21的词典32,但也可以取而代之使用预 先准备的一般的词典。这时,虽然搜索词30的隐匿性变低,但不需要词典32的生成处理。以上说明了本发明的实施方式,但上述的实施方式只不过是用于实施本发明的例 示。因此,本发明不限定于上述的实施方式,在不脱离其宗旨的范围内可以对上述的实施方 式适当地进行变形而实施。标号说明10搜索装置15输入装置16显示器20因特网21 23搜索引擎
30搜索词
32词典
34正当文字串
36噪声词
38噪声文字串
40搜索结果
44最终搜索结果
权利要求
1.一种搜索装置,使用了公开的搜索引擎,其特征在于,包括搜索词输入部件,接受由三个以上的字符构成的期望的搜索词的输入; 正当字符串生成部件,从在所述搜索词输入部件中输入的搜索词提取连续的两个以上 的任意字符,并生成各自由该提取出的字符构成的多个正当字符串; 噪声词选择部件,选择任意的单词作为噪声词;噪声字符串生成部件,从由所述噪声词选择部件选择的噪声词提取连续的两个以上的 任意字符,并生成由该提取出的字符构成的噪声字符串;查询生成部件,组合由所述正当字符串生成部件生成的正当字符串和由所述噪声字符 串生成部件生成的噪声字符串,从而生成查询;外部搜索部件,将由所述查询生成部件生成的查询发送到所述搜索引擎; 内部搜索部件,对响应于来自所述外部搜索部件的查询而从所述搜索引擎返回的搜索 结果使用在所述搜索词输入部件中输入的搜索词进行再次搜索;以及 搜索结果显示部件,显示所述内部搜索部件的搜索结果。
2.如权利要求1所述的搜索装置,其特征在于,还包括一般词搜索部件,将一般的单词作为查询发送到所述搜索引擎;以及 词典生成部件,从响应于来自所述一般词搜索部件的查询而从所述搜索引擎返回的搜 索结果提取单词,从而生成词典,所述噪声词选择部件从由所述词典生成部件生成的词典选择任意的单词作为所述噪 声词。
3.如权利要求1所述的搜索装置,其特征在于,所述正当字符串生成部件随着在所述搜索词输入部件中输入的搜索词的字符数目变 多,增加应生成的正当文字串的数目。
4.如权利要求1所述的搜索装置,其特征在于,所述噪声字符串生成部件生成所述噪声字符串直到其数目超过规定的阈值为止。
5.如权利要求1所述的搜索装置,其特征在于,所述噪声词选择部件选择所述噪声词直到其数目超过规定的阈值为止。
6.一种搜索方法,使用了公开的搜索引擎,其特征在于,包括 接受由三个以上的字符构成的期望的搜索词的输入的步骤;从所述输入的搜索词提取连续的两个以上的任意字符,并生成各自由该提取出的字符 构成的多个正当字符串的步骤;选择任意的单词作为噪声词的步骤;从所述选择的噪声词提取连续的两个以上的任意字符,并生成由该提取出的字符构成 的噪声字符串的步骤;组合所述生成的正当字符串和所述生成的噪声字符串,从而生成查询的步骤; 将所述生成的查询发送到所述搜索引擎的步骤;对响应于所述查询而从所述搜索引擎返回的搜索结果使用所述输入的搜索词进行再 次搜索的步骤;以及显示根据所述再次搜索的搜索结果的步骤。
7.一种搜索程序,其中,该搜索程序用于使计算机执行权利要求6所述的各步骤。
全文摘要
本发明提供了秘密信息不被推测而能够有效地取得必要的信息的、使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序。接受由三个以上的字符构成的期望的搜索词(30)的输入,从搜索词(30)提取连续的两个以上的任意的字符,并生成各自由提取出的字符构成的多个正当字符串(34)。另一方面,从适合于要使用的搜索引擎的词典(32)作为噪声词(36)选择任意的单词,从噪声词(36)提取连续的两个以上的任意的字符,并生成由提取出的字符构成的噪声字符串(38)。组合正当字符串(34)与噪声字符串(38)从而生成查询,并发送到搜索引擎。对响应于查询而从搜索引擎返回的搜索结果(40)使用搜索词(30)进行再次搜索,并显示该最终搜索结果(44)。
文档编号G06F17/30GK102132274SQ200980132922
公开日2011年7月20日 申请日期2009年8月11日 优先权日2008年8月26日
发明者增野成章, 川中真耶, 松本吉高, 滨野泰男 申请人:国际商业机器公司