内容检索设备和方法

文档序号:6468725阅读:191来源:国知局
专利名称:内容检索设备和方法
技术领域
本发明涉及一种内容检索设备和内容检索方法,用来基于任意 输入的搜索关键词,从存储海量内容的数据库中检索到诸如图像文件 或音乐数据文件之类的期望的内容。
背景技术
近年来,通过互联网之类的通信网络,公开了存储诸如文本数 据、图像数据、和音乐数据之类的各种内容的数据库,因此,用户可 以通过操作连接到通信网络的个人计算机或移动终端在数据库上登 记一些内容,或者在数据库上搜索喜欢的内容并下载这些内容。
作为从数据库检索期望内容的方法,常用的是"基于关键词搜 索"。这是一种输入与期望的内容有一定相关性的一个或多个关键词 来査找包含或涉及所输入的一个或多个关键词的那些内容的方法。由 于不必对数据库中的内容进行分类,基于关键词的搜索简化了数据库 的管理,改善了从数据库获得大量内容的有效性。
在大量内容存储在数据库中的情况下,当采用某个关键词时经 常出现该关键词命中的内容数量过于庞大以至于用户不能容易地找 到他们想要的内容的情况。所谓的减小搜索范围是已知的一种用来解 决这个问题的方案,其中,通过输入另一个关键词来精选第一个关键 词所命中的内容,并通过输入其他的关键词一步步地进行精选。
由于要求用户考虑输入的关键词来减小搜素范围,如果输入的 关键词不相关,则不能充分地精选出内容,或者,可能错误地删除掉 一些相关的内容。为了解决这个问题,例如在日本专利申请
2003-108594中提出了支持用户搜索的现有技术。在这项现有技术 中,记录了用以前的关键词减小搜索范围的历史,以便从以前的关键 词中检索出与新输入的关键词具有相关性的那些关键词,并提供给用
5户。
不过,根据通常的搜索技术,搜索结果会根据所有用户的搜索 历史以及当前用户的搜索历史而变化,因此,当进行搜索时,搜索结 果受到时间趋势、周期或季节的影响。这意味着,会非常频繁地命中 这些明确地反映时间趋势的内容。例如,对于一个基于关键词"富士 山"的搜索,如果在夏天执行搜索,搜索结果会包括大量的还涉及"爬 山"的那些内容。相反,如果在冬天用关键词"富士山"进行搜索, 就很少会检索到与"爬山"也相关的那些内容。
如果用户希望得到与时间一致的或反映时间趋势的那些内容, 得到这些搜索结果是没有问题的。不过,如果用户希望得到与所输入 关键词的基本信息相关的那些内容,由于时间趋势对搜索结果的影 响,在通常的搜索方法中很难检索到期望的内容。

发明内容
考虑到上述问题,本发明的基本目的是提供一种内容检索设备 和一种内容检索方法,其允许用户从搜索结果中消除时间趋势的影 响,而当考虑时间趋势的影响时也可以检索到合适的内容。
在一种基于输入的搜索关键词从数据库中检索某些内容的内容 检索设备中,所述数据库存储了多种内容,这些内容具有附接到其上 的各自的关键词,本发明包括关键词际相关性计算器、基本相关性计 算器、内容提取装置、判定装置和输出装置,其中,所述关键词际相 关性计算器以固定的时间间隔对附接到存储在数据库中的内容上的 每个关键词对之间的关键词际相关性进行计算,用来产生关于每个关 键词对的关键词际相关性的时间序列数据;所述基本相关性计算器通 过对关于搜索关键词和特定关键词之间的关键词际相关性的时间序 列数据进行平滑处理,来计算特定关键词对搜索关键词的基本相关 性;所述内容提取装置基于搜索关键词从所述数据库中提取至少一个 内容;所述判定装置基于搜索关键词和附接到所提取的内容上的关键 词之间的基本相关性,对所提取的内容是否应当包括在搜索结果中进 行判定;所述输出装置用来输出搜索结果。优选地,基本相关性计算器通过移动平均对关于关键词际相关 性的时间序列数据进行平滑处理。
基于附接到同一内容的那些关键词彼此之间具有一定相关性的 假设,关键词际相关性计算器计算每一对关键词之间的相关性。
优选地,内容检索设备还包括总相关性计算器,所述总相关性 计算器用来计算当多个关键词附接到内容时内容对搜索关键词的总 相关性,所述总相关性计算器通过对搜索关键词和附接到内容的各个 关键词之间的基本相关性进行平均来计算总相关性。
优选地,所述结果判定装置判定总相关性大于预定值的那些内 容被包括在搜索结果中。
内容提取装置优选地从数据库中提取附接有搜索关键词的那些 内容,基本相关性计算器计算相对于所提取的内容的基本相关性。
一种基于输入的搜索关键词从数据库检索某些内容的内容检索 方法,其中,数据库存储了多种内容,这些内容附接有各自的关键词, 所述内容检索方法包括下列步骤
以固定的时间间隔对附接到存储在数据库中的内容上的每个关 键词对之间的关键词际相关性进行计算,来产生关于每个关键词对的 关键词际相关性的时间序列数据;通过对关于搜索关键词和特定关键 词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定 关键词对搜索关键词的基本相关性;基于搜索关键词从数据库提取至 少一个内容;基于搜索关键词和附接所提取的内容上的关键词之间的 基本相关性,对所提取的内容是否应该被包含在搜索结果中进行判 定;以及输出搜索结果。
由于基于基本相关性确定了每个内容对搜索关键词的相关性,
基本相关性是通过对时间序列数据进行平滑而计算得到的,从而很少 受到时间趋势的影响,本发明的内容检索设备和方法允许用户从检索 结果中消除时间趋势的影响,而在考虑时间趋势影响时能够检索到合 适的内容。


7当结合附图来理解下文对优选实施例的详细说明时,本发明的 上述和其他目的和优势将变得更加明显,其中,相同的参考标号表示 这些视图中的相同或对应的部件,其中
图1是图示了一种用于从服务器检索图像数据的网络系统的示
意图2是图示了所述网络系统的客户端终端的内部架构的功能框
图3是图示了所述服务器的内部架构的功能框图4是将图像文件和它们各自的关键词关联起来的数据表;
图5是图示了附接有关键词的图像的示例示意图6是图示了关于关键词际相关性的时间序列数据和平滑处理
后的时间序列数据的图7是示出了搜索关键词和附接到图5的图像的其他关键词之
间的基本相关性和临时相关性的示例的表;
图8是图示了所述客户端终端中的处理序列的流程图; 图9是图示了服务器中的处理序列的流程图io是图示了显示在客户端终端的监视器上的搜索命令屏的示
例的示意图ll是图示了显示在客户端终端的监视器上的搜索结果显示屏 的示例的示意图12是图示了显示在客户端终端的监视器上的搜索命令屏的变
化的示意图13是图示了显示在客户端终端的监视器上的搜索结果显示屏 的变化的示意图;以及
图14是示出了另一个示例的表,其中,向附接到一个图像的各 个关键词分配了加权系数。
具体实施例方式
在图1中,通过安装一个记录在记录介质中的程序,在服务器 11中合并了作为本发明实施例的内容检索设备。下文的说明是基于检索出图像数据作为内容的例子。下文中,将图像数据简称为图像。
服务器11通过通信网络12连接至客户端终端13,组成了网络 系统14。每个客户端终端13由公知的个人计算机组成,个人计算机 上设有用来显示各种操作屏幕的监视器15以及包括鼠标16和键盘 17的操作装置18。通过键盘17输入用于图像检索的搜索关键词。
客户端终端13获取通过数码相机19捕捉的图像或记录在诸如 存储卡或CD-R之类的记录介质20上的图像。这些图像具有各自的附 接为标签的关键词。当这些图像被输入客户端终端13时,通过操作 操作装置18将标签附接到每个图像上。
数码相机19通过USB (universal serial bus,通用串行总线)电缆 之类的通信电缆或无线LAN之类的无线连接连接至客户端终端13, 于是数码相机19可以与客户端终端13互换数据。
参照示出了客户端终端13的功能框图的图2, CPU 21根据通过 操作设备18输入的操作信号等控制客户端终端13的所有操作。数据 总线22将CPU 21连接至RAM 23、硬盘驱动器(hard disc drive, HDD) 24和通信接口 (I/F) 25以及监视器15和操作设备18。
RAM 23是CPU 21执行各种处理的工作存储器。HDD 24存储用 于客户端终端13的工作的各种程序和数据以及从数码相机19和记录 介质20获取的图像。CPU 21从HDD 24读出程序,并在RAM 23中展 开(develop)以基于该程序执行处理。
通信接口 25控制适用于通信网络12的通信协议,并通过通信 网络12居中进行数据交换。通信接口 25还在客户端终端13与诸如 数码相机19和记录介质20之类的外部装置之间居中进行数据交换。
参照示出了服务器11的功能框图的图3, CPU 26根据通过通信 网络12用客户端终端13输入的操作信号来控制服务器11的所有操 作。CPU 26通过数据总线27连接至RAM 28、 HDD 29、通信接口 (I/F) 30、定时器31和相关性计算器35,该相关性计算器35由关键词际 相关性计算器32、基本相关性计算器33和总相关性计算器34组成。
RAM 28是CPU 26执行各种处理的工作存储器。HDD 29存储用 于服务器11的工作的各种程序和数据。CPU 26从HDD 29中读出程序,并在RAM 28中展开(develop)以基于该程序执行处理。注意, 相关性计算器35是由存储在RAM 28中的程序组成的功能块。
通信接口 30控制适用于通信网络12的通信协议,并通过通信 网络12居中进行数据交换。通过通信接口 30获取的数据临时存储在 RAM 28中。如果获取了图像数据,则将它存储在HDD 29中。
在HDD 29中合并了图像数据库(DB) 36和关键词信息管理器 37。图像数据库36存储通过通信网络12获取的图像和彼此关联地附 接到图像的那些关键词。如图4所示,以数据表的形式将这些图像和 关键词彼此关联。注意,可以将添加的关键词附接到存储在图像DB36 中的任何图像上,或者可以从存储在图像DB36中的任何图像上删除 附接的关键词。
图5示出了存储在图像DB 36中的图像P1以及附接到这个图像 Pl的关键词的示例。图像P1是富士山的照片,因此,四个关键词KA1 "富士山"、KA2 "爬山、KA3 "火山"和KA4 "山中湖"与这个图像 Pl关联。
关键词信息管理器37存储如下信息的时间序列数据,这些信息 示出了附接到登记在图像DB36中的同一图像的两个关键词之间的相 关程度。由关键词际相关性计算器32获取关键词之间的相关程度。 基于附接到同一图像的关键词彼此之间具有一些关系的假设,关键词 际相关性计算器32查询附接到每个图像的关键词,并计算附接到同 一图像的每对关键词之间的相关程度。这意味着,随着图像数据库 36中附接了这两个关键词的图像的数量的增大,两个关键词之间的 关键词际相关性Rt变大。然后,关键词际相关性计算器32将计算出 的关键词际相关性组织起来,在关键词信息管理器37中建立词典。
如图6所示,基于定时器31计算的时间,CPU26周期性地(例 如一天一次)激活关键词际相关性计算器32,来周期性地修改或重 构词典,并获取每个关键词对之间的相关性的时间序列数据Dl。时 间序列数据Dl以时间序列方式示出了时间"t"处的关键词际相关性 Rt。关键词际相关性Rt示出了关键词对之间(例如,"富士山"和 "爬山")在特定时刻的相关程度。如果两个关键词之间的关键词际相关性Rt在执行搜索时很高,这意味着在这个时刻,大量的附接有
这两个关键词的图像被存储在图像数据库36中。
当CPU 26从客户端终端13接收到搜索命令时,CPU 26在图像 服务器36中搜索那些与在客户端终端13上输入的关键词(下文称为 搜索关键词)相关的图像。然后,CPU26激活数据总线22和RAM 23, 来执行范围縮小的搜索,精选出提取的图像。因此,CPU 26起内容 提取装置的作用。基本相关性计算器33对时间序列数据Dl进行滤波 处理或平滑处理,以计算单个关键词与搜索关键词的基本相关性,其 中时间序列数据Dl与输入的搜索关键词与附接到所提取图像的其他 任何关键词之间的相关性Rt有关。基本相关性Mt被表示为如图6 所示的平滑处理后的时间序列数据D2,表示关键词对之间的相关性 的基本程度,这种基本程度很少受到时间趋势的影响。
具体来讲,利用一种叫做移动平均的方法,计算正好在特定时 间"t"之前的一段时期T (例如,三十天)中所获得的关键词际相 关性Rt的平均值,来获取特定时间"t"的基本相关性Mt。假定"N" 和"ERt"分别表示在时期T内获得的关键词相关性Rt的个数和总 和,则可以将基本相关性Mt表示为公式Mt=ERt/N。由于滤波之前 的相关性Rt取决于时间,对照基本相关性Mt,将Rt值称为"临时 相关性"。
总相关性计算器34计算每个提取出的图像对搜索关键词的总相 关性St。基于搜索关键词和附接到所提取图像的其他关键词之间的 基本相关性Mt或临时相关性Rt,总相关性计算器34计算总相关性 St。在开始搜索时可以在客户端终端13上指定是使用基本相关性Mt 还是使用临时相关性Rt来计算总相关性St。
根据本实施例,总相关性计算器34将每个图像的总相关性St 计算为基本相关性Mt的平均值AMt或临时相关性Rt的平均值ARt。 具体来讲,在输入"富士山"作为搜索关键词以及提取了上述图像 Pl的情况下,搜索关键词"富士山"KA1和其他关键词KA2 KA4之 间的基本相关性Mt或临时相关性Rt可以如图7所示。在这种情况下, AMt= (15+5+10) /3=10,而ARt= (80+5+5) /3=30。也就是说,由于对搜索关键词"富士山"的相关性随时间变化非常大的关键词"爬山" 的影响,在这种情况下,这个图像P1对搜索关键词"富士山"的总 相关性St在它基于瞬时相关性时要大于它基于基本相关性时。
CPU 26对每个提取出的图像的总相关性St与预定值进行比较, 并通过通信网络12将那些总相关性St大于预定值的图像的信息发送 到客户端终端13。在客户端终端13的监视器15上显示这些图像的 信息作为搜索结果,这些信息包括它们的图像数据和文件名称。
现在将说明具有上述结构的网络系统14的操作。图8示出了客 户端终端13的处理序列。在第一个步骤S10中,将数码相机19或记 录介质20连接至客户端终端13,客户端终端13检査存储在外部装 置19或20中的图像是否已经被输入客户端终端13。当完成获得这 些图像时,在下一个步骤S11中,客户端终端13检査是否通过操作 装置18向这些图像附接了任何关键词。当己经有一些关键词被附接 到了该图像或这些图像,在步骤S12中通过通信网络12将这些具有 关键词的图像发送到服务器11。还可以在等待用户发送这些图像的 命令之后,响应于这个命令发送这些图像。服务器ll接收到的图像 被存储在HDD 29中的图像数据库36中。
当在步骤S12中己经从客户端终端13将图像发送到了服务器11 时,序列回到步骤SIO。如果判定在步骤S10中没有输入任何图像, 客户端终端13检查是否己经进行了用于从服务器11的图像DB 36 中检索一些图像的搜索操作。如图10所示,在看到显示在监视器15 上的搜索命令屏40时,通过操作装置18可以进行搜索操作。在搜索 命令屏40上显示了用于输入搜索关键词的关键词输入框41、用于在 基于基本相关性的搜索和基于临时相关性的搜索之间进行择一选择 的单选按钮42、以及执行搜索处理的开始搜索按钮43。下文将要详 细说明的是,基本相关性搜索是基于较少受到时间趋势影响的基本相 关性Mt,而临时相关性搜索是基于受时间趋势影响的临时相关性Rt。
当在步骤S13中给出了搜索命令时,在步骤S14中,客户端终 端13向服务器11发送搜索命令数据,搜索命令数据包括搜索关键词 和关于在基本相关性搜索和临时相关性搜索之间选择的信息。响应于搜索命令数据,服务器11执行下文中说明的图像检索处理。在接下 来的步骤S15中,客户端终端13检查它是否从服务器11接收了作为 搜索结果的诸如被检索到的图像的图像数据和文件名称之类的任何
图像信息。当接收到图像信息时,在步骤S16中,客户端终端13根 据图像信息在监视器15上显示搜索结果。在结束了步骤S16之后, 序列返回步骤SIO。
图9示出了服务器11中的处理序列。在第一个步骤S20中,关 键词际相关性计算器32查询附接到存储在图像DB 36中的各个图像 的各个关键词,计算附接到同一图像的每对关键词之间的临时相关性 Rt。以图5中的图像P1为例,关键词际相关性计算器32为诸如"富 士山"和"爬山"、"爬山"和"火山"等等之类的每对关键词记"1"。 如果关键词对"富士山"和"爬山"被附接到了存储在图像DB 36 中的图像中的另一个图像,关键词际相关性计算器32就为这个关键 词对计数加一,因此,"富士山"和"爬山"之间的临时相关性Rt 变为"2"。以相同的方式,为在搜索时间"t"时存储在图像DB36 中的图像的所有关键词的每个关键词对计算临时相关性Rt。
在步骤S20之后,服务器11检查它是否接收到了客户端终端13 在步骤S14发送的搜索命令数据。在步骤S22中判定已经过去了一个 预定时间(例如,24小时)之前,会一直重复进行步骤S21。当在步 骤S22中判定已经过去了预定的时间,服务器11回到步骤S20来计 算关键词之间的相关性。这样,以预定的时间间隔重复步骤S20,如 图6所示,从而提供了以时间序列方式示出关键词际相关性的时间序 列数据Dl。
当在步骤S21中判定客户端终端13从服务器11接收了搜索命 令信息时,序列进行到下一个步骤S23,其中,CPU26从存储在图像 DB 36中的图像中提取那些附接了搜索关键词的图像,这些搜索关键 词是作为搜索命令信息而被接收的。例如,当搜索关键词是"富士山" 时,提取如图6所示的那些图像。
当步骤S23完成时,在步骤S24中根据搜索命令信息判定选择 了基本相关性搜索或临时相关性搜索中的哪一个。当选择了基本相关性时,序列进行到步骤S25,其中,基本相关性计算器33计算搜索 关键词和附接到在步骤S23中所提取的图像的其他关键词之间的基 本相关性Mt。也就是说,对表示其他关键词相对于搜索关键词的临 时相关性Rt的时间序列数据Dl进行滤波处理或平滑处理,以得到它 们之间的基本相关性Mt。如图6所示的例子,通过时间序列数据D1 的移动平均,获得作为平滑处理后的时间序列数据D2的基本相关性 Mt。在图像P1的情况下,如图7所示,计算在搜索时间"t"时对搜 索关键词的基本相关性Mt。如果选择了基于临时相关性的搜索,跳 过步骤S25,序列从步骤S24进入步骤S26。
在步骤S26,总相关性计算器34根据基本相关性Mt或临时相关 性Rt,计算所提取的图像对搜索关键词的总相关性St。也就是说, 当选择了基于基本相关性的搜索时,总相关性计算器34将每个图像 的总相关性St计算为搜索关键词和附接到该图像的其他关键词之间 的基本相关性Mt的平均值AMt。而当选择了基于临时相关性的搜索 时,总相关性计算器34将总相关性St计算为搜索关键词和附接到该 图像的其他关键词之间的临时相关性Rt的平均值ARt。如图7所示 的例子,基本相关性搜索的总相关性St=AMt= (15+5 + 10) /3=10,临 时相关性搜索的总相关性St=ARt: (80+5+5) /3二30。
在接下来的步骤S27中,CPU 26将每个图像的总相关性St和预 定的阈值进行比较,并只整理出总相关性St大于阈值的那些图像。 然后,向客户端终端13发送关于整理出的图像的信息,因此,客户 端终端13将接收到的关于检索到的图像的信息作为搜索结果显示在 监视器15上(步骤S16)。
对于图像P1,由于它的另一个关键词"爬山",它对搜索关键 词"富士山"的相关程度在夏季变得很高,因此,当对图像搜索选择 了基于临时相关性的搜索时,在夏天命中这个图像Pl的可能性更高。 相反,通过基于基本相关性的检索,在夏天命中这个图像Pl的可能 性就相对较低。这意味着,如果希望从搜索结果中减少时间的影响, 用户应当选择基本相关性搜索。那么,当去除了那种必定受到时间趋 势影响的图像时,用户更可能获得期望的图像。
14在上述实施例中,在预定的时间周期内,通过对关键词际相关
性计算器32所计算的相关性Rt进行移动平均的平滑处理来计算基本 相关性Mt。移动平均的周期还可以由用户在客户端终端13上指定。 从而,用户可以调整平滑处理的程度,即,从搜索结果中减小时间影 响的程度。
移动平均之外的其他类型的平滑处理也可以用于计算基本相关 性Mt。例如,诸如傅立叶变换之类的频率分析也是有用的。还可以 使用低通滤波来获得相关性Rt的最经常出现的值,作为基本相关性 (恒定值)Mt。当然,还可以允许用户在客户端终端13上输入计算
周期作为可替换的方法。
虽然在上述实施例中将关键词际相关性计算器32计算出的值直 接用作临时相关性Rt,但也可以通过对时间序列数据Dl进行比应用 于基本相关性Mt的周期较短的周期的平滑处理来计算临时相关性 Rt。还可以从关键词际相关性计算器32计算出的值中减去基本相关 性Mt,来计算出临时相关性Rt。
虽然上述实施例根据基本相关性Mt或临时相关性Rt计算总相 关性St,也可以基于基本相关性Mt和临时相关性Rt,采用系数a (0 《a《1) : St=aMt+ (l-a) Rt来计算总相关性St。例如,对于基于 基本相关性的检索,a=0.9,而对于基于临时相关性的检索,a=0.1。 系数a可以由用户在客户端终端13上指定。
在上述实施例中,总相关性St大于阈值的那些图像的信息作为 搜索结果被发送到客户端终端13。不过,可以发送预定数量的图像 的信息,这些图像对搜索关键词的总相关性St位于顶部。用户在客 户端终端13上指定总相关性的阈值或检索到的图像的数量作为检索 标准也是可行的。
在上述实施例中,用户在基于基本相关性的搜索和基于临时相 关性的搜索之间进行二择一的选择。除此之外,本发明还可以构造为 用户同时执行基于基本相关性的搜索和基于临时相关性的搜索。在这 种情况下,在客户端终端13上彼此区别地显示这两种类型的搜索的 各自结果。例如,如图11所示,搜索结果显示屏50被分成显示区域52和显示区域54,显示区域52用于通过基于基本相关性搜索所检索 到的图像51,显示区域54用于通过基于临时相关性搜索所检索到的 图像53。在各个显示区域52和54中,优选地以总相关性从高到低 的序列放置这些图像。但是,如果基于基本相关性搜索的结果与基于 临时相关性搜索的结果中包含相同的图像,考虑到它的总相关性St, 只在显示区域52或54中的一个显示区域中显示该图像。
在上述实施例中,从图像DB 36中提取附接了用户所输入的搜 索关键词的那些图像,然后,基于提取出的图像的其他关键词相对于 输入的搜索关键词的相关性,进行范围縮小的搜索。此外,在基于嵌 入在关键词信息管理器37中的词典,计算搜索关键词和每个图像的 单个关键词或代表性关键词之间的相关性时,可以对图像DB 36中 的每个图像计算其对输入的搜索关键词的相关性(总相关性St), 以便检索与搜索关键词高度相关的那些图像。由于这种采用词典的搜 索处理将那些没有附接输入的搜索关键词的图像覆盖为搜索目标,可 以获得所谓的模糊搜索。
虽然上述实施例只是输入了一个词作为关键词,还可以采用多 个关键词作为搜索关键词来进行搜索处理。在这种情况下,从图像 DB36中提取附接了那些搜索关键词的图像,基于提取出的图像的其 他关键词对各个搜索关键词的相关性,进行范围縮小的搜索。为了进 行上述的采用了词典的模糊搜索,基于各个搜索关键词和图像DB 36 中的图像的单个关键词或代表性关键词之间的相关性进行搜索处理。
在搜索处理采用了多个关键词的情况下,计算每个图像的所有关键词 相对各个搜索关键词的相关性(基本相关性Mt和临时相关性Rt)的 平均值,以计算每个图像的总相关性St。
在上述实施例中,通过键盘17输入文本搜索关键词。除此之外, 可以在列表上显示多个关键词,以便用户通过从这些显示的关键词中 选择一个关键词来指定搜索关键词。
还可以通过指定多个备选图像中的一个来输入搜索关键词,其 中,每个备选图像都附接有一个或多个关键词。如图12所示,虽然 没有设置用来在基于基本相关性的搜索和基于临时相关性的搜索之间进行选择的任何单选按钮,搜索命令屏60设置有图像显示区域62, 用来显示备选图像61和开始搜索按钮63。用户通过鼠标指针64选 择一个显示的图像61,并点击开始搜索按钮63,从而输入了一个搜 索命令。在这种情况下,附接到被选图像61的一个或多个关键词被 用作用来从图像DB 36中检索图像的一个或多个搜索关键词。在这 个实施例中,搜索命令屏60和操作装置18起搜索命令输入装置的作 用。
图13示出了在本实施例中采用图像作为搜索关键字的搜索结果 显示屏的示例。搜索结果显示屏幕70具有图像显示区域71,图像显 示区域71显示在搜索命令屏60上被指定为搜索关键字图像61、作 为搜索结果的图像72、 73、 74和75。在图像显示区域71的中间显 示图像61,在图像61的上边沿显示对图像61具有很高的基本相关 性Mt的那些图像72和73,而在图像61的下边沿显示对图像61具 有很高的临时相关性Rt的那些图像74和75。为了使图像74和75 与图像72和73区分,对图像74和75加了实线框。为了一组一组地 区分搜索结果,可以采用对显示区域分区、使图像框的颜色和大小不 同、添加索引或标号或任何其他合适的方法。
在上述实施例中,通过分别对特定图像的单个关键词的基本相 关性Mt和临时相关性Rt求平均,计算特定图像对搜索关键词的基 本相关性AMt和临时相关性ARt。如果对附接到特定图像的关键词 进行彼此不同的加权,优选通过对应加权平均的方法来计算这些ARt 和AMt值。例如,如果用图14所示的方法,用不同的加权系数W 对图7所示的各个关键词进行加权,则可以用下式计算AMt和ARt 值
AMt= ( 15X70+5X20+10X 10) /100=12.5 ARt= (80x70+5x20+5x10) /100=57.5
虽然上述实施例涉及了作为内容或搜索目标的图像,但这些内 容不限于图像还可以是电影数据、音乐数据、文本数据、计算机软件、 网页和这些内容的复杂混合。附接到各个内容上的关键词不限于字母 或字符,还可以由代码、数字等表示。虽然,因为附接到同一内容的那些关键词是彼此相关的,上述 实施例计算了关键词际相关性,如果同时输入多个关键词作为搜索关 键词,由于同时输入的这些关键词是彼此相关的,也可以计算关键词 际相关性。
因此,本发明不限于上述实施例,相反在不脱离所附的权利要 求的范围的情况下可以做出各种修改。
权利要求
1. 一种内容检索设备,其基于输入的搜索关键词从数据库中检索某些内容,其中,所述数据库存储了多种内容,这些内容附接有它们各自的关键词,所述内容检索设备包括关键词际相关性计算器,其以固定的时间间隔对附接于存储在所述数据库中的内容上的每个关键词对之间的关键词际相关性进行计算,用来产生关于每个关键词对的关键词际相关性的时间序列数据;基本相关性计算器,其通过对关于搜索关键词和所述特定关键词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定关键词对所述搜索关键词的基本相关性;内容提取装置,其用来基于所述搜索关键词从所述数据库中提取至少一个内容;判定装置,其用来对关于所提取的内容是否应当包括在搜索结果中进行判定,所述判定装置基于所述搜索关键词和附接于所提取的内容上的关键词之间的基本相关性进行判断;以及输出装置,其用来输出所述搜索结果。
2. 根据权利要求1所述的内容检索设备,其中,所述关键词际 相关性计算器基于附接于同一内容的关键词彼此具有一定相关性的 假设来计算每个关键词对之间的相关性。
3. 根据权利要求1所述的内容检索设备,其中,所述基本相关 性计算器通过移动平均对关于所述关键词际相关性的时间序列数据进行平滑处理。
4. 根据权利要求l所述的内容检索设备,其还包括总相关性计 算器,所述总相关性计算器用来在多个关键词附接于内容时计算内容 对所述搜索关键词的总相关性,所述总相关性计算器通过对搜索关键词和各个附接于所述内容的关键词之间的基本相关性进行平均来计 算总相关性,其中,所述结果判定装置根据所提取的内容的总相关性 对所提取的内容进行判定。
5. 根据权利要求4所述的内容检索设备,其中,所述结果判定装置判定总相关性大于预定值的内容被包括在搜索结果中。
6. 根据权利要求l所述的内容检索设备,其中,所述内容提取 装置从所述数据库中提取那些附接有所述搜索关键词的内容,所述基 本相关性计算器计算关于所提取的内容的基本相关性。
7. 根据权利要求1所述的内容检索设备,其还包括搜索命令输 入装置,其允许在多个内容中指定一个内容,并输入附接于所指定内 容的关键词作为搜索关键词。
8. 根据权利要求1所述的内容检索设备,其中,所述内容是图像。
9. 一种基于输入的搜索关键词从数据库检索某些内容的内容检 索方法,其中,所述数据库存储了多种内容,这些内容附接有它们各 自的关键词,所述内容检索方法包括下列步骤以固定的时间间隔对附接于存储在所述数据库中的内容上的每 个关键词对之间的关键词际相关性进行计算,来产生关于每个关键词 对的关键词际相关性的时间序列数据;通过对关于搜索关键词和特定关键词之间的关键词际相关性的 时间序列数据进行平滑处理,来计算特定关键词对搜索关键词的基本 相关性;基于搜索关键词从数据库提取至少一个内容; 基于搜索关键词和附接于所提取的内容上的关键词之间的基本 相关性,对提取出的内容是否应该被包含在搜索结果中进行判定;以及输出搜索结果。
10. 根据权利要求9所述的内容检索方法,还包括下列步骤 当多个关键词附接于所述提取的内容时,计算所提取的内容对搜索关键词的总相关性;通过对所述搜索关键词和附接于所提取的内容的各个关键词之 间的基本相关性进行平均来计算总相关性,其中,在所述判定步骤中, 根据所提取的内容的总相关性对所述提取出的内容进行判定。
11. 根据权利要求io所述的内容检索方法,其中,通过对附接于所提取的内容上的关键词的基本相关性进行加权平均来计算总相 关性。
全文摘要
图像数据库存储多种图像数据作为内容,对每个图像附接了至少一个关键词。以固定时间间隔计算存储在图像数据库中的图像的每个关键词对之间的相关程度,来产生每对的关键词际相关性的时间序列数据。当输入了搜索关键词时,通过对搜索关键词和附接到基于搜索关键词而提取出的图像上的关键词之间的关键词际相关性的时间序列数据进行平滑处理来计算基本相关性。如果所提取的图像被附接了其他的关键词,通过对所提取的图像的各个关键词对搜索关键词的基本相关性进行平均,计算所提取的图像的总相关性。在很多所提取的图像中,输出对搜索关键词具有较高相关性的那些图像作为搜索结果。
文档编号G06F17/30GK101464883SQ20081018610
公开日2009年6月24日 申请日期2008年12月17日 优先权日2007年12月17日
发明者宫本健太郎, 松井优子 申请人:富士胶片株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1