专利名称:数据搜索方法及设备的制作方法
技术领域:
本申请涉及数据搜索技术领域,尤其涉及一种数据搜索方法及设备。
背景技术:
基于搜索关键词进行检索,是指预先针对数据建立索引,然后再由搜索引擎服务器根据用户输入的搜索关键词(也称查询关键词,即query),从建立的索引中搜索与query相匹配的索引,并将该索引所对应的数据呈现给用户。在实际应用中,即使存在与用户欲搜索的数据相匹配的索弓丨,但由于用户输入的query具有随意性、不规范性的特性,所以可能出现虽然用户在query中表达出了欲搜索内容的含义,但由于该query不规范,导致搜索引擎仍然无法从索引中找到与该query匹配的 索引,从而最终无法搜索到相应的搜索结果。针对该情况,现有技术中有方案提出对用户输入的query进行一定处理后再进行搜索的思想。比如,目前现有技术就提供了一种在搜索前对query进行处理的方案。该方案的核心思想在于,通过利用与query所包含的某词语含义相近的且比较规范的同义词或者利用与query所包含的该词语有一定相关关系且比较规范的相关词,替换query相应的词语,或者利用一些具体的词对query所包含的一些不规范的简化词进行扩展说明,使得处理后的query能具备一定的规范性,从而搜索引擎能够搜索到与处理后的query相匹配的索引,进而得到相应的搜索结果。根据现有技术提供的上述方案可知,其是以尽可能完整准确地表达用户的意图为目的对query进行处理,然而,这样的方案在实际应用中被证明存在下述缺陷采用同义词替换的方式无法从实质上改变query的含义,因此仍然可能出现无法得到搜索结果的问题;而对query进行扩展说明的方式会导致query包含的词更多,而基于包含更多词的query进行搜索会导致更难搜索到相应的索引,从而也可能无法得到搜索结果O
发明内容
本申请实施例提供一种数据搜索方法与设备,用以解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。本申请实施例采用以下技术方案一种数据搜索方法,包括确定组成输入的搜索关键词的关键词单元;并根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;以及从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;以及根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;以及从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。可选的,从确定的搜索关键词中确定一个搜索关键词,具体包括根据预先设置的用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索关键词中各搜索关键词的得分;以及根据确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜索关键词。可选的,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合,具体包括按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则,逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识;并在每次抽取出标识且判断出相邻两次抽取出的标识相同 时,记录抽取的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合;删除记录的关键词单元组合,并记录在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合;以及重复执行上述三个步骤,直至满足抽取结束条件时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。可选的,所述抽取结束条件为所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。可选的,上述方法还包括对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录;以及所述抽取结束条件为确定记录的次数大于预定次数阈值。一种数据搜索设备,包括关键词单元确定单元,用于确定组成输入的搜索关键词的关键词单元;第一组合确定单元,用于根据预设的关键词单元组合方式,确定由关键词单元确定单元确定的关键词单元所组成的第一关键词单元组合;组合与标识确定单元,用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;第二组合确定单元,用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识,从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;第一搜索关键词确定单元,用于针对组合与标识确定单元确定的所述相匹配的关键词单元组合对应的每一标识,分别确定由第二组合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;第二搜索关键词确定单元,用于从第一搜索关键词确定单元确定的搜索关键词中确定一个搜索关键词;数据搜索单元,用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。本申请实施例的有益效果如下通过执行本申请实施例提供的方案,可以实现对组成输入的搜索关键词的关键词单元的省略,从而基于省略了关键词单元后的搜索关键词进行搜索就更容易得到搜索结果,解决可基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。
图I为本申请实施例提供的一种数据搜索方法的具体流程示意图;图2为本申请实施例中构建倒排链的具体流程示意图;图3为本申请实施例中Online计算与搜索子过程的具体实现流程示意图;图4为本申请实施例中提供的一种用于确定构成“共现关系”的key的方式的实现流程示意图;图5为本申请实施例提供的一种数据搜索设备的具体结构示意图。
具体实施方式
为了解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题,本申请实施例提供了一种数据搜索方案。该数据搜索方案的基本思路在于,通过对组成输入的搜索关键词的关键词单兀进行省略,并基于省略了关键词单兀后的搜索关键词进行搜索,从而更容易得到搜索结果。以下结合附图,对本申请实施例提供的方案进行详细说明。本申请实施例首先提供一种如图I所示的数据搜索方法,该方法的具体流程主要包括下述步骤步骤11,确定组成输入的搜索关键词的关键词单元;—般地,通过对用户输入的搜索关键词执行分词处理,就可以得到组成输入的搜索关键词的各个关键词单元。这里的关键词单元一般包括字、词或词组(词组是指由两个以上的词语组合而成的语法单位)。比如,通过对输入的一个搜索关键词“世界卫生联合组织”执行分词处理,就可以得到组成该搜索关键词的关键词单元,包括“世界”、“卫生”、“联合”、“组织”。步骤12,根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;本申请实施例中,对一个关键词单元组合中包含的关键词单元个数不做限定。比如可以为2个,也可以为3个等等。以“世界、卫生、联合、组织”这几个关键词单元为例,若预设的关键词单元组合方式为“两两组合”,那么就可以得到6个关键词单元组合,分别为“世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、“卫生+组织”、“联合+组织”。而若预设的关键词单元组合方式为“三个关键词单元组合”,那么就的可以得到4个关键词单元组合,分别为“世界+卫生+联合”、“世界+卫生+组织”、“卫生+联合+组织”、“世界+联合+组织”。步骤13,从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定与第一关键词单元组合相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;可选的,上述对应关系可以但不限于通过下述子步骤I 子步骤5确定子步骤1,获得在指定时间段内输入的多个搜索关键词;子步骤2,从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词;
由于没有对应有搜索结果的搜索关键词可以视为没有意义的搜索关键词,因此,在子步骤2中,可以只从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词进行后续处理。子步骤3,分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个数,并根据预设的关键词单元组合方式,分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合;一般地,这里所说的预设的关键词组合方式与步骤12中的关键词组合方式是相同的。子步骤4,按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式,分别为各个第一搜索关键词分配标识;子步骤5,对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含 的关键词单元组成的关键词单元组合。在实际应用中,这里所说的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识可以是根据指定的搜索关键词集合(比如用户在一天或预定时间长度内输入搜索引擎的全部搜索关键词组成的集合)来设置并对应存储的。比如,若指定的搜索关键词集合包含的搜索关键词有“卫生组织”、“世界卫生组织”、“联合国安全理事会”、“世界安全组织”、“安全理事会”,那么根据该搜索关键词集合,若关键词单元组合方式为“两两组合”,则可以确定“卫生组织”这一搜索关键词对应的关键词单元组合为“卫生+组织”;“世界卫生组织”这一搜索关键词对应的关键词单元组合为“世界+卫生”、“世界+组织”、“卫生+组织”;“联合国安全理事会”这一搜索关键词对应的关键词单元组合为“联合国+安全”、“联合国+理事会”、“安全+理事会”。依次类推,可以得到如表I所示的关键词单元组合。表I :
搜索关键词关键词单元组合
卫生组织卫生+组织
世界卫生组织世界+卫生、世界+组织、卫生+组织
联合国安全理事会联合国+安全、联合国+理事会、安全+理事会 世界安全组织世界+安全、安全+组织、世界+组织
安全理事会安全+理事会进一步地,若为搜索关键词集合中包含的搜索关键词分别分配的标识如表2所示,则关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系如表3所示。表2 搜索关键词标识
卫生组织4^
世界卫生组织I^
联合国安全理事会O^
世界安全组织2^
安全理事会3^表3
关键词单元组合标识
卫生+组织4~
世界+卫生、世界+组织、卫生+组织I^
联合国+安全、联合国+理事会、安全+理事会O~
世界+安全、安全+组织、世界+组织2^
安全+理事会3~基于表3,若当前输入的搜索关键词为“世界卫生联合组织”,那么,根据与该搜索关键词相应的关键词单元组合“世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、“卫生+组织”、“联合+组织”,就能够从表3中确定与这6个关键词单元组合之一相匹配的关键词单元组合有“世界+卫生”、“卫生+组织”、世界+组织”,其分别依次对应标识1、4、
Io步骤14,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;比如,针对确定出的关键词单元组合为“世界+卫生”、“卫生+组织”、世界+组织”,且其分别依次对应标识1、4、1的情况,就可以确定出对应于同一标识“I”的关键词单元组合为“世界+卫生”和“世界+组织”,而对应于标识“4”的关键词单元组合为“卫生+组织”。在本申请实施例中,可以通过下述几个子步骤,实现确定对应于同一标识的关键词单元组合子步骤I :按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原贝U,逐个从确定出的与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组合所对应的标识中抽取标识;其中,这里所说的抽取符合指定条件的标识可以为抽取最小的标识,也可以为抽取最大的标识。当为包含的关键字单元由多到少的搜索关键词分别对应分配由小至大的标识时,那么可以每次抽取最小的标识;反之,当为包含的关键字单元由多到少的搜索关键词分别对应分配由大至小的标识时,那么可以每次抽取最大的标识。子步骤2 :在每次抽取出标识且判断出相邻两次抽取出的标识相同时,记录抽取的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合;子步骤3 :删除记录的关键词单元组合,并记录在上述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合;子步骤4:重复依次执行上述子步骤I 3,直至满足抽取结束条件时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。采用上述子步骤I 4这样的方案确定对应于同一标识的关键词单元组合的好处在于,由于在判断出相邻两次抽取的标识不同时,在从记录的关键词单元组合中确定对应于同一标识的关键词单元组合后会删除记录的关键词单元组合,因此,可以实现利用有限 的存储空间来记录关键词单元组合,以避免需要同时对所有的关键词单元组合和对应的标识进行记录而需要较大的存储空间的问题。可选的,在抽取标识的过程中,还可以对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录,从而可以将上述抽取结束条件设置为确定记录的次数大于预定次数阈值。或者,上述抽取结束条件也可以为上述相匹配的关键词单元组合所对应的所有标识都被抽取完毕。步骤15,针对与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;比如,针对上述标识1、4,就可以确定出对应于“I”的关键词单元组合“世界+卫生”和“世界+组织”所组成的搜索关键词为“世界卫生组织”,同时确定出对应于“4”的关键词单元组合为“卫生+组织”所组成的搜索关键词为“卫生组织”。步骤16,从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。比如,针对上述确定出的两个搜索关键词“世界卫生组织”和“卫生组织”,就可以从中随机确定一个搜索关键词,或者按照本申请实施例提供的一种选取规则从中选取一个搜索关键词。本申请实施例给出的一种选取规则是根据预先设置的用于衡量关键词单元表意能力的得分数据,来实现从确定的搜索关键词中确定一个搜索关键词。需要说明的是,关键词单元的表意能力是指关键词单元对用户搜索意图的一种体现能力。可以说,一个搜索关键词对用户搜索意图的体现能力是由组成这个搜索关键词的所有关键词单元的表意能力共同支撑的。一个关键词单元的表意能力越强,则它在其所在的搜索关键词中的地位自然就越闻。一般地,关键词单兀的表意能力是与其在多个搜索关键词中出现的频率有一定关系的,因此,本申请实施例中,可以考虑根据该出现频率来确定关键词单元的表意能力,从而为其设置相应的得分数据。为关键词单元设置得分数据的一个具体的实施例将在后文进行详细说明,在此不再赘述。此外,本申请实施例给出的另一种选取规则是从确定的搜索关键词中随机选取一个搜索关键词。或者,选取规则还可以是根据确定的搜索关键词的长度(这里所说的搜索关键词的长度可以理解为搜索关键词所包含的单字的个数),选取具有最长长度的搜索关键词,即选取包含单字个数最多的搜索关键词。比较用户输入的搜索关键词“世界卫生联合组织”的长度和执行步骤16后选取出的搜索关键词“世界卫生组织”(或“卫生组织”)的长度可知,通过执行如图I所示的上述步骤,实现了对搜索关键词包含的关键词单元的省略,而本领域技术人员可以了解,根据包含关键词单元较少的搜索关键词进行搜索时,更容易搜索到相应的数据,这也是本申请实施例提供的上述方案的技术效果。以下以一个具体的实施例为例,详细说明本申请实施例提供的上述方案在实际中的应用过程。在本实施例中,对数据进行搜索的过程可以分为两个子过程。第一个子过程可以称为离线(Offline)数据挖掘子过程;第二个子过程可以称为在线(Online)计算与搜索子过程。以下分别对这两个子过程进行介绍。
Offline数据挖掘子过程该子过程主要是要完成对两个词典的挖掘,并基于挖掘得到的这两个词典,确定指定query集合中各query所包含的term的得分,并确定由term组成的term组合与相应的query的序号的对应关系。其中,这里所说的term为字、词或词组(词组是指由两个以上的词语组合而成的语法单位),而组成query的字、词和词组也可以统称为搜索关键词单
J Li ο被挖掘的第一个词典叫做term rank词典,该词典是从搜索日志(search log)中挖掘得到的。该词典记录的内容为用户历史输入的query中包含的各个term。由于query承载着用户的搜索意图,所以query必然具备一定的表意能力。一个query的表意能力由组成这个query的所有term共同支撑。可以简单认为,一个query的表意能力等于组成该query的各term的表意能力之和。其中,一个term的表意能力越强,则它在其所在的query中的地位自然就越高。本申请实施例中,可以把用于衡量term在query中的表意能力的值称为该term的termrank值,简称TR值。一般说来,如果一个term出现在一个query中的次数越多,说明这个term的表意能力越强;如果这个term又频繁的出现在其他的query中,说明这个term的表意过于通用,就会损失一部分表意能力。基于上述分析,本申请实施例提供了一种计算term的TR值的公式,该公式如下式[I]所示term_score (i) = tf (i) *idf (i) [I]其中,term_score (i)代表序号为i的term的TR值,tf (i)为序号为i的term在指定的query (比如指定query集合所含的所有query)所包含的全部term中出现的总次数,idf (i)为对指定query集合中包含的query的总个数x除以包含有序号为i的该term的query总个数y所得到的商取对数而得到的结果,即有如下式[2]所示的公式term - score{i) = tf{i) * log(-)[2]
少需要说明的是,针对某个(或某些)term,可能出现X = y的情况,那么此时有 = 0。在该情况下,可以考虑采用下述公式[3]来计算term的得分
X + Zterm _ score(i) = tf(i) * log(——)[3 ]
其中,z为大于O而小于I的一个常数,其作用在于修正x/y的值,以避免出现lo§^ = Q的情况。在计算同一指定query集合的query包含的各个term的得分时,z应该保持不变。按照上述公式计算出的TR值的特点在于具有较高的TR值的term的表意能力较强,反之,具有相对较低的TR值的term的表意能力也相对较弱。需要说明的是,在按照公式[I]对term的TR值进行计算之前,可以先对指定query集合进行处理。比如可以从该query集合中删除掉在该query集合中的出现次数小于预定出现次数阈值的query后,再针对处理后得到的query集合所对应的各个term执行上述操作。这样做的原因在于,出现次数太少的query对于计算term的TR值的贡献度较小,甚至会带来无用的噪声数据。因此,即使对该些term进行删除,也对最终计算出的TR值影响不大,甚至是有益的,而且还能提高处理效率。被挖掘的第二个词典叫做All-occurrence词典,该词典用于保存指定query集合 中的各query所包含的term组成的term组合与相应的query的序号的对应关系。其中,这里的指定query集合可以为搜索引擎在一天之内(也可以是其他时间段内)接收到的由用户输入的query组成的集合。这里的指定query集合与term rank词典中记录的query所在的query集合可以相同也可以不同。针对该指定query集合,通过执行如图2所示的下述步骤,以构建一个用于记录term组合与相应的query序号的对应关系的倒排链步骤21,从该query集合中提取出对应有相应搜索结果的query ;因为一些无法获得搜索结果的query基本是毫无意义的,因此,本实施例中着重考察能够得到搜索结果的query。步骤22,对提取出的query执行分词操作,将各个query拆分成相应的term ;比如,若提取出了多个query,分别为A、B、C、D,其中,A包含的term为(a、b),B包含的term为(a、b、c), C包含的term为(a、b、d、e), D包含的term为(a、f),那么对A、B、C、D执行分词操作后得到的相应的term分别为(a、b)、(a、b、c)、(a、b、d、e)、(a、f)。步骤23,根据各个query所包含的term,确定包含的所有term被其他任意query完全包含的query,并删除掉确定出的该query ;如,根据上述A、B、C、D所分别包含的term可知,A所包含的所有term(即a、b)就完全包含在B所包含的term(即a、b、c)中,此时就可以删掉A。或者,也可以以A所包含的所有term完全包含在C所包含的term中为依据,删掉A。这样做的原因在于,由于A所包含的所有term完全包含在B或C所包含的term中,因此,省略掉A不会影响构建关键词单元组合,而且由于要处理的query减少,还会加速关键词单元组合的构建过程。步骤24,在删除掉满足步骤23所述条件的query后,按照query所包含的term的个数由多至少的顺序,对执行步骤23后剩余的query依次进行排序,并根据query包含的term个数,为剩余的query分别分配序号;如,在删除掉A后,按照B、C、D所包含的term个数的多少对其进行排序并分配序号,可以得到C排在第一位,为其分配的序号为O ;B排在第二位,为其分配的序号为I ;D排在第三位,为其分配的序号为2。
步骤25,按照选取任意两个term进行组合的方式,分别从所述剩余的每个query
包含的term中选取term进行组合,并将所有可能得到的组合方式进行记录,其中,term组
成的组合可以称为key,而query的序号可以称为相应的key的value ;针对C、B、D这几个query,按照步骤25所述的方式,可以得到如下表4所示的记
录表4
权利要求
1.一种数据搜索方法,其特征在于,包括 确定组成输入的搜索关键词的关键词单兀;并 根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;以及 从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;以及根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;并 针对所述相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;以及 从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。
2.如权利要求I所述的方法,其特征在于,通过下述方式预先设置并存储关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系 获得在指定时间段内输入的多个搜索关键词; 从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词; 分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个数,并根据预设的关键词单元组合方式,分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合; 按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式,分别为各个第一搜索关键词分配标识;以及 对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含的关键词单元组成的关键词单元组合。
3.如权利要求I所述的方法,其特征在于,从确定的搜索关键词中确定一个搜索关键词,具体包括 根据预先设置的用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索关键词中各搜索关键词的得分;以及 根据确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜索关键词。
4.如权利要求I所述的方法,其特征在于,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合,具体包括 按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则,逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识;并 在每次抽取出标识后,判断出相邻两次抽取出的标识相同时,记录抽取的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合; 删除记录的关键词单元组合,并记录在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合;以及 重复执行上述步骤,直至满足抽取结束条件时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。
5.如权利要求4所述的方法,其特征在于,所述抽取结束条件为 所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。
6.如权利要求4所述的方法,其特征在于,还包括 对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录;以及 所述抽取结束条件为确定记录的次数大于预定次数阈值。
7.一种数据搜索设备,其特征在于,包括 关键词单元确定单元,用于确定组成输入的搜索关键词的关键词单元; 第一组合确定单元,用于根据预设的关键词单元组合方式,确定由关键词单元确定单元确定的关键词单元所组成的第一关键词单元组合; 组合与标识确定单元,用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同; 第二组合确定单元,用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识,从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合; 第一搜索关键词确定单元,用于针对组合与标识确定单元确定的所述相匹配的关键词单元组合对应的每一标识,分别确定由第二组合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词; 第二搜索关键词确定单元,用于从第一搜索关键词确定单元确定的搜索关键词中确定一个搜索关键词; 数据搜索单元,用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。
8.如权利要求7所述的设备,其特征在于,还包括用于存储关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系的存储单元;以及 所述存储单元具体包括 获得模块,用于获得在指定时间段内输入的多个搜索关键词; 第一确定模块,用于从获得模块获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词; 第二确定模块,用于分别确定第一确定模块确定的各个第一搜索关键词所包含的关键词单元以及关键词单元个数,并根据预设的关键词单元组合方式,分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合; 标识分配模块,用于按照为第二确定模块确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式,分别为第一确定模块确定的各个第一搜索关键词分配标识; 存储模块,用于对应存储标识分配模块为各第一搜索关键词分配的标识和第二确定模块确定的关键词单元组合。
9.如权利要求7所述的设备,其特征在于,所述第二搜索关键词确定单元具体包括 得分确定模块,用于根据预先设置的用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索关键词中各搜索关键词的得分; 搜索关键词确定模块,用于根据得分确定模块确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜索关键词。
10.如权利要求7所述的设备,其特征在于,所述第二组合确定单元具体包括 抽取模块,用于按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原贝U,逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识; 标识判断模块,用于在抽取模块每次抽取出标识后,判断抽取模块相邻两次抽取出的标识是否相同; 记录模块,用于在标识判断模块得到的判断结果为是时,记录抽取模块抽取的标识所对应的关键词单元组合; 确定模块,用于在标识判断模块得到的判断结果为否时,从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合; 删除与记录执行模块,用于在确定模块确定关键词单元组合后,删除记录模块记录的关键词单元组合,并将在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合记录在所述记录模块中; 抽取结束条件判断模块,用于在删除与记录执行模块将关键词单元组合记录在所述记录模块中后,判断抽取模块对标识的抽取是否满足抽取结束条件; 确定与删除执行模块,用于在抽取结束条件判断模块得到的判断结果为是时,从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录模块记录的关键词单元组合。
全文摘要
本申请公开了一种数据搜索方法及设备,以解决基于采用现有技术处理后的搜索关键词难以得到搜索结果的问题。方法包括确定组成输入的搜索关键词的关键词单元;确定由关键词单元所组成的第一关键词单元组合;从关键词单元组合与标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合对应的标识;根据所述对应的标识,从所述相匹配的关键词单元组合中确定对应同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,确定对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。
文档编号G06F17/30GK102880614SQ20111019824
公开日2013年1月16日 申请日期2011年7月15日 优先权日2011年7月15日
发明者常超 申请人:阿里巴巴集团控股有限公司