专利名称:一种属性搜索方法
技术领域:
本专利申请公开一种信息技术领域的信息检索技术,特别是对检索目标的相关属性进行检索的方法。
背景技术:
商业化的搜索引擎能够对很多文字信息进行检索,但是限于对自然语言理解过程的处理能力,目前的商业化搜索引擎都只是停留在文字符号层面,即使是有一些经过语义处理的检索过程,都只是进行简单的语义转化后的关联搜索。比如你想搜索去年6月份上映的电影,输入的关键词不一定能够被搜索引擎识别和重构为其搜索语义的场景,时间不是被翻译为2010年6月1日到6月30日,而是翻译为几个符号后,再进行相关的检索和归并。而如果你想检索某个论坛板块的很活跃的用户,可能出来的并不是你想要的东西。假设你在检索你的本地邮件或者TOB邮件,你想在你众多的邮件里面找到一个附件大于IM的邮件,或者附件中含有某种类型的文件,或者检索附件数量大于某一个数字的邮件,或者其他可以用检索目标的属性来描述的东西,比如发给某个目标客户的邮件,出现在“密送”或者“抄送”里的某个客户等等,这些属性带有某种使用者的行为特征,而你作为使用者对这些行为特征可能比关键词特征更熟悉或更容易记住。而常规的商业化搜索引擎提供的检索能力都不足以描述这些行为,只支持字符匹配而不是语义匹配。比如你在在检索你的聊天信息的时候,可能会搜索聊天信息里面的时间段,没有搜索引擎的话你只能手动上下翻页,但是搜索引擎如果没有对聊天内容清单里面的各种时间信息进行特别处理的话,也无法检索昨天早上的聊天内容之类的模糊检索。因此能够支持待检索目标的相关属性检索,能够解决一部分语义检索的问题,还能够解决一部分行为检索的问题。一般的商业化搜索引擎会对收集到的数据进行解析、过滤、净文本信息提取等预处理,再对净文本建立索引以供检索。净文本和索引都会保存在本地或者分布式的系统上, 当用户进行关键词检索的时候,搜索引擎会在索引中对关键词进行检索,返回含有该检索操作中关键词的净文本内容及相关的URI。
发明内容
本专利申请中的搜索引擎在进行预处理的时候,会对收集到的数据的相关属性进行详细的提取,比如该数据的出现时间、有关联的各种对象等属性信息。对于论坛的帖子, 会对帖子正文内容和标题进行提取外,还会对帖子的出现时间、浏览量、跟帖数、活跃用户等进行提取;对于新闻、博客、微博、视频等也做类似的处理,视频虽然不能对视频内容作检索,但是可以预处理视频的标题和评论等内容;在处理邮件的时候,对邮件的发信时间、 收信时间、发件人、抄送人、密送人、收件人、附件的数量、附件的文件名/大小、属于垃圾邮件、伪造邮件等信息进行提取;对聊天的各个帐号、内容/出现时间、群的名称等进行提取, 等等。凡是可以用来进行属性检索和行为特征描述的各种属性信息都将其提取出来。然后
3提取净文本。在完成预处理后,按照正常建立索引的过程对净文本进行处理。然后将净文本附加前面提取的各种属性,以特殊的词汇分隔以便于净文本与属性的分离;然后再按照常规净文本的保存方法保存到本地或者分布式系统里,索引则按照常规索引的保存方法保持到本地或者分布式系统里。在用户进行关键词检索的时候,设置了属性检索条件以后,搜索引擎会对索引中的关键词进行检索,在返回含有该检索操作中关键词的净文本内容及相关的URI前,先对净文本后面依附的属性进行加载和判断,符合全部属性检索条件的再返回其净文本内容和 URI,实现属性检索和行为检索的目标。或者简要地说,通过对待检索的目标进行充分的属性提取后,将其与待检索目标的净文本混合,存放在系统的存储中。在检索关键词并命中净文本+属性以后,对命中的净文本的属性进行加载和判断,只返回满足所有属性检索条件的净文本的URI及包含关键词位置信息的净文本。对检索结果如返回的URI和文本信息等的改变均不构成对本申请中方案的核心内容的实质性改变。对属性内容、提取方法或者属性条件判断方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本、属性、索引文件的存放方法/加载方法,以及净文本与属性的混合、分离、属性加载等方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本与属性进行分开存放、同步加载的方法,其本质上还是与本方法的上作原理一致,还导致了两次10,性能可能会下降,不构成对本申请中方案的核心内容的实质性改变。
附图1为建立索引和检索过程示意图。
具体实施例方式如图1所示,本申请的属性检索过程如下步骤1 本专利申请的系统方案中,系统在接收各种原始文档后,完成净文本的提取和各种属性的提取,分别生成净文本和属性集;净文本一份送到索引引擎建立索引,一份送到合并引擎;净文本和属性集以特殊词汇分隔后混合,然后存储在本地或者分布式存储里,其位置和编号代表了净文本和属性集的位置;索引也存放在本地或者分布式存储里。步骤2 本专利申请的系统方案中,系统在进行检索前先加载索引,完成关键词的检索,得到净文本+属性集,然后根据分隔词汇来分离并加载属性,对各个属性对照属性检索条件进行是否符合属性检索条件的判断;如果该净文本的属性集符合所有属性检索条件的要求则根据净文本的位置和编号生成URI,对关键词位置进行标识后,作出属性检索命中的响应,然后处理下一条命中的净文本,直到该检索关键词的所有命中的净文本都处理完成后,系统返回检索结果,完成该次带属性检索的关键词检索。本技术方案能够为细分的搜索引擎市场如web网站提供待检索目标如邮件、论坛、聊天室的快速属性检索功能,甚至能够在某些业务场景下提供行为检索的功能,极大地方便了用户,扩充了常规搜索引擎的应用范围,为搜索引擎走向商业细分市场提供了非常有特色的技术支撑。
权利要求
1.一种属性搜索方法,其特征在于通过对待检索的目标进行充分的属性提取后,将其与待检索目标的净文本混合,存放在系统的存储中。
2.一种属性搜索方法,其特征在于在检索关键词并命中净文本+属性以后,对命中的净文本的属性进行加载和判断,只返回满足所有属性检索条件的净文本的URI及包含关键词位置信息的净文本。
全文摘要
本发明申请公开信息技术领域的一种属性搜索方法,其在对原始待检索目标的净文本建立索引的同时,充分提取原始待检索目标的属性信息,并将净文本和提取的属性信息合并后存放;在进行检索的时候,对关键词命中的净文本+属性信息中的属性进行加载和判断,只返回符合所有属性检索条件的检索目标,从而实现属性检索和行为检索的功能。本发明申请能够在一些细分的搜索引擎应用场景中提供属性检索和行为检索的能力,实现部分语义检索能力。
文档编号G06F17/30GK102411630SQ201110433468
公开日2012年4月11日 申请日期2011年12月22日 优先权日2011年12月22日
发明者史波良, 宋波, 汤鲲 申请人:南京烽火星空通信发展有限公司