一种基于自然语言的信息检索方法

文档序号:9579392阅读:561来源:国知局
一种基于自然语言的信息检索方法
【技术领域】
[0001]本发明涉及自然语言处理,特别涉及一种自然语言检索方法。
【背景技术】
[0002]关键词语义近似性的研究在文本搜索应用中都是一个重要的问题。例如主题检测、推荐查询等。近年来随着网络的快速发展,在许多基于金融领域的Web相关任务中关键词语义近似性的计算也越来越重要。现有金融相关搜索引擎都提供一系列相关词来帮助用户找到最想要的结果,从而改善用户的搜索体验和检索效率。在金融信息领域,关键词语义近似性的计算也起着重要的作用。然而现有的基于Web的关键词语义近似性的计算方法没有考虑到搜索引擎反馈的结果中存在干扰和重复。干扰的来源主要是关键词随机地出现在一些文档中,这将会降低文档搜索数量的准确度。很多重复出现的文档使得搜索结果数量不可信。

【发明内容】

[0003]为解决上述现有技术所存在的问题,本发明提出了一种基于自然语言的信息检索方法,包括:
[0004]对用户输入的多个关键词分别进行检索,利用检索结果命中的文档数量来计算关键词之间的语义近似性。
[0005]优选地,使用以下公式计算关键词之间的语义近似性:
[0006]S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N
[0007]其中Sim(a,b)表示用户输入的不同关键词a,b之间的语义近似性度量;N是搜索引擎中的文档数量,符号N(X)表示用搜索引擎检索关键词X的返回检索文档数;a n b为关键词a和b的与操作结果,即N(a H b)表示检索“a AND b”的文档数。
[0008]优选地,在计算关键词之间的语义近似性的过程中,还包括:
[0009]在关键词a和b的与操作的检索结果中,将关键词a和b在同一个语句中共同出现的检索结果分段表示为语义分段,并计算所述语义分段在前η个分段中的比例,记为K (a n b),其中η为预设分段数;利用N(a H b)*K(a Π b)计算关键词之间的近似性:
[0010]SimK (a,b) = N (a 门 b) *K (a 门 b) / (N (a) +N (b) -N (a Π b) *K (a 门 b))
[0011]+N(a Π b)*K(a Π b) (min(N(a),N(b)))
[0012]+log ((N*N (a n b) *K (a n b)) / ((N (a) *N (b)))/log N ;
[0013]其中SimK(a,b)表示用户输入的不同关键词a,b之间基于语义分段信息的语义近似性度量。
[0014]优选地,还包括:
[0015]预设前η个分段中语义分段的比例阈值β,
[0016]当K(a Π b) < β 时,Sim (a, b) = O ;
[0017]当K(a Π b) < β 时,Sim (a, b)=
[0018]N (a η b)*R(a Π b)*K(a Π b) / (N (a) *R (a)+N (b) *R (b) _N (a Π b)*R(a Π b)*K(a
n b)
[0019]+N (a n b) *R (a Π b) *K (a Π b) (min (N (a) *R (a),N (b) *R (b)))
[0020]+log ((N*N (a Π b) *R (a n b) *K (a n b)) / ((N (a) *R (a) *N (b) *R (b)))/1gN ;
[0021]其中R(a)、R(b)和R(a n b)分别为检索关键词a、b、“a AND b”时的重复结果数量。
[0022]本发明相比现有技术,具有以下优点:
[0023]本发明提出了一种自然语言检索方法,不需要人工干预;而且易于应用到金融信息检索相关的工作中,提高检索扩展任务的准确度。
【附图说明】
[0024]图1是根据本发明实施例的基于自然语言的信息检索方法的流程图。
【具体实施方式】
[0025]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明、但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定、并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节、并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0026]本发明的一方面提供了一种基于自然语言的信息检索方法。图1是根据本发明实施例的基于自然语言的信息检索方法流程图。本发明通过融合检索文档数量和检索结果分段来计算关键词之间的语义近似性。本发明提出的方法不需要人工干预;而且易于被应用到如检索建议等与网络相关的工作中。利用关键词共同出现在同一句中来去除干扰,利用搜索引擎的重复结果数来去除重复,能够有效地计算词语间的近似性。同时,所提出的方法可以提高检索扩展任务的准确度。
[0027]本发明的检索文档数是指包含检索关键词b的文档数量。在本发明的剩余部分,将使用符号N(b)表示用搜索引擎检索关键词b的返回检索文档数。然而,词语a和b的单独的检索文档数不足以计算其语义近似性,还应该加入检索“a AND b”的检索文档数。
[0028]具体地,在本发明中使用以下方法计算关键词语义近似性、具体公式如下。
[0029]S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N
[0030]其中N是搜索引擎中的文档数量。
[0031]使用检索文档数计算语义近似性忽略了网络数据中存在的干扰和重复。因此需要进一步减少两个关键词随机出现以及文档也存在大量的重复的情况,以提高语义近似性计算的准确度。因此基于检索文档数的关键词语义近似性计算方法中的N(a H b)部分需要进行修正。搜索引擎返回搜索结果时也会返回检索结果分段、这些分段通常是不超过30个词的短小的文本、这些文本提供了非常重要的语义信息。
[0032]将词语a和b在同一个语句中共同出现的检索结果分段表示为语义分段。分段中以句号为结尾的称之为一个语句。语义分段提供了词语a和b之间的有用的语义关系。因此语义分段可以用来判断两个关键词是否随机地出现在文本文档中。
[0033]搜索引擎提供了每个结果的链接,由于文档数量巨大、而且增长速度快,因此对每个搜索结果进行直接的分析是非常困难的。搜索引擎提供了一个去除重复结果的功能。当用搜索引擎搜索时,为了使结果的相关度高,搜索引擎省略了一些非常相似的搜索结果。搜索引擎的重复结果数量可以用来去除重复。
[0034]本发明进一步通过融合检索文档数、语义分段和重复结果数量来计算关键词语义近似性。
[0035]方式1:关键词间的语义相似程度是由检索文档数和语义分段决定的。主要步骤如下:
[0036]I)在搜索引擎中分别搜索“a”、“b”、“a AND b” ;
[0037]2)得到 N (a)、N(b)和 N(a 门 b);
[0038]3)在“a AND b”的结果中,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1