一种军事领域下的实体搜索方法与流程

文档序号:30049922发布日期:2022-05-17 14:29阅读:308来源:国知局
一种军事领域下的实体搜索方法与流程

1.本发明属于计算机自然语言处理技术领域,具体涉及一种军事领域下的实体搜索方法。


背景技术:

2.现有技术中面向传统领域的搜索主要包括新闻、自媒体等搜索领域。实体搜索与传统的新闻搜索不同,它能够帮助用户搜索更准确的实体,以提升用户体验。实体搜索在体育、娱乐、电商等常见领域中已有广泛的应用,不过却很少应用在军事领域的应用场景中。由于军事领域的数据集较少,且军事应用中同一实体存在很多不同的别称,例如:武器装备的特殊称呼(歼-8战斗机的别名有“长须鲸”)、舰的舷号(西奥多
·
罗斯福号航空母舰常用的别名有“cvn-71”)等,因此军事领域下的实体识别存在极大的挑战,实体搜索通常包含数据预处理、实体识别、实体链接、实体排序四个流程。
3.在数据预处理过程中,军事领域下的数据预处理与其他领域有着些许的不同,主要在于军事领域中实体的别名非常丰富。
4.在实体识别过程中,目前大多数实体识别采用的是深度学习或词典的方式,基于词典的方式系统的内存开销较大、维护成本较高,而基于深度学习的方式可解释性较差、硬件需求较高且计算量较大。
5.在实体链接过程中,实体指称是非常重要的概念之一,具体来说,查询中的实体指称一般具有歧义性,它可能指代多个实体,例如实体指称“苹果”,它可能指苹果(水果),也可能指苹果(公司),对于实体搜索而言,只有确定了实体指称在知识库中唯一指代的实体才能够其进行搜索。实体链接大多数定义为给定一段文本,识别出文本中的实体并将实体指称链接到知识库中对应的实体上。实体链接过程主要存在两个挑战性任务:一是同一实体指称通常可以指代多个实体,二是知识库中的实体通常具有不同的称呼,例如,西奥多
·
罗斯福号航空母舰常用的别名有“cvn-71”,“西奥多
·
罗斯福号航母”等。
6.在实体排序过程中,目前采用的算法主要包括以下两类:基于有监督的实体排序算法和基于无监督的实体排序算法。基于有监督的排序算法,需要基于大量的标签数据,大大增加了人工标注成本;基于无监督的排序算法包括word2vec、编辑距离、jaccard及bm25算法等。其中,编辑距离、jaccard及bm25算法是基于字面的实体排序算法,均未考虑文本的上下文信息,而word2vec算法克服了这一问题,从而提高了实体排序的准确度。然而,word2vec算法仅考虑了用户输入文本与知识库中实体的相似度,未考虑用户输入中关键词与知识库中实体间的联系。
7.综上所述,现有实体搜索方法存在未考虑用户关键词与知识库中实体相关性、实体链接与实体识别速度较慢等问题,导致无法保证军事领域中实体搜索结果的准确度,难以满足用户的实际需要。


技术实现要素:

8.有鉴于此,本发明提供了一种军事领域下的实体搜索方法,能够提升用户的搜索体验。
9.本发明提供的一种军事领域下的实体搜索方法,包括以下步骤:构建军事实体别名关系抽取模型,采用构建的实体别名样本集完成对军事实体别名关系的训练,其中,军事实体别名关系抽取模型用于提取出更多非文本结构中实体与别名的关系;从现有词条数据中提取实体的别名,保存实体与别名之间的实体别名对应关系,构建由文本、实体及别名构成的实体别名样本集;基于所述实体别名对应关系建立基于关系识别实体单元,基于所述军事实体别名关系抽取模型建立基于模型识别实体单元;使用中,将用户输入语句分别输入基于关系识别实体单元及基于模型识别实体单元,分别得到关系识别实体及模型识别实体;再对关系识别实体及模型识别实体进行实体融合,得到实体列表;计算实体列表中实体的实体得分,根据实体得分及语义得分计算实体最终得分,根据实体最终得分的高低对实体列表进行排序,得到实体排序列表。
10.进一步地,所述实体别名对应关系采用elasticsearch数据库存储。
11.进一步地,所述军事实体别名关系抽取模型采用bert模型和crf模型构建。
12.进一步地,所述基于关系识别实体单元,包括切词处理、实体匹配及实体确认:所述切词处理,用于将用户输入语句进行切词得到中间词语;所述实体匹配,用于根据所述中间词语在实体别名对应关系中进行匹配,得到满足要求的实体为中间实体列表;所述实体确认,用于从所述中间实体列表确认关系识别实体,包括:若所述中间实体列表中包含多个实体且实体间存在交集,则将具有最长匹配长度别名的实体加入候选实体列表中,若实体间没有交集则将中间实体列表中的全部实体加入候选实体列表中,候选实体列表中实体即为关系识别实体。
13.进一步地,所述实体确认还包括军事实体本体类链接,所述军事实体本体类链接用于确定实体所属的军事实体分类。
14.进一步地,所述实体确认还包括军事实体标签链接,所述军事实体标签链接用于为实体标记标签。
15.进一步地,所述对关系识别实体及模型识别实体进行实体融合,得到实体列表,包括:计算关系识别实体及模型识别实体之间的相似度,若两个实体的相似度大于或等于阈值则保留其中一个实体到实体列表中;若两个实体的相似度小于阈值则将这两个实体均保存到实体列表中。
16.进一步地,所述计算实体列表中实体的实体得分,根据实体得分及语义得分计算实体最终得分,根据实体最终得分的高低对实体列表进行排序,得到实体排序列表,包括:采用tf-idf算法提取用户输入语句中的关键词,得到关键词列表,计算关键词列表中关键词的关键词得分;计算用户输入语句与实体列表中实体的相似度,得到实体的word2vec得分;计算关键词列表中的关键词与实体列表中实体之间的相似度,确定出与实体最相近的相似关键词;以实体的word2vec得分与该实体的相似关键词的关键词得分的乘积作为实体得分;计算实体相关信息与用户输入语句之间的相似度,得到实体的语义得分;
以实体得分与语义得分的加权求和作为实体最终得分,按照实体最终得分由高到低的顺序对实体列表中实体进行排序,得到实体排序表。
17.进一步地,所述实体相关信息包括由实体、属性及属性值拼接形成的多个实体相关语句。
18.进一步地,所述实体相关信息包括由实体、关系及实体拼接形成的多个实体相关语句。
19.有益效果:本发明通过采用基于关系识别实体及基于模型识别实体的方式获得实体,再对实体进行融合得到实体列表,在此基础上,根据实体与用户输入语句的词向量相似度、关键词与实体的字符相似度、实体语句与用户输入语句的语义相似度计算实体列表中实体最终得分,根据实体最终得分对实体排序得到实体排序列表,能够有效解决现有军事领域搜索不精确的问题。
附图说明
20.图1 为本发明提供的一种军事领域下的实体搜索方法的处理流程示意图。
21.图2 为本发明提供的一种军事领域下的实体搜索方法中增加军事实体本体类链接的处理流程示意图。
22.图3 为本发明提供的一种军事领域下的实体搜索方法中增加军事实体标签链接的处理流程示意图。
具体实施方式
23.下面结合附图,对本发明进行详细描述。
24.本发明提供的一种军事领域下的实体搜索方法,其基本思想是:构建军事实体别名关系抽取模型,采用已经标注好的实体别名样本集完成模型的训练;从现有维基百科词条数据中使用军事实体别名关系模型提取更多实体的别名,保存实体与别名之间的实体别名对应关系,构建由文本、实体及别名构成的实体别名样本集;使用中,将用户输入语句分别输入基于关系识别实体单元及基于模型识别实体单元,分别得到关系识别实体及模型识别实体;再对关系识别实体及模型识别实体进行实体融合,得到实体列表;计算实体列表中实体的实体得分,根据实体词向量得分、关键词得分及语义得分计算实体最终得分,根据实体最终得分的高低对实体列表进行排序,得到实体排序列表。
25.本发明提供的一种军事领域下的实体搜索方法,具体流程如图1所示,具体包括以下步骤:步骤1、构建军事实体别名关系抽取模型,采用构建的实体别名样本集完成对军事实体别名关系的训练。其中,军事实体别名关系抽取模型用于提取出更多非文本结构中实体与别名的关系。从现有维基百科词条数据中提取实体的别称、简称、俗称、又称、前称、原称、又名、北约代号等词汇的别名,保存实体与别名之间的实体别名对应关系;构建由文本、实体及别名构成的实体别名样本集。
26.军事领域下的数据预处理与其他领域的不同,主要在于军事领域中实体的别名非常丰富。比如舷号cvn-76通过“结巴”分词(jieba)方法分出的词语为“cvn,-,76”,这使得
word2vec编码词语时语义遭到破坏。我们统一处理成cvn76,分词时就是一个词语,且都转成小写以减少别名的存储数量。此外,类别词能丰富实体别名,比如西奥多罗斯福航空母舰的别名为西奥多罗斯福航母,辽宁号航空母舰别名为辽宁舰。数字大小写转化也能丰富实体别名,比如95式坦克的别名为九五式坦克。军事领域中存在大量名称中带有某某式、某某号、某某型、某某级、某某系列的武器装备,这些数据均作为知识库中实体的别名。
27.进一步地,本发明采用bert模型和crf模型构建军事实体别名关系抽取模型。bert(bidirectional encoder representation from transformers)模型为预训练的语言表征模型,crf(conditional random field)模型为条件随机场的简称,crf模型为鉴别式机率模型,常用于标注或分析序列资料。
28.本发明建立的军事实体别名关系抽取模型,首先训练别名抽取服务,例如,对于文字“食虫虻又称之为盗虻,双翅目短角亚目,分布在世界各地,大约有7100种”,给该文本打上“食虫虻”、“别名”、“盗虻”的标签,然后使用bert进行模型训练,再使用该模型给非结构化文本数据进行别名提取。
29.本发明中,现有词条数据可为维基百科、百度百科等词条数据,可将实体与别名的对应关系存储于elasticsearch(es)数据库中,用于后期实体识别时的比对数据库。
30.步骤2、使用中,将用户输入语句分别输入基于关系识别实体单元及基于模型识别实体单元,分别得到关系识别实体及模型识别实体;再对关系识别实体及模型识别实体进行实体融合,得到实体列表;计算实体列表中实体的实体得分,根据实体得分及语义得分计算实体最终得分,根据实体最终得分的高低对实体列表进行排序,得到实体排序列表。
31.步骤2.1、将用户输入语句分别输入基于关系识别实体单元及基于模型识别实体单元,分别得到关系识别实体及模型识别实体。
32.其中,基于关系识别实体单元,包括切词处理、实体匹配及实体确认过程。切词处理过程,是指将用户输入语句进行切词得到中间词语;实体匹配过程,是指根据切词处理得到的中间词语在实体别名对应关系中进行匹配,得到满足要求的实体为中间实体列表;实体确认过程,是指若中间实体列表中包含多个实体且实体间存在交集,则将具有最长匹配长度别名的实体加入候选实体列表中,若实体间没有交集则将中间实体列表中的全部实体加入候选实体列表中,候选实体列表中实体即为关系识别实体。
33.基于模型识别实体单元,为将用户输入语句输入步骤1训练得到军事实体别名关系抽取模型得到的实体即为模型识别实体。
34.具体来说,在es数据库中存储知识库中的实体名和精确的别名,通过es进行实体识别,利用es强大的搜索能力极大地提高识别的速度。采用n-gram算法对用户输入的语句切词处理后用于匹配别名,穷举n-gram的所有形式,若识别到多个实体且实体间存在交集,则取匹配长度最长的别名的实体加入到候选实体列表中,同时,为了弥补知识库可能的漏识别并且实体识别更精确,本发明还采用bert+crf方式进行用户输入文本的实体识别。
35.进一步地,为了提高实体搜索的精度,本发明还增加了军事实体本体类链接以扩展实体的类别信息,处理过程如图2所示。军事实体本体类分为三层,最上层包括地区、公司、国家、基建、军兵种、其他、人物、条约、武器装备、学校、医院、战备工程、战争、政党、重大事件、组织机构、作战行动。其中,武器装备类别分为飞机、火箭、火炮、机车、舰艇等为第二层类别。飞机类别下分为客机、练习机、无人机等为第三层类别。通过这些本体类的设计,能
在实体识别之后,通过军事实体本体类链接判断实体的类别类型,缩小实体搜索范围,从而知识问答、实体搜索得以快速响应。
36.进一步地,为了在军事实体本体类链接的基础上进一步增强实体搜索精度,本发明还提出了军事实体标签链接,处理过程如图3所示。虽然军事实体本体类链接能解决大多数情况下的知识搜索和知识问答问题,但仍有缺陷,比如:用户搜索“中国现役航母”这个问题。“现役”不在本体类的设计中,知识库就难以解决,因此本发明引入实体标签链接解决该问题。通过给知识库实体中打上“现役”、“退役”等标签来增强知识问答的多样性。
37.步骤2.2、对关系识别实体及模型识别实体进行实体融合,得到实体列表。
38.本发明中,通过计算关系识别实体及模型识别实体之间的相似度,若两个实体的相似度大于或等于阈值则认为这两个实体为同一实体,仅保留关系识别实体到实体列表中;若两个实体的相似度小于阈值则认为这两个实体不同,将这两个实体均保存到实体列表中。
39.具体来说,可采用word2vec算法分别对关系识别实体及模型识别实体进行编码,再使用余弦相似度计算两个实体编码间的相似度。此外,当两个实体相同时,可选择将关系识别实体保留到实体列表中。
40.步骤2.3、计算实体列表中实体的实体得分,根据实体得分的高低对实体列表进行排序,得到实体排序列表。
41.s231、提取用户输入语句中的关键词,得到关键词列表,计算关键词列表中关键词的关键词得分。
42.具体来说,可采用tf-idf算法提取用户输入语句中的动词、名词、英语、数词、量词、时间词、形容词、名词的词性作为关键词,并计算关键词的关键词得分,即关键词tfidf得分。关键词tfidf得分为关键词tf得分与idf得分的乘积,tf(term frequency)为词频,idf(inverse document frequency)为反文档频率。
43.s232、计算用户输入语句与实体列表中实体的相似度,得到实体的word2vec得分。具体来说,本发明采用word2vec模型对用户输入语句与实体列表中实体同时进行编码,再使用余弦相似度算法计算实体与用户输入语句之间的相似度,将该相似度记作实体的word2vec得分。
44.s233、计算关键词列表中的关键词与实体列表中实体之间的相似度,确定出与实体最相近的相似关键词。
45.本发明中采用编辑距离算法计算关键词与实体的相似度,对于某个实体选取相似度大于或等于阈值的关键词作为最相近的关键词,若存在多个关键词的相似度均大于或等于阈值则选取其中相似度阈值最高的作为最相近的相似关键词;若所有关键词的相似度均小于阈值则说明该实体不存在最相近的相似关键词。其中,上述阈值可设定为0.6。
46.s234、计算实体列表中实体的实体得分。
47.其中,实体得分为实体的word2vec得分与该实体的相似关键词得分的乘积,若实体不存在相似关键词则实体得分为实体的word2vec得分。
48.s235、通过计算实体相关信息与用户输入语句之间的相似度,得到实体的语义得分,根据实体得分及语义得分计算实体最终得分。
49.确定实体列表中实体相关的属性和关系,将实体、属性及属性值拼接为多个实体
相关语句,采用bert模型分别对实体相关语句及用户输入语句进行编码,再计算编码的余弦相似度,选取其中的最大值作为实体的语义得分。其中,实体相关语句也可由实体、关系、实体拼接形成。
50.实体最终得分为实体得分与语义得分的加权求和。
51.s236、按照实体最终得分由高到低的顺序对实体列表中实体进行排序,得到实体排序表。
52.整体来看,在实体识别过程中为提升搜索速度、提高负载能力,本发明使用elasticsearch(es)分布式搜索引擎技术存储知识库中的实体、唯一的id、以及id所对应的别名。用户输入语句通过n-gram算法进行切词,穷举n-gram的所有形式以匹配es中所有实体和别名。若识别到多个实体且实体间有交集,取匹配长度最长的别名的实体加入到候选实体列表,实体间没有交集均加入候选实体列表,没有识别到实体则不加入候选实体列表中。为弥补知识库中数据不足导致的漏识别实体及搜索实体不精确,本发明同时采用bert+crf的方式进行实体识别,对实体进行打标,然后再融合实体。
53.军事实体链接的设计特别适应于军事领域下的实体搜索以及下游任务。军事实体别名链接简单易用,知识库中实体与别名建立对应关系,为后续实体搜索、知识问答等下游任务提供知识库中的标签和实体类型数据,因此军事领域下的实体链接能有效解决军事搜索下的实体搜索。实体链接,首先训练别名抽取模型,再使用该模型给非结构化文本数据进行别名提取。最后计算该实体或者别名与库里的实体和别名的相似度,若实体或者别名与知识库里的实体相似度大于某一阈值,则认为是同一实体,将实体名称、别名赋值给当前实体,否则新建实体。
54.本发明中不仅考虑用户输入语句与实体的相似度,还考虑用户输入语句中关键词与实体间的联系,从而提升实体排序的准确率。
55.综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1