本说明书涉及自然语言处理,更具体地说,本申请涉及一种领域短语抽取方法及一种领域短语抽取装置。
背景技术:
1、领域短语是指在特定领域中具有特定领域相关性的短语。领域短语的提取可以帮助人们更好地理解和处理特定领域的文本,提高领域专业化应用的效果。通过抽取出领域短语,人们可以更准确地理解和处理该领域的文本,并提供更专业化的服务和应用。
2、但是,目前领域短语抽取方法需要大量的数据以及大量的时间进行模型训练,非常的费时费力,且由于数据时常更新到导致抽取的领域短语存在不可信的问题,所以如何提供一种高效、可信的领域短语抽取方法是目前急需解决的技术难题。
技术实现思路
1、在
技术实现要素:
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本申请的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
2、为了解决现有技术中领域抽取短语费事费力的技术难题,第一方面,本申请提出一种领域短语抽取方法,包括:
3、从与特定领域相关的文本序列中筛选出候选领域短语;
4、基于短语置信度指标、句法重要性指标和主题相关性指标对所述候选领域短语进行评分;
5、基于评分高低对所有候选领域短语进行排序,并基于所述特定领域的短语标准从排序后的候选领域短语中抽取出目标领域短语。
6、可选的,所述从与特定领域相关的文本序列中筛选出候选领域短语,包括:
7、将所述文本序列进行分词处理,形成多个词语;
8、对每个词语标注各自的词性;
9、基于词语自身的词性,利用词性组合的方式将一个或多个词语组合成所述候选领域短语。
10、可选的,所述从与特定领域相关的文本序列中筛选出候选领域短语,包括:
11、将所述文本序列进行分词处理,形成多个词语;
12、利用n-gram语言模型将一个或多个词语组合成所述候选领域短语。
13、可选的,所述基于短语置信度指标、句法重要性指标和主题相关性指标对所述候选领域短语进行评分,包括:
14、分别计算所述候选领域短语的短语置信度指标、句法重要性指标和主题相关性指标;
15、基于所述短语置信度指标、句法重要性指标和主题相关性指标计算出所述候选领域短语的评分。
16、可选的,计算所述候选领域短语的短语置信度指标,包括:
17、当所述候选领域短语由多个词语构成时,计算所述候选领域短语中各个词语的共现频率;
18、当所述候选领域短语由一个词语构成时,计算这一个词语的词频-逆文档频率分值;
19、将所述共现频率或所述词频-逆文档频率分值进行归一化处理得到所述候选领域短语的短语置信度指标。
20、可选的,计算所述候选领域短语的句法重要性指标,包括:
21、计算所述候选领域短语中词语的句法重要性分数;
22、基于词语的句法重要性分数确认所述候选领域短语的句法重要性分数;
23、对所述候选领域短语的句法重要性分数进行归一化处理后得到所述候选领域短语的句法重要性指标。
24、可选的,所述计算所述候选领域短语中词语的句法重要性分数,包括:
25、对候选领域短语中的各个词语进行句法依存分析,得到各个词语的句法依存关系;
26、基于各个词语的句法依存关系得到各个词语的词语关系图;
27、基于各个词语的词语关系图计算得到各个词语的权重,并将各个词语的权重记为各个词语的句法重要性分数。
28、可选的,计算所述候选领域短语的主题相关性指标,包括:
29、将所述候选领域短语在所述文本序列中的对应位置进行遮蔽处理;
30、利用预训练语言模型获取被遮蔽位置处文本的句向量,以及未被遮蔽时所述被遮蔽位置处原始文本的句向量;
31、计算两个句向量的余弦相似度;
32、将所述余弦相似度进行倒数处理和归一化处理后得到所述候选领域短语的主题相关性指标。
33、可选的,在利用预训练语言模型获取被遮蔽位置处文本的句向量之前,还包括:
34、基于对比学习方法,利用特定领域的文本语料对所述预训练语言模型进行训练。
35、第二方面,本申请还提出一种领域短语抽取装置,包括:
36、筛选单元,用于从与特定领域相关的文本序列中筛选出候选领域短语;
37、评分单元,用于基于短语置信度指标、句法重要性指标和主题相关性指标对所述候选领域短语进行评分;
38、抽取单元,用于基于评分高低对所述候选领域短语进行排序,并基于所述特定领域的短语标准从排序后的候选领域短语中抽取出目标领域短语。
39、第三方面,本申请还提出一种电子设备,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的第一方面任一项的领域短语抽取方法的步骤。
40、第四方面,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现第一方面任一项的领域短语抽取方法。
41、综上,本申请提出的领域短语抽取方法通过采用基于短语置信度指标、句法重要性指标和主题相关性指标对候选领域短语进行评分,使得选出来的领域短语更具有可信力,且本方法无需准备标注数据用于模型训练,提高了短语的抽取效率。
42、本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。
1.一种领域短语抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述从与特定领域相关的文本序列中筛选出候选领域短语,包括:
3.根据权利要求1所述的方法,其特征在于,所述从与特定领域相关的文本序列中筛选出候选领域短语,包括:
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于短语置信度指标、句法重要性指标和主题相关性指标对所述候选领域短语进行评分,包括:
5.根据权利要求4所述的方法,其特征在于,计算所述候选领域短语的短语置信度指标,包括:
6.根据权利要求4所述的方法,其特征在于,计算所述候选领域短语的句法重要性指标,包括:
7.根据权利要求6所述的方法,其特征在于,所述计算所述候选领域短语中词语的句法重要性分数,包括:
8.根据权利要求4所述的方法,其特征在于,计算所述候选领域短语的主题相关性指标,包括:
9.根据权利要求8所述的方法,其特征在于,在利用预训练语言模型获取被遮蔽位置处文本的句向量之前,还包括:
10.一种领域短语抽取装置,其特征在于,包括: