本说明书涉及计算机,尤其涉及一种指标命名实体识别方法及装置。
背景技术:
1、命名实体识别(named entity recognition,ner)是自然语言处理领域的一个重要任务,用于识别文本中具有特定意义的命名实体,例如,人名、地名、组织机构名、时间、日期等。命名实体识别的主要作用是从非结构化的文本中抽取出具有指定类别的命名实体,为其他自然语言处理任务提供重要的信息支持。
2、在实际应用中,指标(例如准确率、访问量、订单数等)可以用于衡量、评估或表示某种现象、情况或进展的度量标准。从文本中识别出指标,可以帮助用户理解和分析数据,以做出明智的决策以及提高业务处理的效率。但是,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致命名实体识别从文本中识别出指标词语的准确率较低。
技术实现思路
1、本说明书提供一种指标命名实体识别方法、装置、电子设备及机器可读存储介质,以提高命名实体识别从文本中识别出指标词语的准确率。
2、本说明书采用下述技术方案:
3、本说明书提供了一种指标命名实体识别方法,包括:
4、获取与目标业务对应的文本数据以及与所述目标业务对应的知识图谱,所述文本数据中包含至少一个与预设的业务指标对应的指标词语;
5、对所述文本数据进行分词处理,得到与所述文本数据对应的分词序列,所述分词序列中的各个词语的顺序为所述各个词语在所述文本数据中所处的位置;
6、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征;其中,所述词语特征是由与所述分词序列中包含的各个词语对应的词性特征以及结构特征构成,所述结构特征用于表征词语的结构;以及,
7、对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,并基于特征融合得到的融合特征识别所述文本数据包含的目标指标词语。
8、可选地,所述命名实体识别模型还包括文本特征提取层;
9、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征,包括:
10、将所述分词序列输入到预先训练完成的编码层中,以由所述编码层编码得到与所述分词序列中包含的各个词语对应的编码特征;
11、将与所述分词序列中包含的各个词语对应的编码特征输入到所述文本特征提取层中,以按照所述分词序列中的各个词语在所述文本数据中所处的位置的正向顺序,对与所述分词序列中包含的各个词语对应的编码特征依次进行编码,得到与所述分词序列中的各个词语对应的正向编码特征;以及,按照所述分词序列中的各个词语在所述文本数据中所处的位置的反向顺序,对与所述分词序列中包含的各个词语对应的编码特征依次进行编码,得到与所述分词序列中的各个词语对应的反向编码特征;
12、将与所述分词序列中包含的各个词语对应的正向编码特征和反向编码特征进行拼接,得到与所述分词序列中包含的各个词语对应的双向编码特征,并将与所述分词序列中包含的各个词语对应的双向编码特征按照各个词语在所述分词序列中所处的位置进行拼接,得到与所述分词序列中包含的各个词语对应的文本特征。
13、可选地,将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的词语特征,包括:
14、对所述分词序列中包含的各个词语进行词性识别,得到所述分词序列中包含的各个词语的词性;
15、判断所述分词序列中包含的各个词语是否是与至少一种词性相关的词语,得到第一判断结果,并基于所述第一判断结果针对所述分词序列中包含的各个词语依次进行编码,得到与所述分词序列中包含的各个词语对应的词性特征;
16、判断所述分词序列中包含的各个词语是否包含有与至少一种业务指标相关的词尾,得到第二判断结果,并基于第二判断结果针对所述分词序列中包含的各个词语依次进行编码,得到与所述分词序列中包含的各个词语对应的结构特征;
17、将与所述分词序列中包含的各个词语对应的词性特征和结构特征进行拼接,得到与所述分词序列中包含的各个词语对应的构词特征,并基于与所述分词序列中包含的各个词语对应的构词特征进一步构建词语特征。
18、可选地,所述命名实体识别模型还包括词语特征提取层;
19、基于与所述分词序列中包含的各个词语对应的构词特征进一步构建词语特征,包括:
20、将与所述分词序列中包含的各个词语对应的构词特征输入到所述词语特征提取层中,以按照所述分词序列中包含的各个词语在所述文本数据中所处的位置的正向顺序,对与所述分词序列中包含的各个词语对应的构词特征依次进行编码,得到与所述分词序列中包含的各个词语对应的正向构词特征;以及,按照所述分词序列中包含的各个词语在所述文本数据中所处的位置的反向顺序,对与所述分词序列中包含的各个词语对应的构词特征依次进行编码,得到与所述分词序列中包含的各个词语对应的反向构词特征;
21、将与所述分词序列中包含的各个词语对应的正向构词特征和反向构词特征进行拼接,得到与所述分词序列中包含的各个词语对应的双向构词特征,并将与所述分词序列中包含的各个词语对应的双向构词特征按照各个词语在所述文本数据中所处的位置进行拼接,得到词语特征。
22、可选地,所述命名实体识别模型中维护了与所述目标业务对应的知识图谱;所述知识图谱包含用于表示与所述目标业务对应的业务实体的节点以及用于表示各业务实体之间的关系的边;所述命名实体识别模型还包括知识图谱特征提取层;
23、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的知识图谱特征,包括:
24、从所述知识图谱中,确定与所述分词序列中的各个词语对应的知识图谱子图;
25、将与所述分词序列中的各个词语对应的知识图谱子图分别输入到所述知识图谱特征提取层中,以对与所述分词序列中的各个词语对应的知识图谱子图中的各邻居节点以及与各邻居节点对应的边进行编码,得到与所述分词序列中包含的各个词语对应的知识图谱特征。
26、可选地,所述命名实体识别模型还包括融合层;
27、对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,包括:
28、将所述文本特征、所述词语特征以及所述知识图谱特征输入到所述融合层中,以确定所述文本特征与所述知识图谱特征之间的第一注意力权重,并根据所述第一注意力权重,对所述文本特征进行加权计算,得到所述文本特征与所述知识图谱特征之间的第一注意力特征;以及,
29、确定所述文本特征与所述词语特征之间的第二注意力权重,并根据所述第二注意力权重,对所述文本特征进行加权计算,得到所述文本特征与所述词语特征之间的第二注意力特征;
30、对所述第一注意力特征以及所述第二注意力特征进行特征融合。
31、可选地,所述命名实体识别模型还包括识别层;
32、基于特征融合得到的融合特征识别所述文本数据的目标指标词语,包括:
33、将基于特征融合得到的融合特征输入到所述识别模型的识别层中,以计算所述文本数据的各个词语是否为指标词语的概率;
34、基于所述概率确定所述文本数据的目标指标词语。
35、可选地,所述命名实体识别模型包括:
36、文本特征提取层,用于提取所述文本数据的文本特征;
37、词语特征提取层,用于提取所述文本数据的词语特征;
38、知识图谱特征提取层,用于从所述知识图谱中提取知识图谱特征;
39、融合层,用于对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合;
40、识别层,用于基于特征融合得到的融合特征识别所述文本数据的目标指标词语。
41、可选地,所述文本特征提取层以及所述词语特征提取层包括:bigru神经网络;所述知识图谱特征提取层包括:compgcn神经网络;所述融合层包括:attention神经网络;所述识别层包括:crf模型。
42、可选地,训练所述命名实体识别模型,包括:
43、获取与所述目标业务对应的文本数据以及与所述目标业务对应的知识图谱;
44、对所述文本数据进行分词处理,得到与所述文本数据对应的分词序列,所述分词序列中的各个词语的顺序为所述各个词语在所述文本数据中所处的位置;
45、将所述分词序列以及所述知识图谱输入到待训练的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征,并对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,基于特征融合得到的融合特征识别所述文本数据包含的目标指标词语,以最小化识别出的目标指标词语与所述文本数据的实际指标词语之间的误差为优化目标,对所述命名实体识别模型进行训练。
46、本说明书提供了一种命名实体识别模型,包括:
47、文本特征提取层,用于从获取到的与所述目标业务对应的文本数据中提取文本特征,并将所述文本特征输入到融合层;
48、词语特征提取层,用于从获取到的与所述目标业务对应的文本数据中提取词语特征,并将所述词语特征输入到融合层;
49、知识图谱特征提取层,用于从所述知识图谱中提取知识图谱特征,并将所述知识图谱特征输入到融合层;
50、融合层,用于对输入的所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,得到融合特征,并将所述融合特征输入到识别层;
51、识别层,用于基于特征融合得到的融合特征识别所述文本数据的目标指标词语。
52、本说明书提供了一种指标命名实体识别装置,包括:
53、获取模块,用于获取与目标业务对应的文本数据以及与所述目标业务对应的知识图谱,所述文本数据中包含至少一个与预设的业务指标对应的指标词语;
54、分词模块,用于对所述文本数据进行分词处理,得到与所述文本数据对应的分词序列,所述分词序列中的各个词语的顺序为所述各个词语在所述文本数据中所处的位置;
55、输入模块,用于将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征;其中,所述词语特征是由与所述分词序列中包含的各个词语对应的词性特征以及结构特征构成,所述结构特征用于表征词语的结构;
56、识别模块,用于对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,并基于特征融合得到的融合特征识别所述文本数据包含的目标指标词语。
57、本说明书提供了一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
58、所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述指标命名实体识别方法。
59、本说明书提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述指标命名实体识别方法。
60、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
61、在本说明书提供的指标命名实体识别方法中,由命名实体识别模型提取与分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征,对文本特征、词语特征以及知识图谱特征进行特征融合,并基于特征融合得到的融合特征识别文本数据包含的目标指标词语。由于知识图谱中包含丰富的实体关系信息,可以帮助命名实体识别模型更好地理解实体之间的关联。由词性特征以及结构特征构成的词语特征,可以帮助命名实体识别模型更好地理解指标词语的词性和结构,从而,提高命名实体识别模型从文本数据中识别出指标词语的准确率。