本发明涉及数据处理,尤其涉及一种实体识别方法及相关装置。
背景技术:
1、文本实体识别,是从文本中识别出有特定意义的实体,如人名,地名,组织名等。它是从海量的非结构化数据中抽取信息的关键技术,是众多复杂的自然语言处理,应用的基石,如智能问答、知识图谱、自动摘要、机器翻译等。
2、然而由于自然语言丰富的表达形式,同一个实体概念可能有多种不同的表述形式。相同的表述形式可能指代不同的实体,不同的表述形式也可能共享同一个实体概念。这些同名词和同义词常常出现在命名实体识别的结果中,使得命名实体识别的结果难以被直接应用。已有研究表明,实体表述的归一化有助于文本实体的识别。
3、而现有的实体归一化编码过程依赖于已有的词典与知识库,而现有的词典覆盖有限,很多语料存在缺乏对应领域的词典的情况,实体归一化后得到的文本实体的准确性低。
技术实现思路
1、有鉴于此,本发明提供了一种实体识别方法及相关装置,用以解决现有技术中现有的实体归一化编码过程依赖于已有的词典与知识库,而现有的词典覆盖有限,很多语料存在缺乏对应领域的词典的情况,实体归一化后得到的文本实体的准确性低的问题,具体方案如下:
2、一种实体识别方法,包括:
3、获取待识别文本序列;
4、基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,其中,所述第二编码器基于提取器和预设的编码规则进行编码;
5、将所述初始向量传递给解码器进行解码,得到目标向量;
6、将所述目标向量作为所述待识别文本序列的预测序列。
7、上述的方法,可选的,所述第一编码器为ner编码器,所述第二编码器为nen编码器,基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,包括:
8、基于所述第一编码器中所述预设的编码规则和所述提取器对所述待识别文本序列进行编码,得到表述向量;
9、基于所述第二编码器将所述待识别文本序列进行编码,得到编码向量;
10、对所述表述向量和所述编码向量进行拼接,得到所述初始向量。
11、上述的方法,可选的,基于所述第一编码器中所述预设的编码规则和所述提取器对所述待识别文本序列进行编码,得到表述向量,包括:
12、基于预设的编码规则识别所述待识别文本序列中用于定义实体的非标准表述;
13、基于所述提取器从所述非标准表述中抽取指代同一个概念的表述向量。
14、上述的方法,可选的,在基于所述提取器从所述非标准表述中抽取指代同一个概念的表述向量之后,还包括:
15、通过线性层对所述表述向量进行处理。
16、上述的方法,可选的,所述第一编码器为ner编码器,所述第二编码器为nen编码器,基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,包括:
17、基于所述第一编码器将所述待识别文本序列进行编码,得到编码向量;
18、基于所述第二编码器中所述预设的编码规则和所述提取器对所述编码向量进行编码,得到初始向量。
19、一种实体识别装置,包括:
20、获取模块,用于获取待识别文本序列;
21、编码模块,用于基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,其中,所述第二编码器基于提取器和预设的编码规则进行编码;
22、解码模块,用于将所述初始向量传递给解码器进行解码,得到目标向量;
23、确定模块,用于将所述目标向量作为所述待识别文本序列的预测序列。
24、上述的装置,可选的,所述第一编码器为ner编码器,所述第二编码器为nen编码器,所述编码模块包括:
25、第一编码单元,用于基于所述第一编码器中所述预设的编码规则和所述提取器对所述待识别文本序列进行编码,得到表述向量;
26、第二编码单元,用于基于所述第二编码器将所述待识别文本序列进行编码,得到编码向量;
27、拼接单元,用于对所述表述向量和所述编码向量进行拼接,得到所述初始向量。
28、上述的装置,可选的,所述第一编码器为ner编码器,所述第二编码器为nen编码器,所述编码模块包括:
29、第三编码单元,用于基于所述第一编码器将所述待识别文本序列进行编码,得到编码向量;
30、第四编码单元,用于基于所述第二编码器中所述预设的编码规则和所述提取器对所述编码向量进行编码,得到初始向量。
31、一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的文本实体的识别方法。
32、一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的文本实体的识别方法。
33、与现有技术相比,本发明包括以下优点:
34、本发明公开了一种实体识别方法及相关装置,所述方法包括:获取待识别文本序列;基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,其中,所述第二编码器基于提取器和预设的编码规则进行编码;将所述初始向量传递给解码器进行解码,得到目标向量;将所述目标向量作为所述待识别文本序列的预测序列。上述过程中,采用第二编码器中提取器和预设编码进行编码,不再基于词典与知识库进行编码,避免了而现有的词典覆盖有限,很多语料存在缺乏对应领域的词典的情况,实体归一化后得到的文本实体的准确性低的问题。
35、当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
1.一种实体识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一编码器为ner编码器,所述第二编码器为nen编码器,基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述第一编码器中所述预设的编码规则和所述提取器对所述待识别文本序列进行编码,得到表述向量,包括:
4.根据权利要求3所述的方法,其特征在于,在基于所述提取器从所述非标准表述中抽取指代同一个概念的表述向量之后,还包括:
5.根据权利要求1所述的方法,其特征在于,所述第一编码器为ner编码器,所述第二编码器为nen编码器,基于第一编码器和第二编码器对所述待识别文本序列进行编码,得到初始向量,包括:
6.一种实体识别装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述第一编码器为ner编码器,所述第二编码器为nen编码器,所述编码模块包括:
8.根据权利要求6所述的装置,其特征在于,所述第一编码器为ner编码器,所述第二编码器为nen编码器,所述编码模块包括:
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1~5任意一项所述的文本实体的识别方法。
10.一种设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1~5中任一项所述的文本实体的识别方法。