中文命名实体识别方法、装置、存储介质及电子设备与流程

文档序号:29403706发布日期:2022-03-26 10:06阅读:104来源:国知局
中文命名实体识别方法、装置、存储介质及电子设备与流程

1.本发明实施例涉及人工智能技术领域,尤其涉及一种中文命名实体识别方法、装置、存储介质及电子设备。


背景技术:

2.中文命名实体识别(named entity recognition,ner)是抽取文章中指定信息的一种深度学习的技术方法,常见有抽取汽车品牌、汽车配件、配件品质、报价等信息。ner技术是自然语言处理(natural language processing,nlp)中非常重要的基础任务,是构建知识图谱、信息搜索等应用任务的基础任务。一般中文ner方法是将任务按照序列标注形式开展,将文中每一个字按照bioe加以前缀表示,例如:b-brand表示品牌类别的起始文字,i-brand表示品牌类别的中间文字,e-brand表示品牌类别的末尾文字。然而,bioe这种方法将ner任务看做多分类问题,这样一个实体识别过程由多个位置标注以及按照特定关系来表示,存在每个文字预测错误的误差传播问题。


技术实现要素:

3.本发明实施例提供一种中文命名实体识别方法、装置、存储介质及电子设备,不仅解决了序列标注带来的误差传播问题,而且还可以对中文文本序列中的任意文本片段,进行准确的命名实体类别的识别。
4.第一方面,本发明实施例提供了一种中文命名实体识别方法,包括:
5.获取待识别的中文文本序列;
6.针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;
7.基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;
8.针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。
9.第二方面,本发明实施例还提供了一种中文命名实体识别装置,包括:
10.文本序列获取模块,用于获取待识别的中文文本序列;
11.位置编码确定模块,用于针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;
12.矩阵确定模块,用于基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;
13.命名实体类别识别模块,用于针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名
实体类别。
14.第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的中文命名实体识别方法。
15.第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的中文命名实体识别方法。
16.本发明实施例提供的中文命名实体识别方案,获取待识别的中文文本序列;针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。通过本发明实施例提供的技术方案,可以有效避免序列标注bioe方法中先识别判断多个文字类别,然后按照标注关系做后处理的繁琐处理操作,不仅简化了处理流程,而且解决了序列标注带来的误差传播问题,另外,还可以对待识别的中文文本中的任意文本片段,进行准确的中文命名实体类别的识别。
附图说明
17.图1是本发明一实施例提供的一种中文命名实体识别方法的流程图;
18.图2是本发明另一实施例提供的一种中文命名实体识别方法的流程图;
19.图3是本发明一实施例提供的一种中文命名实体识别模型的结构示意图;
20.图4是本发明一实施例提供的一种查询矩阵和度量矩阵确定过程示意图;
21.图5是本发明另一实施例中的一种中文命名实体识别装置的结构示意图;
22.图6是本发明另一实施例中的一种电子设备的结构示意图。
具体实施方式
23.下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
24.应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
25.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
26.需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
27.需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
28.本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
29.图1为本发明一实施例提供的一种中文命名实体识别方法的流程图,本发明实施例可适用于对中文文本序列进行命名实体识别的情况,该方法可以由中文命名实体识别装置来执行,该装置可由硬件和/或软件组成,并一般可集成在电子设备中。如图1所示,该方法具体包括如下步骤:
30.步骤110,获取待识别的中文文本序列。
31.其中,待识别的中文文本序列可以为待识别的目标语句。中文文本序列中可包括一个或多个字,需要说明的是,本发明实施例对中文文本序列的长度不做限定。
32.在本发明实施例中,当监测到命名实体识别请求时,根据命名实体识别请求,获取待识别的中文文本序列。示例性的,可以将获取的用户输入的语句作为待识别的中文文本序列,也可以将其他电子设备传输的语句,作为待识别的中文文本序列,还可以根据命名实体识别请求,从文本数据库中读取与所述命名实体识别请求对应的语句,并将从数据库读取的语句作为待识别的中文文本序列。需要说明的是,本发明实施例对中文文本序列的获取方式不做限定。
33.步骤120,针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码。
34.其中,相对位置编码反映了中文文本序列中各个字在中文文本序列中的位置信息,也即反映了中文文本序列中每个字相对于中文文本序列中各个字的相对位置关系。
35.在本发明实施例中,遍历中文文本序列,基于预先设定的相对位置编码算法,确定中文文本序列中当前字与中文文本序列中各个字的相对位置编码。其中,预先设定的相对位置编码算法可以包括经典式相对位置算法、xlnet式相对位置编码算法、t5式相对位置编码算法、deberta式相对位置编码算法、及flat相对位置编码算法等。需要说明的是,本发明实施例,对相对位置编码算法不做限定。
36.步骤130,基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度。
37.其中,命名实体类别可以理解为中文文本序列中某文字片段所属类别的种类。例如,判断中文文本序列中的某文字片段具体属于汽车品牌中的哪个汽车品牌,则命名实体类别的种类指的是汽车品牌的种类,如汽车品牌有10种,则命名实体类别的种类为10;又如,判断中文文本序列中某文字片段是否属于汽车配件中的哪个汽车配件,则命名实体类别的种类指的是汽车配件的种类,如汽车配件包括8种,则命名实体类别的种类为8。
38.可选的,基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵,包括:获取命名实体类别的种类;确定所述中文文本序列对应的文本编码向量;根据所述命名实体类别的种类及所述文本编码向量确定所述中文文本序列对应的查询矩阵和度量矩阵。示例性的,根据用户输入的命名实体类别的各个具体类型,确定命名实体类别的种类。基于文本编码技术,将中文文本序列转换为对应的文本编码向量。基于命名实体类
别的种类及文本编码向量确定中文文本序列对应的查询矩阵和度量矩阵,也即基于命名实体类别的种类和文本编码向量确定与所述文本编码向量对应的查询矩阵和度量矩阵。示例性的,命名实体类别的种类为m,文本编码向量为一个文本长度为n,隐层长度为h的二维向量,则可保持文本编码向量中的文本长度不变,将文本编码向量的隐层长度h线性变换为命名实体类别的种类(m)
×
文本长度(n)
×
2,以将文本编码向量切分为两个m
×n×
n维度的矩阵,并将该两个矩阵分别作为与中文文本序列对应的查询矩阵和度量矩阵。
39.步骤140,针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。
40.在本发明实施例中,提取中文文本序列中位置i到j的文字片段,将该文字片段作为目标文字片段。其中,i和j的取值范围为中文文本序列的起始位置到末尾位置,且j大于或等于i。可以理解的是,本发明实施例对目标文字片段的长度不做限定,目标文字片段中可以只包含一个字,也可以包含多个字,还可以包含整个中文文本序列,也即将整个中文文本序列作为目标文字片段。根据中文文本序列中包含的各个字的相对位置编码,确定该目标文字片段中包含的各个字在中文文本序列中的相对位置编码。针对命名实体类别的各个种类,从查询矩阵中提取当前命名实体类别的查询矩阵中位置i到位置j的查询向量,从度量矩阵中提取当前命名实体类别的度量矩阵中位置i到位置j的度量向量。然后,根据目标文字片段中包含的各个字在中文文本序列中的相对位置编码、查询向量及度量向量,判断中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。例如,计算目标文字片段中包含的各个字在中文文本序列中的相对位置编码、查询向量及度量向的乘积,判断该乘积是否大于预设乘积阈值,若是,则确定中文文本序列中位置i到j的文字片段属于当前命名实体类别。
41.需要说明的是,本发明实施例,对如何根据查询矩阵、度量矩阵及各个相对位置编码,判断中文文本序列中位置i到j的文字片段是否属于当前命名实体类别的方式不做限定。
42.本发明实施例提供的中文命名实体识别方法,获取待识别的中文文本序列;针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。通过本发明实施例提供的技术方案,可以有效避免序列标注bioe方法中先识别判断多个文字类别,然后按照标注关系做后处理的繁琐处理操作,不仅简化了处理流程,而且解决了序列标注带来的误差传播问题,另外,还可以对待识别的中文文本中的任意文本片段,进行准确的中文命名实体类别的识别。
43.在一些实施例中,针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别,包括:针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数;根据所述相似度系数判断所述中文文本序列中位置i到j的文字片段是否属于所述当前命名实体类别。
44.示例性的,命名实体类别包含a、b及c三个种类,则分别根据查询矩阵、度量矩阵及各个相对位置编码,计算中文文本序列中位置i到j的文字片段对各个命名实体类别(a、b及c)的相似度系数。然后,根据各个相似度系数判断中文文本序列中位置i到j的文字片段具体属于命名实体类别a、b及c中的哪一种。例如,确定各个相似度系数中最大值,将最大的相似度系数对应的种类,确定为中文文本序列中位置i到j的文字片段所属的命名实体类别。当然,中文文本序列中位置i到j的文字片段也可以均不属于命名实体类别a、b及c,例如,最大的相似度系数小于预设阈值,则可确定中文文本序列中位置i到j的文字片段均不属于命名实体类别a、b及c。
45.可选的,根据所述查询矩阵、度量矩阵及各个相对位置编码,计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数,包括:根据如下公式计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数:其中,s(i,j)表示所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似性系数,ki表示所述度量矩阵k中位置为i的度量向量,qj表示所述查询矩阵q中位置为j的查询向量,f
pe
(.,i)和f
pe
(.,j)分别表示相对位置编码函数。
46.示例性的,当前命名实体类别为a,则中文文本序列中位置i到j的文字片段对命名实体类别a的相似度系数可以表示为:此时,sa(i,j)表示所述中文文本序列中位置i到j的文字片段对命名实体类别a的相似性系数,ki表示中文文本序列对应的度量矩阵k中与命名实体类别a对应的子度量矩阵ka中位置为i的度量向量,qj表示中文文本序列对应的查询矩阵q中与命名实体类别a对应的子查询矩阵qa位置为j的查询向量,f
pe
(.,i)和f
pe
(.,j)分别表示相对位置编码函数。可以理解的是,中文文本序列中各个字的相对位置编码可以表示为相对位置编码函数f
pe
(.,.),确定位置i的文字的相对位置编码函数f
pe
(.,i)及位置j的文字的相对位置编码函数f
pe
(.,j)。中文文本序列对应的度量矩阵k和查询矩阵q均为m
×n×
n维度的矩阵,当命名实体类别包含a、b及c三个种类时,m取值为3,度量矩阵k和查询矩阵q均为3
×n×
n维度的矩阵,且对于m维度的每个维度,分别为与命名实体类别a、b及c对应的子矩阵。可以理解的是,度量矩阵k中包含分别与命名实体类别a、b及c对应的子度量矩阵ka、kb及kc;查询矩阵q中包含分别与命名实体类别a、b及c对应的子度量矩阵qa、qb及qc。在本发明实施例中,从中文文本序列对应的度量矩阵k中提取与命名实体类别a对应的子度量矩阵ka,从子度量矩阵ka中提取位置为i的度量向量ki,从中文文本序列对应的查询矩阵q中提取与命名实体类别a对应的子查询矩阵qa,子查询矩阵qa中提取位置为j的查询向量qj。然后根据上述公式计算中文文本序列中位置i到j的文字片段对命名实体类别a的相似度系数。
47.可选的,根据所述相似度系数判断所述中文文本序列中位置i到j的文字片段是否属于所述当前命名实体类别,包括:判断所述相似度系数是否属于所述当前命名实体类别的样本;当确定所述相似度系数属于所述当前命名实体类别的样本时,确定所述中文文本序列中位置i到j的文字片段属于所述当前命名实体类别。在本发明实施例中,确定各个命
transformers,一种语言表示模型)或roberta构建的编码层。
62.示例性的,图3为本发明实施例提供的一种中文命名实体识别模型的结构示意图。如图3所示,中文命名实体识别模型包括文本编码层、适配层、位置编码层、类别相似度计算层及模型输出层,其中,文本编码层分别与适配层及位置编码层连接,位置编码层与适配层分别与类别相似度计算层连接,类别相似度计算层与模型输出层连接。通过上述实施例可以理解的是,中文文本序列分别输入至中文命名实体识别模型中的文本编码层及位置编码层,通过文本编码层确定与中文文本序列对应的文本编码向量,通过位置编码层确定中文文本序列中各个字的相对位置编码;将文本编码层输出的文本编码向量输入至适配层,通过适配层基于命名实体类别的种类及文本编码向量,确定与中文文本序列对应的查询矩阵和度量矩阵;将适配层输出的查询矩阵和度量矩阵及位置编码层输出的相对位置编码输入至类别相似度计算层,类别相似度计算层针对各个命名实体类别,根据查询矩阵、度量矩阵及各个相对位置编码,计算中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数;将所述相似度计算层输出的相似度系数输入至所述模型输出层,通过模型输出层基于相似度系数判断中文文本序列中位置i到j的文字片段,具体属于哪个命名实体类别。
63.可选的,将所述命名实体类别的种类及所述文本编码向量输入至所述中文命名实体识别模型中的适配层,通过所述适配层获取与所述中文文本序列对应的查询矩阵和度量矩阵,包括:将所述命名实体类别的种类及所述文本编码向量输入至所述中文命名实体识别模型中的适配层,所述适配层对所述文本编码向量中的文本长度n保持不变,将所述文本编码向量中的隐层长度h线性变换为所述命名实体类别的种类(m)
×
文本长度(n)
×
2,以将所述文本编码向量切分成两个m
×n×
n维度的矩阵,并将所述矩阵作为与所述中文文本序列对应的查询矩阵和度量矩阵。
64.示例性的,图4为本发明实施例提供的一种查询矩阵和度量矩阵确定过程示意图。如图4所示,文本编码层输出的文本编码向量h为一个包含文字长度n与隐层长度h的二维向量,将文本编码向量h中的隐层长度线性变换为命名实体类别的种类(m)
×
文本长度(n)
×
2的目标向量,也即将文本编码向量h线性变换为命名实体类别的种类(m)
×
文本长度(n)
×2×
文本长度(n)的目标矩阵,然后将目标矩阵切分为m
×n×
n维度的查询矩阵q和m
×n×
n维度的度量矩阵k。
65.本发明实施例提供的中文命名实体识别方法,通过中文命名实体识别模型可以有效避免序列标注bioe方法中先识别判断多个文字类别,然后按照标注关系做后处理的繁琐处理操作,不仅简化了处理流程,而且解决了序列标注带来的误差传播问题,另外,还可以对待识别的中文文本中的任意文本片段,进行准确的中文命名实体类别的识别。
66.图5为本发明另一实施例提供的一种中文命名实体识别装置的结构示意图。如图5所示,该装置包括:文本序列获取模块510,位置编码确定模块520,矩阵确定模块530和命名实体类别识别模块540。其中,
67.文本序列获取模块510,用于获取待识别的中文文本序列;
68.位置编码确定模块520,用于针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;
69.矩阵确定模块530,用于基于命名实体类别的种类,确定所述中文文本序列对应的
查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;
70.命名实体类别识别模块540,用于针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。
71.本发明实施例提供的中文命名实体识别装置,获取待识别的中文文本序列;针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。通过本发明实施例提供的技术方案,可以有效避免序列标注bioe方法中先识别判断多个文字类别,然后按照标注关系做后处理的繁琐处理操作,不仅简化了处理流程,而且解决了序列标注带来的误差传播问题,另外,还可以对待识别的中文文本中的任意文本片段,进行准确的中文命名实体类别的识别。
72.可选的,所述命名实体类别识别模块,包括:
73.相似度系数计算单元,用于针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数;
74.命名实体类别识别单元,用于根据所述相似度系数判断所述中文文本序列中位置i到j的文字片段是否属于所述当前命名实体类别。
75.可选的,所述相似度系数计算单元,用于:
76.根据如下公式计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数:
[0077][0078]
其中,s(i,j)表示所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似性系数,ki表示所述度量矩阵k中位置为i的度量向量,qj表示所述查询矩阵q中位置为j的查询向量,f
pe
(.,i)和f
pe
(.,j)分别表示相对位置编码函数。
[0079]
可选的,所述命名实体类别识别单元,用于:
[0080]
判断所述相似度系数是否属于所述当前命名实体类别的样本;
[0081]
当确定所述相似度系数属于所述当前命名实体类别的样本时,确定所述中文文本序列中位置i到j的文字片段属于所述当前命名实体类别。
[0082]
可选的,所述矩阵确定模块,包括:
[0083]
种类获取单元,用于获取命名实体类别的种类;
[0084]
文本编码向量确定单元,用于确定所述中文文本序列对应的文本编码向量;
[0085]
矩阵确定单元,用于根据所述命名实体类别的种类及所述文本编码向量确定所述中文文本序列对应的查询矩阵和度量矩阵。
[0086]
可选的,还包括:
[0087]
实体识别模型获取模块,用于在针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码之前,获取预先训练的中文命名实体识别模型,其中,所述中文命名实体识别模型包括文本编码层、适配层、位置编码层、类别相似度计算层及模型输出层;
[0088]
所述位置编码确定模块,用于:
[0089]
将所述中文文本序列输入至所述中文命名实体识别模型中的位置编码层,通过所述位置编码层获取所述中文文本序列中各个字与所述中文文本序列中各个字的相对位置编码;
[0090]
所述文本编码向量确定单元,用于:
[0091]
将所述中文文本序列输入至所述中文命名实体识别模型中的文本编码层,通过所述文本编码层获取所述中文文本序列对应的文本编码向量;
[0092]
所述矩阵确定单元,包括:
[0093]
矩阵确定子单元,用于将所述命名实体类别的种类及所述文本编码向量输入至所述中文命名实体识别模型中的适配层,通过所述适配层获取与所述中文文本序列对应的查询矩阵和度量矩阵;
[0094]
所述相似度系数计算单元,用于:
[0095]
将所述查询矩阵、所述度量矩阵及各个相对位置编码输入至所述中文命名实体识别模型中的类别相似度计算层,所述类别相似度计算层针对各个命名实体类别,计算所述中文文本序列中位置i到j的文字片段对当前命名实体类别的相似度系数;
[0096]
所述命名实体类别识别单元,用于:
[0097]
将所述相似度系数输入至所述中文命名实体识别模型中的模型输出层,所述模型输出层基于所述相似度系数判断所述中文文本序列中位置i到j的文字片段,是否属于当前命名实体类别。
[0098]
可选的,所述矩阵确定子单元,用于:
[0099]
将所述命名实体类别的种类及所述文本编码向量输入至所述中文命名实体识别模型中的适配层,所述适配层对所述文本编码向量中的文本长度n保持不变,将所述文本编码向量中的隐层长度h线性变换为所述命名实体类别的种类(m)
×
文本长度(n)
×
2,以将所述文本编码向量切分成两个m
×n×
n维度的矩阵,并将所述矩阵作为与所述中文文本序列对应的查询矩阵和度量矩阵。
[0100]
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
[0101]
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的中文命名实体识别方法。
[0102]
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如cd-rom、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如dram、ddrram、sram、edoram,兰巴斯(rambus)ram等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型
的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
[0103]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的中文命名实体识别操作,还可以执行本发明任意实施例所提供的中文命名实体识别方法中的相关操作。
[0104]
本发明实施例提供了一种电子设备,该电子设备中可集成本发明实施例提供的中文命名实体识别装置。图6为本发明实施例提供的一种电子设备的结构框图。电子设备600可以包括:存储器601,处理器602及存储在存储器601上并可在处理器运行的计算机程序,所述处理器602执行所述计算机程序时实现如本发明实施例所述的中文命名实体识别方法。
[0105]
本发明实施例中提供的电子设备,获取待识别的中文文本序列;针对所述中文文本序列中的各个字,确定当前字与所述中文文本序列中各个字的相对位置编码;基于命名实体类别的种类,确定所述中文文本序列对应的查询矩阵和度量矩阵;其中,所述查询矩阵和所述度量矩阵均为m
×n×
n维度的矩阵,m表示命名实体类别的种类,n表示所述中文文本序列的文字长度;针对各个命名实体类别,根据所述查询矩阵、度量矩阵及各个相对位置编码,判断所述中文文本序列中位置i到j的文字片段是否属于当前命名实体类别。通过本发明实施例提供的技术方案,可以有效避免序列标注bioe方法中先识别判断多个文字类别,然后按照标注关系做后处理的繁琐处理操作,不仅简化了处理流程,而且解决了序列标注带来的误差传播问题,另外,还可以对待识别的中文文本中的任意文本片段,进行准确的中文命名实体类别的识别。
[0106]
上述实施例中提供的中文命名实体识别装置、存储介质及电子设备可执行本发明任意实施例所提供的中文命名实体识别方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的中文命名实体识别方法。
[0107]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1