一种扁平化标记增强的嵌套命名实体识别方法与系统

文档序号:29094319发布日期:2022-03-02 03:41阅读:329来源:国知局
一种扁平化标记增强的嵌套命名实体识别方法与系统

1.本发明涉及计算机信息处理技术领域,特别涉及一种扁平化标记增强的嵌套命名实体识别方法与系统。


背景技术:

2.命名实体识别(named entity recognition,ner)是自然语言处理(natural language processing,nlp)的一项基本任务,目的是自动识别无结构文本中具有特定意义的实体。例如,人名、地名、机构名以及其它专有名词等。命名实体识别的结果被广泛运用于信息提取,问答系统,知识图谱和推荐系统等下游任务,在自然语言处理技术的研究和走向实用化的过程中占有重要的地位。
3.现有大部分命名实体的研究主要针对平面实体展开,基于深度学习的序列标注方法是目前主流的方法。这类方法在平面命名实体上取得了较好的识别性能,但主要缺点之一是无法识别句子中具有嵌套结构的实体。如图1所示,序列标注的方法不能同时识别嵌套的机构实体“软件 学院”和人物实体“软件 学院 的 教授”,而只能识别他们中的一个。然后,在真实的自然语言文本中,嵌套实体出现的频率并不低,例如,在常用的数据集ace2004和ace2005中嵌套实体占比均超过30%。忽略嵌套实体的识别必然会对下游的自然语言处理任务产生负面的影响,例如,只识别出机构实体“软件 学院”而没有识别出人物实体“软件 学院 的 教授”,会导致信息提取任务中到达“行政楼”的人物信息的丢失。因此,近年来,嵌套命名实体识别(nested named entity recognition,nner)受到学术界和工业界越来越多的关注,成为当前的研究热点之一。
4.现有嵌套命名实体识别的方法可以大致分为以下两大类:堆叠序列标注的方法和基于文本片段的两阶段方法。1)堆叠序列标注的方法:把文本中的嵌套实体看成多层平面实体,堆叠多个较为成熟的序列标注层,先识别最内层的实体,然后逐层识别外层实体。例如,在图1中,先识别出内层的实体“软件 学院”和“行政楼”,在此基础上识别外层实体“软件 学院 的 教授”。此类方法的好处是,在识别外层实体时,可充分利用内层实体的信息。其不足之处是序列标注方法较难充分利用文本片段的信息。2)基于文本片段的两阶段方法:将嵌套命名实体识别分解成边界检测和类型预测两个子任务。边界检测子任务的目的是找出句子中所有可能的实体首词或实体尾词,从而得到可能是实体的候选文本片段。类型预测子任务以候选文本片段为单元进行编码,用于判断其为哪种实体或不是实体。现有研究表明:基于文本片段的两阶段方法通常能取得比堆叠序列标注的方法更好的识别性能,但不足之处是在预测外层实体时没有利用内层实体的信息。另外,堆叠序列标注的方法中错误识别出的内层实体和基于文本片段的两阶段方法中漏识别的首词或尾词,都可能带来错误传播问题。
5.基于此,有必要一种扁平化标记增强的嵌套命名实体识别方法,以充分利用内层实体的信息和文本片段的信息,并能同时减少可能出现的错误传播问题。


技术实现要素:

6.鉴于上述状况,本发明提出一种扁平化标记增强的嵌套命名实体识别方法,以解决上述技术问题。
7.本发明实施例提供了一种扁平化标记增强的嵌套命名实体识别方法,其中,扁平化标记为基于内层实体优先原则,联合bio标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其中,所述方法包括如下步骤:步骤一,将对象语句中的每个词转换为词对应的语义向量表示;步骤二,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;步骤三,对所述对象语句中的每个词分别预测对应的扁平化标记信息;步骤四,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;步骤五,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
8.本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,能充分利用内层实体的信息和文本片段的信息,且可有效减少可能出现的错误传播问题。
9.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤一中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量;其中,包含个词的对象语句,词对应的语义向量表示为:其中,为词对应的语义向量表示,为词对应的静态词向量,为词对应的动态词向量,为词的词性向量,为向量的拼接操作,表示对象语句中词的序号。
10.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:根据词的语义向量表示 ,使用长短时记忆网络从左至右建模以得到融合上文信息的词的语义向量表示,使用长短时记忆网络从右至左建模以得到融合下文信息的词的语义向量表示;
拼接所述融合上文信息的词的语义向量表示与所述融合下文信息的词的语义向量表示,以得到融合上下文信息的词的语义向量表示。
11.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,存在如下关系式:其中,为融合上文信息的词的语义向量表示,为融合下文信息的词的语义向量表示,为融合上文信息的词的语义向量表示,为融合下文信息的词的语义向量表示。
12.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤三中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:基于所述融合上下文信息的词的语义向量表示,使用softmax层计算词对应的扁平化标记的概率分布;其中,和为扁平化标记预测层的参数;分别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;其中,为扁平化标记预测任务的代价函数,为词属于第个扁平化标记的真实概率,为概率分布中对应于个扁平化标记的预测概率,,为扁平化标记的数量,表示扁平化标记的序号。
13.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤四中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:根据概率分布中的预测概率与扁平化标记的向量表示进行加权求和,以得到词的扁平化标记信息的向量表示;将所述融合上下文信息的词的语义向量表示与所述词的扁平化标记信息的向量表示进行拼接,以得到词的融合标记信息的编码层的输入;根据所述词的融合标记信息的编码层的输入,通过双向长短时记忆网络构建
融合标记信息的编码层以得到融合标记信息的词的语义向量表示。
14.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤四中,词的扁平化标记信息的向量表示表示为:其中,为第个扁平化标记的向量表示;词的融合标记信息的编码层的输入表示为:其中,表示向量的拼接操作;融合标记信息的词的语义向量表示的计算过程为:其中,表示融合上文标记信息的词的语义向量表示,表示融合下文标记信息的词的语义向量表示,为融合上文标记信息的词的语义向量表示,为融合下文标记信息的词的语义向量表示,均表示长短时记忆网络。
15.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布的方法包括如下步骤:基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重;根据所述文本片段中间词的权重计算得到文本片段的语义向量表示;基于所述文本片段的语义向量表示,通过softmax层计算所述文本片段为实体或不为实体对应的概率分布,其中,也表示对象语句中词的序号。
16.所述一种扁平化标记增强的嵌套命名实体识别方法,其中,文本片段的语义向量表示的计算过程为:
其中,为融合标记信息的首词的语义向量表示,为融合标记信息的尾词的语义向量表示,为基于首词计算的中间词的语义向量表示,为基于首词计算的中间词的权重,为基于尾词计算的文本片段中间词的语义向量表示,为基于尾词计算的中间词的权重,为融合标记信息的中间词的语义向量表示,为融合标记信息的中间词的语义向量表,为向量的转置操作,表示向量的拼接操作。
17.本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合bio标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
18.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
19.图1为现有技术中嵌套命名实体示例图;图2为本发明中嵌套命名实体的扁平化标记示例图;图3为本发明提出的一种扁平化标记增强的嵌套命名实体识别方法的流程图;图4为本发明中扁平化标记增强的嵌套命名实体识别模型图;图5为本发明提出的一种扁平化标记增强的嵌套命名实体识别系统的结构图。
具体实施方式
20.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
21.参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
22.在本发明中,针对嵌套命名实体设计了一套扁平化标记。具体地,基于内层实体优先的原则,联合bio标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予一个标记。生成嵌套命名实体的扁平化标记包括以下两个步骤:(1)联合bio标记及实体类别,对句子中的词进行标记。其中,“b”(begin)表示实体的首词,“i”(inside)表示实体的内部词,“o”(other)表示不在实体中的词;实体类别包括机构(org)、人物(per)和地点(loc)等;b-org表示机构实体的首词,i-org表示机构实体的内部词等。如图2所示,第1层机构实体“软件 学院”中的词分别被标记为“b-org i-org”,地点实体“行政楼”中的词被标记为“b-loc”;第2层人物实体“软件 学院 的 教授”中的词分别被标记为“b-per i-per i-per i-per”,词“到达”不属于任何实体,标记为“o”。(2)基于内层实体优先的原则,对这些标记进行扁平化,使得句子中的每个词仅对应一个标记。如图2所示,嵌套的实体“软件学院”和“软件学院的教授”中都包含词“软件”,且在第一步中分别被标记为“b-org”和“b-per”,基于内层实体优先的原则,词“软件”的扁平化标记为“b-org”。经过上述两个步骤,可以为已标注嵌套命名实体的句子中的每个词赋予一个标记,称之为嵌套命名实体的扁平化标记。
23.进一步的,将嵌套命名实体的扁平化标记的预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别,主要表现在以下两个方面:(1)、扁平化标记中包含了内层实体的全部边界信息和类别信息,在这些信息的基础上进行外层实体的识别是比较容易的。例如,在已经知道“软件 学院”是一个内层的机构实体的情况下,模型能较容易地识别出外层实体“软件 学院 的 教授”的边界和类别(人物)。更重要的是,这也有利于模型学到一些外层实体的构成规则,比如,“某机构实体+的 教授”即为人物实体。(2)、扁平化标记中已经包含了外层实体的部分边界信息和类别信息。例如,假设预测的词序列“软件 学院 的 教授 到达”的扁平化标记分别为“b-org i-org i-per i-per o”,这表明包含词“教授”的外层实体类别应该是“人物”,且“教授”应该为该实体的尾词。
24.下面以一个具体的实例对本发明的方案进行详细地叙述。请参阅图2至图4,本发
明提出一种扁平化标记增强的嵌套命名实体识别方法,其中,所述方法包括如下步骤:s101,将对象语句中的每个词转换为词对应的语义向量表示。
25.在步骤s101中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量。
26.具体的,给定一个包含个词的对象语句,词对应的语义向量表示为:其中,为词对应的语义向量表示,为词对应的静态词向量,为词对应的动态词向量,为词的词性向量,为向量的拼接操作,表示对象语句中词的序号。
27.作为补充的,静态词向量可使用现有算法word2vec和glove等基于大量的文本预训练得到。动态词向量可使用现有算法elmo和bert等基于大量的文本预训练得到。每一种词性(例如,名词、动词和介词)随机初始化为一个对应的词性向量,并把所有的词性向量作为模型的参数,在模型训练的过程中进行优化。
28.s102,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示。
29.在步骤s102中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:s1021,根据词的语义向量表示,使用长短时记忆网络从左至右建模以得到融合上文信息的词的语义向量表示,使用长短时记忆网络从右至左建模以得到融合下文信息的词的语义向量表示。
30.其中,为融合上文信息的词的语义向量表示,为融合下文信息的词的语义向量表示,为融合上文信息的词的语义向量表示,为融合下文信息的词的语义向量表示。
31.s1022,拼接所述融合上文信息的词的语义向量表示与所述融合下文信息的词的语义向量表示,以得到融合上下文信息的词的语义向量表示。也即存在如下公式:
其中,表示向量的拼接操作。
32.s103,对所述对象语句中的每个词分别预测对应的扁平化标记信息。
33.需要指出的是,在本发明中,把扁平化标记预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别。
34.具体的,在步骤s103中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:s1031,基于所述融合上下文信息的词的语义向量表示,使用softmax层计算词对应的扁平化标记的概率分布;其中,和为扁平化标记预测层的参数;s1032,别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;其中,为扁平化标记预测任务的代价函数,为词属于第个扁平化标记的真实概率,为概率分布中对应于第个扁平化标记的预测概率,,为扁平化标记的数量,表示扁平化标记的序号。
35.需要补充说明的是,概率分布中最大的概率对应的标记即为预测的扁平化标记。
36.s104,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示。
37.在步骤s104中,具体包括如下步骤:s1041,根据概率分布中的预测概率与扁平化标记的向量表示进行加权求和,以得到词的扁平化标记信息的向量表示。
38.词的扁平化标记信息的向量表示表示为:其中,为第个扁平化标记的向量表示。需要说明的是,扁平化标记的向量表示是扁平化标记增强的嵌套命名实体识别模型的参数,在模型训练的过程中随机初始化并进行优化。可以理解的,在本实施例中,为了降低错误预测的扁平化标记带来的影响,本发明中不是简单地将预测的扁平化标记作为下一层的输入,而是基于预测的概率分布进行加权求和,获得预测的扁平化标记信息的向量表示。
39.s1042,将所述融合上下文信息的词的语义向量表示与所述词的扁平化标记信息的向量表示进行拼接,以得到词的融合标记信息的编码层的输入。
40.词的融合标记信息的编码层的输入表示为:其中,表示向量的拼接操作。
41.s1043,根据所述词的融合标记信息的编码层的输入,通过双向长短时记忆网络构建融合标记信息的编码层以得到融合标记信息的词的语义向量表示。
42.具体的,融合标记信息的词的语义向量表示的计算过程为:其中,表示融合上文标记信息的词的语义向量表示,表示融合下文标记信息的词的语义向量表示,为融合上文标记信息的词的语义向量表示,为融合下文标记信息的词的语义向量表示,均表示长短时记忆网络。
43.s105,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
44.具体的,包括如下步骤:s1051,基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重。
45.s1052,根据所述文本片段中间词的权重计算得到文本片段的语义向量表示。
46.文本片段的语义向量表示的计算过程为:
其中,为融合标记信息的首词的语义向量表示,为融合标记信息的尾词的语义向量表示,为基于首词计算的中间词的语义向量表示,为基于首词计算的中间词的权重,为基于尾词计算的文本片段中间词的语义向量表示,为基于尾词计算的中间词的权重,为融合标记信息的中间词的语义向量表示,为融合标记信息的中间词的语义向量表,为向量的转置操作,表示向量的拼接操作。
47.s1053,基于所述文本片段的语义向量表示,通过softmax层计算所述文本片段为实体或不为实体对应的概率分布,其中,也表示对象语句中词的序号。
48.其中,和为softmax层的参数,为文本片段的语义向量表示,概率分布中的概率是文本片段属于第个实体类别的预测概率,为实体类别的数量;概率分布中的最后一个概率为文本片段不是实体的预测概率。
49.在扁平化标记增强的嵌套命名实体识别模型的训练过程中,将常用于多分类任务的交叉熵代价函数作为嵌套命名实体识别的代价函数,具体如下:其中,为文本片段属于第个实体类别的真实概率,为文
本片段属于第个实体类别的预测概率,为文本片段不是实体的真实概率,为文本片段不是实体的预测概率。
50.最后,基于多任务学习同时训练扁平化标记预测任务和嵌套实体识别任务,以达到相互促进的目的。为此,定义模型训练的总代价函数如下:其中,为总代价函数,为扁平化标记预测任务的代价函数,为嵌套命名实体识别的代价函数,为调节两种代价函数重要程度的系数。
51.本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,充分利用内层实体的信息和文本片段的信息,可有效减少可能出现的错误传播问题。
52.请参阅图5,本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合bio标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
53.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
54.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、
ꢀ“
示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
55.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1