模型训练、语义依存分析方法、装置、设备和存储介质与流程

文档序号：30801793发布日期：2022-07-19 22:14阅读：97来源：国知局

1.本发明实施例涉及计算机技术领域，尤其涉及一种模型训练、语义依存分析方法、装置、设备和存储介质。

背景技术：

2.语义依存分析(semantic dependency parsing,sdp)用于分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，其优点在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对于词汇而言数量减少很多。分析自然语言的语义依存关系对于意图识别、智能问答、推理等任务都具有重要作用。
3.实体概念是语义依存分析中的重要特征，不同服务场景中概念类型差别较大，目前的语义依存分析技术仅能处理非常有限数量的概念类型，因此还存在改进的空间。

技术实现要素：

4.有鉴于此，本发明实施例提供一种模型训练、语义依存分析方法、装置、设备和存储介质，以解决或缓解上述问题。
5.根据本发明实施例的第一方面，提供了一种模型训练方法，包括：对训练样本句子中的概念词添加概念类型标签，得到拼接句子；通过变换器编码层，对所述拼接句子进行词嵌入处理，使得所述训练样本句子中的非概念词不受所述概念类型标签的影响；将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得所述语义分析层学习所述概念类型标签的语义，得到训练完成的包括所述变换器编码层和语义依存分析层的语义依存分析模型。
6.根据本发明实施例的第二方面，提供了一种语义依存分析方法，包括：通过将待分析句子中的概念词的概念类型标签拼接到所述待分析句子中，生成拼接句子；将所述拼接句子输入到语义依存分析模型中，得到所述拼接句子的语义依存关系，其中，所述语义依存分析模型通过根据第一方面所述的模型训练方法训练得到；在所述拼接句子的语义依存关系中，删除与所述概念类型标签相关的依存关系数据，得到所述待分析句子的语义依存关系。
7.根据本发明实施例的第三方面，提供了一种模型训练装置，包括：拼接模块，对训练样本句子中的概念词添加概念类型标签，得到拼接句子；词嵌入模块，通过变换器编码层，对所述拼接句子进行词嵌入处理，使得所述训练样本句子中的非概念词不受所述概念类型标签的影响；训练模块，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得所述语义分析层学习所述概念类型标签的语义，得到训练完成的包括所述变换器编码层和语义依存分析层的语义依存分析模型。
8.根据本发明实施例的第四方面，提供了一种语义依存分析装置，包括：拼接模块，通过将待分析句子中的概念词的概念类型标签拼接到所述待分析句子中，生成拼接句子；
分析模块，将所述拼接句子输入到语义依存分析模型中，得到所述待分析句子的初始语义依存关系，其中，所述语义依存分析模型通过根据第一方面所述的模型训练方法训练得到；后处理模块，在所述拼接句子的语义依存关系中，删除与所述概念类型标签相关的依存关系数据，得到所述待分析句子的语义依存关系。
9.根据本发明实施例的第五方面，提供了一种电子设备，所述设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。
10.根据本发明实施例的第六方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。
11.在本发明实施例的方案中，由于概念类型标签对于训练样本句子中概念词之外的非概念词被遮蔽，非概念词不受概念类型标签的影响，因此增大了在变换器编码层中概念类型标签对概念词的影响。此外，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得语义分析层学习概念类型标签的语义，避免了概念类型标签对概念词的语义分析的影响，从而提高了模型的概念类型适用范围。
附图说明
12.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
13.图1为本发明的一个实施例的模型训练方法的示意图；
14.图2为本发明的另一实施例的模型训练方法的语义依存分析模型的示意图；
15.图3a为本发明的另一实施例的拼接句子的掩码矩阵的示意图；
16.图3b为本发明的另一实施例的掩码矩阵的数学表示的示意图；
17.图4a为本发明的另一实施例的变换器中的多头注意力机制的示意图；
18.图4b为本发明的另一实施例的变换器中的点乘注意力的处理方法的示意图；
19.图5为本发明的另一实施例的语音依存分析方法的示意性流程图；
20.图6为本发明的另一实施例的模型训练装置的示意性框图；
21.图7为本发明的另一实施例的语音依存分析装置的示意性框图；
22.图8为本发明的另一实施例的电子设备的硬件结构。
具体实施方式
23.为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。
24.下面结合本发明实施例附图进一步说明本发明实施例具体实现。在进行语义依存分析时，可以将待分析的句子输入到采用预先训练的语义依存分析模型中，得到相应的语
义依存关系。在上述的语义依存分析模型的训练过程中，可以对训练样本句子进行向量嵌入(embedding)处理，在一个示例中，可以对训练样本句子中的各个概念词进行词向量嵌入处理。另外，各个概念词对应的词性或概念类型的嵌入向量分别连接到各个概念词的词向量中，并且进行概念类型的向量嵌入处理，得到概念标签嵌入向量，从而将有关概念词的概念类型的信息融入到概念标签嵌入向量中。然后，可以利用得到的概念标签嵌入向量对语义依存分析模型进行训练。
25.在上述的方案中，由于各个概念词对应的词性或概念类型的嵌入向量分别连接到各个概念词的词向量中，并且进行概念类型的向量嵌入处理，得到概念标签嵌入向量，因此每个概念词与其概念类型之间具有对应关系，如果在利用对语义依存分析模型进行语义依存分析时，如果出现了在训练过程中未采用的概念类型，使得待分析句子的概念标签嵌入向量与训练样本句子的概念标签嵌入向量差别较大，语义依存分析的分析结果的准确性会非常差，从而语义依存分析模型只能适用于训练样本中的概念类型。
26.图1为本发明的一个实施例的模型训练方法的示意图。图1的模型训练方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于诸如服务器和pc机等设备。该模型训练方法包括：
27.110：对训练样本句子中的概念词添加概念类型标签，得到拼接句子。
28.应理解，将概念词的概念类型标签拼接到训练样本句子中，可以在概念词之前添加概念类型标签，也可以在概念词之后添加概念类型标签，也可以在训练样本句子的其他位置添加概念类型标签，并且建立概念词与概念类型标签的位置关联。另外，在本技术中，对概念类型标签的拼接是指在句子中，基于概念词向量的位置添加概念类型标签向量，而不是在概念类型标签向量连接到概念词向量中(例如，变成更长的向量)。
29.还应理解，当前训练样本句子中的概念类型可以是先前训练句子中未出现过的，也可以是先前训练句子中出现过的。另外，对于训练样本句子中包括多个概念词的情况而言，可以对其中的一部分概念词添加概念类型标签。也可以对全部概念词添加概念类型标签。本发明实施例对此不作限定。
30.120：通过变换器编码层，对拼接句子进行词嵌入处理，使得训练样本句子中的非概念词不受概念类型标签的影响。
31.应理解，变换器(transformer)编码层和语义依存分析层构成了语义依存分析模型。变换器编码层可以为基于变换器的编码器的结构，例如，可以为基于双向变换器编码器(bidirectional encoder representation from transformer，bert)的结构。语义依存分析层可以是基于变换器的结构。
32.还应理解，在应用语义依存分析模型进行分析时，对待分析句子也相应地进行概念类型掩码处理，并且每个待分析句子可以对应掩码矩阵，或者被称为可视化矩阵。
33.130：将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得语义分析层学习概念类型标签的语义，得到训练完成的包括变换器编码层和语义依存分析层的语义依存分析模型。
34.在本发明实施例的方案中，由于概念类型标签对于训练样本句子中概念词之外的非概念词被遮蔽，非概念词不受概念类型标签的影响，因此增大了在变换器编码层中概念类型标签对概念词的影响。此外，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语
义依存分析层，使得语义分析层学习概念类型标签的语义，避免了概念类型标签对概念词的语义分析的影响，从而提高了模型的概念类型适用范围。
35.作为一个示例，将训练样本句子中的概念词的概念类型标签拼接到训练样本句子中，得到拼接句子。基于拼接句子作为变换器编码层的输入，并且基于拼接句子的语义依存关系作为语义依存分析层的输出，对由变换器编码层和变换器编码层构成的语义依存分析模型进行训练。变换器编码层的输出连接到语义依存分析层的输入。变换器编码层用于采用注意力机制，对拼接句子进行标签嵌入处理，概念类型标签对于训练样本句子中概念词的注意力权重高于对于其他词的注意力权重。
36.应理解，在训练样本句子中包括多个概念词时，对于本文的注意力机制，优选地，目标概念词对全部其他概念词的概念类型标签全不可见，即，将目标概念词对于其他任一概念词的概念类型标签的注意力权重设定为0。另外，目标概念词对其自身对应的概念类型标签可见，即，将目标概念词对于其概念类型标签的注意力权重设定为1。
37.还应理解，一般地，也可以将目标概念词对于其他任一概念词的概念类型标签的注意力权重设定为小于目标概念词对其自身对应的概念类型标签的注意力权重。
38.在本示例中，变换器编码层用于采用注意力机制，对拼接句子进行标签嵌入处理，概念类型标签对于训练样本句子中概念词的注意力权重高于对于其他词的注意力权重，因此对于拼接句子而言，概念类型标签对于概念词的注意力权重比其他词的注意力权重更大，使得在经标签嵌入处理后的句子中，概念类型标签对于概念词的影响比对其他词的影响更大，从而即使有新的概念类型出现，该概念类型对于句子中的其他词的影响也较小，进而保证了采用语义依存分析模型进行语义依存分析的效果，提高了语义依存分析模型对概念类型适用范围。
39.下面将对transformer(变换器)和双向变换器编码器(bidirectional encoder representation from transformer，bert)进行说明。
40.具体而言，transformer(变换器)模型采用了multi-head attention(多头注意力机制)机制。transformer为encoder-decoder(编码器解码器)架构。但其结构相比于注意力机制(attention)更加复杂。通常，encoder层可以由多个(例如，6个)encoder堆叠在一起。类似地，decoder层也可以采用同样层数的encoder。另外，encoder可以包含两层，自注意力(self-attention)层和前馈神经网络层，自注意力(self-attention)层能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。decoder也可以包含encoder提到的两层网络，但是在这两层中间还有一层注意力(attention)层，用于帮助当前节点获取到当前需要关注的重点内容。
41.另外，bert采用了transformer的编码器结构，是一种泛化能力较强的预训练模型。预训练的好处在于在特定场景使用时不需要用大量的语料来进行训练，节约时间效率高效。通常，bert的输入可以是单一的一个句子或者是句子对，实际的输入值是segment embedding(段嵌入)与position embedding(位置嵌入)相加。因此，通常，bert的输入词向量是token embedding(符号嵌入)、segment embedding和position embedding之和。
42.在本发明的另一实现方式中，通过变换器编码层，对拼接句子进行词嵌入处理，包括：利用变换器编码层，通过拼接句子的掩码矩阵，对拼接句子进行标签嵌入处理，其中，掩码矩阵中的元素指示概念标签对于训练样本句子中的各个词的注意力权重。
43.在本发明的另一实现方式中，概念类型标签对于概念词具有第一注意力权重，概念类型标签对于非概念词具有第二注意力权重，其中，第一注意力权重指示概念类型标签对于概念词可见，并且第二注意力权重指示概念类型标签对于非概念词不可见。
44.在本发明的另一实现方式中，训练样本句子属于目标任务训练样本，变换器编码层还通过源任务训练样本进行训练。
45.由于训练样本句子属于目标任务训练样本，变换器编码层通过源任务训练样本训练得到，因此通过基于目标任务和源任务的多任务训练过程，变换器编码层学习到了通用的隐含上下文关系，从而进一步提高了训练得到的语义依存分析模型的分析效率。换言之，利用多任务学习的数据训练了泛化能力较强的模型，在基于源任务进行训练之后，仅基于目标任务对权重参数进行轻微的调整，即可得到可靠的语义依存分析训练模型。
46.在本发明的另一实现方式中，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，包括：在拼接句子的语义依存结构中将概念类型标签相关的信息设置为缺省，得到训练样本句子的语义依存分析标签；以将经词嵌入处理的句子进行标签遮蔽处理得到的结果作为输入，并且以语义依存分析标签作为输出，对语义依存分析层进行训练。
47.具体而言，图2为本发明的另一实施例的模型训练方法的语义依存分析模型的示意图。如图所示，左侧为输入为源任务，右侧输入为目标任务。例如，源任务和目标任务可以为相同领域或不同领域的数据，也可以为相同场景或不同场景的数据。
48.在本发明的另一实现方式中，变换器编码层通过拼接句子的掩码矩阵，对拼接句子进行标签嵌入处理，其中，掩码矩阵中的元素指示概念标签对于训练样本句子中的各个词的注意力权重。
49.由于拼接句子的掩码矩阵能够提高数据处理的效率，因此在变换器编码层采用掩码矩阵，能够在保证数据处理效率的同时，提高了对变换器模型框架的兼容性。
50.具体而言，图3a为本发明的另一实施例的拼接句子的掩码矩阵的示意图。图3b为本发明的另一实施例的掩码矩阵的数学表示的示意图。如图所示，图3a中的深色色块为可见关系，浅色色块表示不可见关系。反映在掩码矩阵中，在注意力机制中，可见关系可以为矩阵元素1，不可见关系可以表示为矩阵元素0。应理解，这仅仅为示例性，可以将可见关系对应的矩阵元素值设定为大于不可见关系对应的矩阵元素值。如图3a所示，对于目标任务中的数据，为带有概念的词后面拼接其概念类型，比如：周六、周日是“日期”概念，公积金是“服务”概念。在bert编码阶段，保证句子中的其他词的编码不受到概念类型词的影响，换言之，概念类型词只影响其直接修饰的单词。
51.具体而言，在训练阶段，在变换器编码层，通过mask transformer保证句子中其他词对无关实体类型词不可见。在语义依存分析层，对实体类型词加入标签遮蔽使其不影响语义依存分析层的训练过程。在分析阶段，在解析出的语义依存树(语义依存关系结构的示例)中去掉“日期”、“地点”、“服务目标”等实体类型，将拼接句子的语义依存关系结构的还原为待分析句子的语义依存结构的格式。
52.作为一个示例，概念类型标签对于概念词具有第一注意力权重，概念类型标签对于其他词具有第二注意力权重。第一注意力权重指示概念类型标签对于概念词可见。第二注意力权重指示概念类型标签对于其他词不可见。
53.由于第一注意力权重指示概念类型标签对于概念词可见。第二注意力权重指示概念类型标签对于其他词不可见，因此极大地提高了掩码处理的效率，既保证了概念词之间的语义依存关系，又增大了概念类型的适用范围，从而提高了训练得到的语义依存分析模型的分析效率。
54.作为另一示例，训练样本句子中包括多个概念词，多个概念词中包括第一概念词和第二概念词。第一概念词的概念类型标签对于第一概念词具有第一注意力权重，第二概念词的概念类型标签对于第一概念词具有第二注意力权重，第二概念词对应第一概念词具有第三注意力权重。其中，第一注意力权重大于第二注意力权重，第一注意力权重大于第三注意力权重。
55.由此，通过学习上下文信息实现了目标概念词与其概念类型标签之间的上下文关联大于目标概念词与其他词之间的上下文关联，增大了概念类型的适用范围，同时保证了学习到更加准确的语义依存关系，从而提高了训练得到的语义依存分析模型的分析效率。
56.另外，在一个例子中，第三注意力权重大于第二注意力权重。由此，通过学习上下文信息实现了目标概念词与其他概念词之间的上下文关联大于目标概念词与其他概念词的概念类型之间的上下文关联，保证了学习到更加准确的语义依存关系，从而提高了训练得到的语义依存分析模型的分析效率。
57.具体而言，图4a为本发明的另一实施例的变换器中的多头注意力机制的示意图。如图所示，多头注意力(multi-head attention)机制可以简述为：查询(query，q)、键(key，k)和值(value，v)首先进过一个线性处理，然后输入到放缩点乘注意力(这里可以进行h次，对应于所谓的多头所表示的含义，每一次算一个头(head)，而且每次q、k、v进行线性变换的参数w可以不同)，然后将h次的放缩点乘注意力结果进行拼接(例如，数组连接)，再进行一次线性处理得到的值作为多头注意力的结果。
58.图4b为本发明的另一实施例的变换器中的点乘注意力的处理方法的示意图。将查询(query，q)和键(key，k)进行矩阵相乘处理(线性处理)，然后进行标准化处理。利用掩码矩阵对标准化处理的结果进行处理。将掩码矩阵的处理结果进行归一化处理，然后再与值(value，v)再次进行矩阵相乘处理(线性处理)，得到点乘注意力的结果。
59.应理解，掩码矩阵可以基于填充掩码矩阵实现，以实现对变换器的编码器机构的兼容。掩码矩阵还可以用于对输入的训练样本句子的序列长度进行对齐处理。
60.在本发明的另一实现方式中，将训练样本句子中的概念词的概念类型标签拼接到训练样本句子中，包括：确定训练样本句子中的各个词的位置信息；基于各个词的位置信息，将概念类型标签拼接到概念词相邻的位置。
61.由于在训练样本句子中，将概念类型标签拼接到概念词相邻的位置，得到拼接句子，因此使得提高了拼接处理的效率，进一步提高了概念类型标签的标注效率。
62.在本发明的另一实现方式中，对由变换器编码层和变换器编码层构成的语义依存分析模型进行训练，包括：通过目标损失函数，对由变换器编码层和变换器编码层构成的语义依存分析模型进行训练，其中，目标损失函数用于基于概念类型标签的位置对经标签嵌入处理的句子进行标签掩码处理。换言之，通过目标损失函数，对变换器编码层和语义依存分析层进行参数调整，得到语义依存分析模型。
63.由于目标损失函数用于基于概念类型标签的位置对经标签嵌入处理的句子进行
标签掩码处理，因此在得到的语义依存分析模型的参数中极大地减小了概念类型标签对概念词之外的其他词的影响，使得得到的语义依存分析模型能够进行更准确的语义依存分析。
64.具体而言，对于源任务训练句子，可以采用第一变换器进行训练。对于目标任务训练句子，可以采用第二变换器进行训练。第一变换器对应于第一损失函数，第二变换器对应于第二损失函数(上述的目标损失函数)。第一损失函数可以用于基于概念类型标签的位置对经标签嵌入处理的句子进行标签掩码处理。
65.另外，对于源任务训练样本句子而言，各个概念词对应的词性或概念类型的嵌入向量可以分别连接到各个概念词的词向量中，并且进行概念类型的向量嵌入处理，得到概念标签嵌入向量，从而将有关概念词的概念类型的信息融入到概念标签嵌入向量中。然后，可以利用得到的概念标签嵌入向量对语义依存分析模型进行训练。其中，第一损失函数不进行标签掩码处理。
66.图5为本发明的另一实施例的语音依存分析方法的示意性流程图。图5的语义依存分析方法包括：
67.510：通过将待分析句子中的概念词的概念类型标签拼接到待分析句子中，生成拼接句子。
68.520：将拼接句子输入到语义依存分析模型中，得到拼接句子的语义依存关系，其中，语义依存分析模型通过模型训练方法训练得到。
69.530：在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的语义依存关系。
70.在本发明实施例的方案中，变换器编码层用于采用注意力机制，对拼接句子进行标签嵌入处理，概念类型标签对于训练样本句子中概念词的注意力权重高于对于其他词的注意力权重，因此对于拼接句子而言，概念类型标签对于概念词的注意力权重比其他词的注意力权重更大，使得在经标签嵌入处理后的句子中，概念类型标签对于概念词的影响比对其他词的影响更大，从而即使有新的概念类型出现，该概念类型对于句子中的其他词的影响也较小，进而保证了采用语义依存分析模型进行语义依存分析的效果，提高了语义依存分析模型对概念类型适用范围。此外，在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的语义依存关系，从而提高了语义依存分析结果与待分析句子的对应性。
71.应理解，本发明实施例的模型训练方法和语义依存关系分析方法可以应用于对话场景中的意图识别、问答场景、推理场景等。
72.例如，可以通过将待分析意图识别句子中的概念词的概念类型标签拼接到待分析句子中，生成拼接句子。将拼接句子输入到语义依存分析模型中，得到拼接句子的语义依存关系。在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析意图识别句子的语义依存关系，基于该语义依存关系，得到意图识别结果。
73.例如，可以通过将问句中的概念词的概念类型标签拼接到待分析句子中，生成拼接句子。将拼接句子输入到语义依存分析模型中，得到拼接句子的语义依存关系。在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到问句的语义依存关系，基于该语义依存关系，得到答句。
74.例如，可以通过将待推理文本中的概念词的概念类型标签拼接到待分析句子中，生成拼接句子。将拼接句子输入到语义依存分析模型中，得到拼接句子的语义依存关系。在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待推理文本的语义依存关系，基于该语义依存关系，得到推理结果。
75.具体而言，再次参照图2的示例，拼接句子或待分析句子的语义依存关系可以以语义依存关系结构表示。在解析出的语义依存树(语义依存关系结构的示例)中去掉“日期”、“地点”、“服务目标”等实体类型，将拼接句子的语义依存关系结构的还原为待分析句子的语义依存结构的格式。
76.在本发明的另一实现方式中，在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的语义依存关系，包括：在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的初始语义依存关系；对初始语义依存关系进行归一化处理，得到待分析句子的语义依存关系。
77.由于对初始语义依存关系进行归一化处理，得到待分析句子的语义依存关系，因此使得得到的语义依存分析结果进一步与待分析句子具有更好的对应性，以便进行后续的自然语言处理。
78.在本发明的另一实现方式中，该方法还包括：在对话场景中，获取所述待分析句子；基于所述待分析句子的语义依存关系，答复所述待分析句子。
79.应理解，待分析句子可以为诸如问题句子或回复句子等第一对话语句。可以基于所述待分析句子的语义依存关系，确定相应的诸如回复句子或问题句子的第二对话语句。可以利用第二对话语句，答复所述待分析句子。
80.还应理解，对话场景可以为推理对话场景、知识问答场景或意图识别场景等。
81.图6为本发明的另一实施例的模型训练装置的示意性框图。图6的模型训练装置包括：
82.拼接模块610，对训练样本句子中的概念词添加概念类型标签，得到拼接句子。
83.词嵌入模块620，通过变换器编码层，对所述拼接句子进行词嵌入处理，使得所述训练样本句子中的非概念词不受所述概念类型标签的影响。
84.训练模块630，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得所述语义分析层学习所述概念类型标签的语义，得到训练完成的包括所述变换器编码层和语义依存分析层的语义依存分析模型。
85.在本发明实施例的方案中，由于概念类型标签对于训练样本句子中概念词之外的非概念词被遮蔽，非概念词不受概念类型标签的影响，因此增大了在变换器编码层中概念类型标签对概念词的影响。此外，将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得语义分析层学习概念类型标签的语义，避免了概念类型标签对概念词的语义分析的影响，从而提高了模型的概念类型适用范围。
86.在本发明的另一实现方式中，变换器编码层通过拼接句子的掩码矩阵，对拼接句子进行标签嵌入处理，其中，掩码矩阵中的元素指示概念标签对于训练样本句子中的各个词的注意力权重。
87.在本发明的另一实现方式中，概念类型标签对于概念词具有第一注意力权重，概念类型标签对于其他词具有第二注意力权重，其中，第一注意力权重指示概念类型标签对
于概念词可见，并且第二注意力权重指示概念类型标签对于其他词不可见。
88.在本发明的另一实现方式中，训练样本句子属于目标任务训练样本，变换器编码层还通过源任务训练样本进行训练。
89.在本发明的另一实现方式中，拼接模块具体用于：确定训练样本句子中的各个词的位置信息；基于各个词的位置信息，将概念类型标签拼接到概念词相邻的位置。
90.在本发明的另一实现方式中，训练模块具体用于：通过目标损失函数，对由变换器编码层和变换器编码层构成的语义依存分析模型进行训练，其中，目标损失函数用于基于概念类型标签的位置对经标签嵌入处理的句子进行标签掩码处理。
91.在本发明的另一实现方式中，训练模块具体用于：在所述拼接句子的语义依存结构中将所述概念类型标签相关的信息设置为缺省，得到所述训练样本句子的语义依存分析标签；以将经词嵌入处理的句子进行标签遮蔽处理得到的结果作为输入，并且以所述语义依存分析标签作为输出，对语义依存分析层进行训练。
92.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
93.图7为本发明的另一实施例的语音依存分析装置的示意性框图。图7的语义依存分析装置包括：
94.拼接模块710，通过将待分析句子中的概念词的概念类型标签拼接到待分析句子中，生成拼接句子。
95.分析模块720，将拼接句子输入到语义依存分析模型中，得到待分析句子的初始语义依存关系，其中，语义依存分析模型通过根据模型训练方法训练得到。
96.后处理模块730，在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的语义依存关系。
97.在本发明实施例的方案中，变换器编码层用于采用注意力机制，对拼接句子进行标签嵌入处理，概念类型标签对于训练样本句子中概念词的注意力权重高于对于其他词的注意力权重，因此对于拼接句子而言，概念类型标签对于概念词的注意力权重比其他词的注意力权重更大，使得在经标签嵌入处理后的句子中，概念类型标签对于概念词的影响比对其他词的影响更大，从而即使有新的概念类型出现，该概念类型对于句子中的其他词的影响也较小，进而保证了采用语义依存分析模型进行语义依存分析的效果，提高了语义依存分析模型对概念类型适用范围。此外，在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的语义依存关系，从而提高了语义依存分析结果与待分析句子的对应性。
98.在本发明的另一实现方式中，后处理模块具体用于：在拼接句子的语义依存关系中，删除与概念类型标签相关的依存关系数据，得到待分析句子的初始语义依存关系；对初始语义依存关系进行归一化处理，得到待分析句子的语义依存关系。
99.在本发明的另一实现方式中，该装置还包括获取模块和答复模块。获取模块在对话场景中，获取所述待分析句子。答复模块基于所述待分析句子的语义依存关系，答复所述待分析句子。
100.本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法
实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
101.图8为本发明的另一实施例的电子设备的硬件结构；如图8所示，该电子设备的硬件结构可以包括：处理器801，通信接口802，存储介质803和通信总线804；
102.其中处理器801、通信接口802、存储介质803通过通信总线804完成相互间的通信；可选地，通信接口802可以为通信模块的接口；
103.其中，所述处理器具体可以配置为：对训练样本句子中的概念词添加概念类型标签，得到拼接句子；通过变换器编码层，对所述拼接句子进行词嵌入处理，使得所述训练样本句子中的非概念词不受所述概念类型标签的影响；将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得所述语义分析层学习所述概念类型标签的语义，得到训练完成的包括所述变换器编码层和语义依存分析层的语义依存分析模型；
104.或者，所述处理器具体可以配置为：通过将待分析句子中的概念词的概念类型标签拼接到所述待分析句子中，生成拼接句子；将所述拼接句子输入到语义依存分析模型中，得到所述拼接句子的语义依存关系，其中，所述语义依存分析模型通过根据模型训练方法训练得到；在所述拼接句子的语义依存关系中，删除与所述概念类型标签相关的依存关系数据，得到所述待分析句子的语义依存关系。
105.所述处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
106.所述存储介质可以是，但不限于，随机存取存储介质(random access memory，ram)，只读存储介质(read only memory，rom)，可编程只读存储介质(programmable read-only memory，prom)，可擦除只读存储介质(erasable programmable read-only memory，eprom)，电可擦除只读存储介质(electric erasable programmable read-only memory，eeprom)等。
107.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在存储介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明所述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(ram)、只读存储介质(rom)、可擦式可编程只读存储介质(eprom或闪存)、光纤、便携式紧凑磁盘只读存储介质(cd-rom)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介
质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何存储介质，该存储介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
108.可以以一种或多种程序设计语言或其组合来编写配置为执行本发明的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
109.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
110.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。这些模块的名称在某种情况下并不构成对该模块本身的限定。
111.作为另一方面，本发明还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所描述的方法。
112.作为另一方面，本发明还提供了一种存储介质，该存储介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对训练样本句子中的概念词添加概念类型标签，得到拼接句子；通过变换器编码层，对所述拼接句子进行词嵌入处理，使得所述训练样本句子中的非概念词不受所述概念类型标签的影响；将词嵌入处理后的拼接句子进行标签遮蔽处理后通过语义依存分析层，使得所述语义分析层学习所述概念类型标签的语义，得到训练完成的包括所述变换器编码层和语义依存分析层的语义依存分析模型；
113.或者，使得该装置：通过将待分析句子中的概念词的概念类型标签拼接到所述待分析句子中，生成拼接句子；将所述拼接句子输入到语义依存分析模型中，得到所述拼接句子的语义依存关系，其中，所述语义依存分析模型通过根据模型训练方法训练得到；在所述
拼接句子的语义依存关系中，删除与所述概念类型标签相关的依存关系数据，得到所述待分析句子的语义依存关系。
114.在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。
115.当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。
116.以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：耿瑞莹孙健黎槟华李永彬
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。