统一信息抽取方法和装置与流程

文档序号：36238838发布日期：2023-12-01 22:27阅读：72来源：国知局

本说明书一个或多个实施例涉及计算机领域，尤其涉及统一信息抽取方法和装置。

背景技术：

1、信息抽取任务(information extraction，ie)是自然语言处理中一个常见的任务，旨在从非结构化的文本中识别跟输出结构化的信息，包括命名实体识别(named entityrecognition，ner)任务、实体关系抽取任务、事件抽取任务等等，由于这些任务对应的信息可以辅助其他任务，所以通常模型会联合多个任务训练。通过统一信息抽取，可以实现对不同信息抽取任务的统一建模，无论是命名实体识别任务，还是实体关系抽取任务，或者是事件抽取任务，并且无论是具体哪个领域要抽取的信息类型，都可以通过该统一信息抽取实现。

2、现有技术中，统一信息抽取基于神经网络模型而实现，不能实现快速类别扩展，不能对少样本类型提供支持，模型的迭代效率低。其中，模型训练过程中需要基于样本数据而进行，样本数据中包括的特征数据或者标签数据可能属于隐私数据，需要保护隐私数据不被泄露。

3、因此，需要提供一种统一信息抽取方案，能够实现快速类别扩展，能对少样本类型提供支持，模型的迭代效率更高。

技术实现思路

1、本说明书一个或多个实施例描述了一种统一信息抽取方法和装置，能够实现快速类别扩展，能对少样本类型提供支持，模型的迭代效率更高。

2、第一方面，提供了一种统一信息抽取方法，方法包括：

3、获取目标文本及信息抽取任务对应的提示词序列；所述提示词序列包括指示任务类型的第一提示词，以及指示待提取的要素类型的第二提示词；

4、将所述提示词序列中的各个提示词，以及所述目标文本中的各个字分别作为单个输入单元，将各输入单元输入预先训练的编码器，得到各输入单元分别对应的初始嵌入向量；

5、利用注意力处理模型，基于各初始嵌入向量确定各个字与提示词序列之间的注意力，基于所述注意力和各初始嵌入向量得到各输入单元分别对应的二次嵌入向量；

6、利用关系处理模型，根据各二次嵌入向量，确定相关性矩阵，所述相关性矩阵至少包括第一关系矩阵和第二关系矩阵，其中第一关系矩阵表征所述目标文本中各个字与自身的相关性系数，第二关系矩阵表征所述目标文本中各个字分别与所述提示词序列中的各个提示词的相关性系数；所述注意力处理模型和所述关系处理模型预先联合训练；

7、基于所述第一关系矩阵确定在所述目标文本中抽取要素的边界，基于所述第二关系矩阵确定在所述目标文本中抽取要素的要素类型；

8、根据所述边界和要素类型，确定所述信息抽取任务的输出信息。

9、在一种可能的实施方式中，所述信息抽取任务属于命名实体识别任务；所述第一提示词用于指示的任务类型为命名实体识别任务；所述第二提示词用于指示的待提取的要素类型为实体类型；

10、所述确定所述信息抽取任务的输出信息，包括：

11、将所述边界范围内的字组合为一个实体，将该实体和该实体的实体类型组合为一个结构化输出单元，以构成所述输出信息。

12、在一种可能的实施方式中，所述相关性矩阵还包括第三关系矩阵，其中第三关系矩阵表征所述目标文本中各个字之间的相关性系数；

13、所述方法还包括：

14、基于所述第三关系矩阵确定在所述目标文本中抽取要素之间的关联关系；

15、所述根据所述边界和要素类型，确定所述信息抽取任务的输出信息，包括：

16、根据所述边界、要素类型和所述关联关系，确定所述信息抽取任务的输出信息。

17、进一步地，所述信息抽取任务属于实体关系抽取任务；所述第一提示词用于指示的任务类型为待抽取的实体关系的关系类型；所述第二提示词用于指示的待提取的要素类型为满足所述关系类型的主体或客体；

18、所述根据所述边界、要素类型和所述关联关系，确定所述信息抽取任务的输出信息，包括：

19、将所述边界范围内的字组合为一个实体；从所述要素类型为主体的实体、所述要素类型为客体的实体中，选取二者之间具有的关联关系为所述关系类型的实体组合为一个结构化输出单元，以构成所述输出信息。

20、进一步地，所述信息抽取任务属于事件抽取任务；所述第一提示词用于指示的任务类型为待抽取的事件的事件类型；所述第二提示词用于指示的待提取的要素类型为满足所述事件类型的触发词或论元；

21、所述根据所述边界、要素类型和所述关联关系，确定所述信息抽取任务的输出信息，包括：

22、将所述边界范围内的字组合为一个实体；从所述要素类型为触发词的实体、所述要素类型为论元的实体中，选取实体之间的关联关系为所述事件类型的实体组合为一个结构化输出单元，以构成所述输出信息。

23、在一种可能的实施方式中，基于各初始嵌入向量确定各个字与提示词序列之间的注意力，基于所述注意力和各初始嵌入向量得到各输入单元分别对应的二次嵌入向量，包括：

24、根据所述目标文本中的任意一个字对应的初始嵌入向量，以及所述提示词序列中的第二提示词对应的初始嵌入向量，利用第一参数，确定该字与第二提示词之间的第一相关性得分；

25、根据所述第一相关性得分，对该字对应的初始嵌入向量进行加权处理，得到该字对应的中间嵌入向量；

26、根据该字对应的中间嵌入向量，以及所述提示词序列中的第一提示词对应的初始嵌入向量，利用第二参数，确定该字与第一提示词之间的第二相关性得分；

27、根据所述第二相关性得分，对该字对应的中间嵌入向量进行加权处理，得到该字对应的二次嵌入向量，其中所述第一参数和第二参数是所述注意力处理模型中经训练得到的参数。

28、在一种可能的实施方式中，所述注意力处理模型和所述关系处理模型通过以下方式联合训练：

29、获得样本文本，样本提示序列，以及标注好的相关性矩阵；

30、将所述样本提示序列中的各个提示词，以及所述样本文本中的各个字分别作为单个输入单元输入所述编码器，得到各输入单元分别对应的初始嵌入向量；

31、利用所述注意力处理模型，得到各输入单元分别对应的二次嵌入向量；

32、利用所述关系处理模型，根据各二次嵌入向量，预测得到相关性矩阵；

33、根据预测的相关性矩阵与所述标注好的相关性矩阵的差异，更新所述注意力处理模型和所述关系处理模型。

34、第二方面，提供了一种统一信息抽取装置，装置包括：

35、获取单元，用于获取目标文本及信息抽取任务对应的提示词序列；所述提示词序列包括指示任务类型的第一提示词，以及指示待提取的要素类型的第二提示词；

36、编码单元，用于将所述获取单元获取的提示词序列中的各个提示词，以及所述获取单元获取的目标文本中的各个字分别作为单个输入单元，将各输入单元输入预先训练的编码器，得到各输入单元分别对应的初始嵌入向量；

37、注意力处理单元，用于利用注意力处理模型，基于所述编码单元得到的各初始嵌入向量确定各个字与提示词序列之间的注意力，基于所述注意力和各初始嵌入向量得到各输入单元分别对应的二次嵌入向量；

38、关系处理单元，用于利用关系处理模型，根据所述注意力处理单元得到的各二次嵌入向量，确定相关性矩阵，所述相关性矩阵至少包括第一关系矩阵和第二关系矩阵，其中第一关系矩阵表征所述目标文本中各个字与自身的相关性系数，第二关系矩阵表征所述目标文本中各个字分别与所述提示词序列中的各个提示词的相关性系数；所述注意力处理模型和所述关系处理模型预先联合训练；

39、确定单元，用于基于所述关系处理单元得到的第一关系矩阵确定在所述目标文本中抽取要素的边界，基于所述关系处理单元得到的第二关系矩阵确定在所述目标文本中抽取要素的要素类型；

40、输出单元，用于根据所述确定单元得到的边界和要素类型，确定所述信息抽取任务的输出信息。

41、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

42、第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

43、通过本说明书实施例提供的方法和装置，首先获取目标文本及信息抽取任务对应的提示词序列；所述提示词序列包括指示任务类型的第一提示词，以及指示待提取的要素类型的第二提示词；然后将所述提示词序列中的各个提示词，以及所述目标文本中的各个字分别作为单个输入单元，将各输入单元输入预先训练的编码器，得到各输入单元分别对应的初始嵌入向量；接着利用注意力处理模型，基于各初始嵌入向量确定各个字与提示词序列之间的注意力，基于所述注意力和各初始嵌入向量得到各输入单元分别对应的二次嵌入向量；再利用关系处理模型，根据各二次嵌入向量，确定相关性矩阵，所述相关性矩阵至少包括第一关系矩阵和第二关系矩阵，其中第一关系矩阵表征所述目标文本中各个字与自身的相关性系数，第二关系矩阵表征所述目标文本中各个字分别与所述提示词序列中的各个提示词的相关性系数；所述注意力处理模型和所述关系处理模型预先联合训练；接着基于所述第一关系矩阵确定在所述目标文本中抽取要素的边界，基于所述第二关系矩阵确定在所述目标文本中抽取要素的要素类型；最后根据所述边界和要素类型，确定所述信息抽取任务的输出信息。由上可见，本说明书实施例，通过提示词序列统一了不同任务类型的信息抽取任务，并且，在提示词序列和目标文本之间进行了基于注意力机制的处理，使得提示词序列与目标文本之间产生交互，从而得到各输入单元分别对应的二次嵌入向量，该二次嵌入向量能够适应于提示词序列，有助于后续抽取出与提示词序列相适应的要素，此外，通过相关性矩阵有助于针对多种任务类型统一对模型进行训练，能够实现快速类别扩展，能对少样本类型提供支持，模型的迭代效率更高。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐军孙梦姝李若鹏
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：一种提取芦荟活性成分的美容化妆品制备工艺
上一篇：无水冷却发电系统及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。