一种自然语言处理方法及装置与流程

文档序号：35871910发布日期：2023-10-28 06:28阅读：50来源：国知局

本技术涉及计算机，尤其涉及一种自然语言处理方法及装置。

背景技术：

1、实体关系识别是指在自然语言处理过程中抽取文本中实体间所隐含关系的任务，其可以用于各种具有搜索功能的客户端对应的搜索系统中。如，客户端接收查询文本或语音，根据查询文本或语音转换得到的查询文本生成查询请求，并将该查询请求发送至搜索系统。搜索系统接收查询请求后，解析得到查询请求中的查询文本，并抽取查询文本中的实体和实体的查询实体属性，进一步从知识图谱中匹配到查询文本中实体和查询实体属性的关联文本，根据关联文本生成查询文本的请求响应返回至客户端。

2、目前，主要是根据小样本学习算法，从知识图谱中匹配到查询文本中实体和查询实体属性的关联文本，但小样本学习算法仅能在句子级别获取查询文本和待匹配文本的相似度，将相似度最大的待匹配文本作为关联文本。这种方式得到的关联文本的准确性差。

3、因此，现在亟需一种自然语言处理方法及装置，能够在更细粒度上匹配文本，提高匹配查询文本的关联文本的准确性。

技术实现思路

1、本技术实施例提供一种自然语言处理方法及装置，能够在更细粒度上匹配文本，提高匹配查询文本的关联文本的准确性。

2、第一方面，本技术实施例提供一种自然语言处理方法，该方法包括：

3、响应于查询请求，获得所述查询请求携带的查询文本的查询词向量序列；

4、获取预设的各请求模板集合中的请求模板，得到多个请求模板，并获取所述多个请求模板各自的模板词向量序列；

5、针对所述多个请求模板，分别执行如下步骤：

6、获得所述查询词向量序列中各查询词向量，分别与一个请求模板的模板词向量序列中各模板词向量之间的词相似度；

7、基于获得的各词相似度，在所述查询词向量序列中，补偿所述各查询词向量与所述各模板词向量之间的关联关系，获得上下文查询向量，以及在所述一个模板词向量序列中补偿所述关联关系，获得上下文模板向量；

8、根据所述上下文查询向量和所述上下文模板向量，确定所述查询文本与所述一个请求模板的文本相似度；

9、基于获得的各文本相似度，将符合文本相似度条件的请求模板所属的请求模板集合关联的候选文本，作为所述查询文本的关联文本。

10、第二方面，本技术实施例提供一种自然语言处理装置，该装置包括：

11、获取单元，用于响应于查询请求，获得所述查询请求携带的查询文本的查询词向量序列；获取预设的各请求模板集合中的请求模板，得到多个请求模板，并获取所述多个请求模板各自的模板词向量序列；

12、第一处理单元，用于针对所述多个请求模板，分别执行如下步骤：

13、获得所述查询词向量序列中各查询词向量，分别与一个请求模板的模板词向量序列中各模板词向量之间的词相似度；

14、基于获得的各词相似度，在所述查询词向量序列中，补偿所述各查询词向量与所述各模板词向量之间的关联关系，获得上下文查询向量，以及在所述一个模板词向量序列中补偿所述关联关系，获得上下文模板向量；

15、根据所述上下文查询向量和所述上下文模板向量，确定所述查询文本与所述一个请求模板的文本相似度；

16、第二处理单元，用于基于获得的各文本相似度，将符合文本相似度条件的请求模板所属的请求模板集合关联的候选文本，作为所述查询文本的关联文本。

17、可选的，所述获取单元具体用于：对所述查询文本进行逐字拆分，获得相应的字序列，并将所述查询文本的字序列中每相邻两个字进行组合，获得相应的查询组合词；获取各查询组合词各自对应的查询词向量，并基于获得的各查询词向量，获得所述查询文本的查询词向量序列。

18、可选的，所述获取单元具体用于：分别将所述多个请求模板进行逐字拆分，获得所述多个请求模板各自的字序列；

19、针对所述多个请求模板，分别执行如下步骤：将一个请求模板的字序列中每相邻两个字进行组合，获得相应的模板组合词；获取各模板组合词各自对应的模板词向量，并基于获得的各模板词向量，获得所述一个请求模板的模板词向量序列。

20、可选的，第一处理单元具体用于：将每个查询词向量与所述各模板词向量的各词相似度，按照所述各模板词向量在所述一个模板词向量序列中的顺序排序，获得每个查询词向量的词相似度分布；

21、分别基于各查询词向量各自的词相似度分布，补偿对应查询词向量与所述各模板词向量之间的关联关系，获得所述各查询词向量各自的上下文查询词向量；

22、将所述各上下文查询词向量按照各自对应的查询词向量在所述查询向量序列中的顺序排序，得到所述上下文查询向量。

23、可选的，第一处理单元具体用于：将每个模板词向量与所述各查询词向量的各词相似度，按照所述各查询词向量在所述查询词向量序列中的顺序排序，获得每个模板词向量的词相似度分布；

24、分别基于各模板词向量各自的词相似度分布，补偿对应模板词向量与所述各查询词向量之间的关联关系，获得所述各模板词向量各自的上下文模板词向量；

25、将所述各上下文模板词向量按照各自对应的模板词向量在所述模板向量序列中的顺序排序，得到所述上下文模板向量。

26、可选的，第一处理单元具体用于：分别将所述各查询词向量各自的词相似度分布归一化处理，得到所述各查询词向量各自的查询概率分布；

27、分别基于各查询概率分布，对所述各模板词向量进行加权求和处理，得到所述各查询词向量各自的查询拼接向量；

28、分别将所述各查询词向量与各自的查询拼接向量进行拼接，获得所述各查询词向量各自的上下文查询词向量。

29、可选的，第一处理单元具体用于：分别将所述各模板词向量各自的词相似度分布归一化处理，得到所述各模板词向量各自的模板概率分布；

30、分别基于各模板概率分布，对所述各查询词向量进行加权求和处理，得到所述各模板词向量各自的模板拼接向量。

31、分别将所述各模板词向量与各自的模板拼接向量进行拼接，获得所述各模板词向量各自的上下文查询词向量。

32、可选的，第一处理单元具体用于：获取所述上下文查询向量和所述上下文模板向量的差值绝对值，并将所述上下文查询向量、所述上下文模板向量和所述差值绝对值拼接，得到上下文拼接向量；

33、将所述上下文拼接向量进行降维处理，获得所述文本相似度。

34、可选的，第一处理单元具体用于：对所述各查询词向量各自的上下文查询词向量进行平均池化处理，获得所述各查询词向量各自的平均池化后的上下文查询词向量；

35、将各平均池化后的上下文查询词向量按照各自对应的查询词向量在所述查询向量序列中的顺序排序，得到所述上下文查询向量。

36、可选的，第一处理单元具体用于：对所述各模板词向量各自的上下文模板词向量进行平均池化处理，获得所述各模板词向量各自的平均池化后的上下文模板词向量；

37、将各平均池化后的上下文模板词向量按照各自对应的模板词向量在所述一个模板向量序列中的顺序排序，得到所述上下文模板向量。

38、可选的，训练单元，具体用于：所述方法是通过目标关系识别模型执行的，所述目标关系识别模型的训练过程如下：

39、基于预设的训练样本集对待训练的关系识别模型进行多轮迭代训练，每个训练样本包括查询样本和多个模板样本，所述多个模板样本中有一个正样本；其中，在一轮迭代过程中，执行以下操作：

40、获得训练样本中查询样本的第一词向量序列，并获得训练样本中各模板样本各自的第二词向量序列；

41、针对所述各模板样本，分别执行如下步骤：

42、获得所述第一词向量序列中各第一词向量，分别与一个模板样本的第二词向量序列中各第二词向量之间的样本词相似度；基于获得的各样本词相似度，在所述第一词向量序列中，补偿所述各第一词向量与所述各第二词向量之间的样本关联关系，获得第一上下文向量，以及在所述一个第二词向量序列中补偿所述样本关联关系，获得第二上下文向量；

43、基于所述第一上下文向量和所述第二上下文向量，确定所述查询样本与所述一个模板样本的样本相似度；

44、基于获得的各样本相似度和所述正样本，调整所述关系识别模型的参数。

45、第三方面，本技术实施例提供的一种计算机设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述第一方面中任意一种自然语言处理方法。

46、第四方面，本技术实施例提供的一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在计算机设备上运行时，所述计算机程序用于使所述计算机设备执行上述第一方面中任意一种自然语言处理方法。

47、第五方面，本技术实施例提供的一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当计算机设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述计算机设备执行上述第一方面中任意一种自然语言处理方法。

48、本技术有益效果如下：

49、本技术实施例提供的自然语言处理方法、装置、计算机设备和存储介质，响应于查询请求，获得查询请求携带的查询文本的查询词向量序列；获取预设的各请求模板集合中的请求模板，得到多个请求模板，并获取多个请求模板各自的模板词向量序列。如此，将查询文本和请求模板转换为便于计算机识别计算的格式。进一步，针对多个请求模板，中的每个请求模板：都将查询词向量序列中各查询词向量，分别与一个请求模板的模板词向量序列中各模板词向量之间的词相似度，如此，得到查询文本中的每个词与请求模板中每个词之间的关联关系，再进一步，基于获得的查询文本和这一个请求模板的各词相似度，在查询词向量序列中，补偿各查询词向量与各模板词向量之间的关联关系，获得上下文查询向量，以及在一个模板词向量序列中补偿关联关系，获得上下文模板向量。如此，使得上下文查询向量中已经包含查询文本与这一个请求模板的关联关系，使得上下文模板向量中也包含了查询文本与这一个请求模板的关联关系。因此，基于上下文查询向量和上下文模板向量得到的查询文本与这一个请求模板的文本相似度的准确度更高。相应的，根据查询文本与多个请求模板中的每个请求模板准确的文本相似度，可以得到更准确的查询结果。

50、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨韬
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。