文本匹配方法、装置、设备及存储介质与流程

文档序号:31840711发布日期:2022-10-18 22:29阅读:55来源:国知局
文本匹配方法、装置、设备及存储介质与流程

1.本技术涉及计算机技术领域,特别涉及一种文本匹配方法、装置、设备及存储介质。


背景技术:

2.文本匹配的任务在自然语言处理领域应用广泛,例如,将文本匹配应用于信息检索,当用户提出问题后,为用户提供与该问题匹配的答案。又如,将文本匹配应用于信息推荐,从而自动为用户推荐与该用户感兴趣的文本匹配的其他文本。
3.在进行文本匹配时,可以通过该文本中的词语之间的关系图表示该文本,进而基于该关系图进行文本匹配。相关技术中,一般基于文本中每两个词语之间的关系来构建该关系图,然而在文本包括至少三个词语的情况下,每两个词语之间的关系往往不能完整地表示文本的语义信息,这样会丢失文本的部分语义信息,导致基于该关系图进行文本匹配的准确率低。


技术实现要素:

4.本技术实施例提供了一种文本匹配方法、装置、设备及存储介质,能够提高文本匹配的准确性。所述技术方案如下:
5.一方面,提供了一种文本匹配方法,所述方法包括:
6.获取第一文本;
7.对于所述第一文本中的每个词语,从所述第一文本中选取所述词语的每个关联词语,将所述词语以及选取的每个关联词语构成一个词语集合;
8.基于构成的至少一个词语集合生成第一关系图,所述第一关系图包括至少一个关系子图,每个关系子图与一个词语集合对应,所述每个关系子图中的每个节点用于表示对应的词语集合中的一个词语,且所述每个关系子图用于表示对应的词语集合中的每个词语之间存在关联关系;
9.基于所述第一关系图进行文本匹配。
10.在一种可能的实现方式中,所述调用下一个特征提取层,分别融合所述第一关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征之后,所述方法还包括:
11.对于所述第一关系图中的每个关系子图的第二子图特征,调用所述下一个特征提取层,确定与所述第二子图特征相似的至少一个目标子图特征;
12.基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征;
13.其中,所述目标子图特征为所述第二关系图中的关系子图的第二子图特征。
14.在一种可能的实现方式中,所述基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征,包括:
15.调用所述下一个特征提取层,基于所述第二子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第二子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第二子图特征之间的相似度;
16.将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第二子图特征与所述融合特征的差异特征确定为更新后的所述第二子图特征。
17.在一种可能的实现方式中,所述关系识别模型的训练过程包括:
18.获取样本数据,所述样本数据包括第一样本关系图、第二样本关系图和样本关系标签,所述样本关系标签用于表示所述第一样本关系图与所述第二样本关系图之间的关系,所述关系为匹配或不匹配;
19.调用所述关系识别模型,确定所述第一样本关系图与所述第二样本关系图之间的预测关系标签,所述预测关系标签用于表示预测出的所述第一样本关系图与所述第二样本关系图之间的关系;
20.基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型。
21.在一种可能的实现方式中,所述基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型,包括:
22.基于所述样本关系标签和所述预测关系标签,确定所述关系识别模型的损失值;
23.基于所述损失值训练所述关系识别模型,所述损失值用于表示所述样本关系标签和所述预测关系标签之间的相似度。
24.在一种可能的实现方式中,所述关系识别模型包括特征提取子模型和分类子模型;所述调用所述关系识别模型,确定所述第一样本关系图与所述第二样本关系图之间的预测关系标签,包括:
25.调用所述特征提取子模型,获取所述第一样本关系图中的每个节点的节点特征,以及所述第二样本关系图中的每个节点的节点特征,所述节点的节点特征为所述节点所表示的词语的特征;
26.调用所述分类子模型,基于所述第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于所述第二样本关系图中的每个节点的节点特征获取第二样本关系图特征;
27.基于所述第一样本关系图特征与所述第二样本关系图特征,确定所述第一样本关系图与所述第二样本关系图之间的所述预测关系标签。
28.在一种可能的实现方式中,所述调用所述分类子模型,基于所述第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于所述第二样本关系图中的每个节点的节点特征获取第二样本关系图特征,包括:
29.调用所述分类子模型,获取所述第一样本关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第一样本关系图特征,获取所述第二样本关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第二样本关系图特征。
30.在一种可能的实现方式中,所述特征提取子模型包括多个特征提取层;所述调用所述特征提取子模型,获取所述第一样本关系图中的每个节点的节点特征,包括:
31.调用第一个特征提取层,获取所述第一样本关系图中的每个节点的第一节点特征;
32.调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到所述每个节点的第二节点特征;
33.调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到所述每个节点的第三节点特征,直至得到最后一个特征提取层输出的所述每个节点的节点特征,将所述最后一个特征提取层输出的所述每个节点的节点特征确定为所述第一样本关系图中的每个节点的节点特征。
34.在一种可能的实现方式中,所述调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到所述每个节点的第二节点特征,包括:
35.获取所述第一样本关系图的第一样本关系参数,所述表示所述第一样本关系图中的每个节点与每个关系子图的关系,所述关系为节点属于关系子图或节点不属于关系子图;
36.对于所述第一样本关系图中的每个关系子图,调用所述第一个特征提取层,基于所述第一样本关系参数,确定所述关系子图中的节点,融合所述关系子图中的节点的第一节点特征,得到所述关系子图的第一子图特征;
37.对于所述第一样本关系图中的每个节点,调用所述第一个特征提取层,基于所述第一样本关系参数,确定所述节点所属的关系子图,融合所述节点所属的关系子图的第一子图特征,得到所述节点的第二节点特征。
38.在一种可能的实现方式中,所述融合所述节点所属的关系子图的第一子图特征,得到所述节点的第二节点特征之后,所述方法包括:
39.调用所述第一个特征提取层,基于所述第一子图特征和所述第二节点特征,确定第二样本关系参数,所述第二样本关系参数表示所述第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度;
40.所述调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到所述每个节点的第三节点特征,包括:
41.对于所述第一样本关系图中的每个关系子图,调用所述下一个特征提取层,基于所述第二样本关系参数,确定所述关系子图中的节点的第二节点特征与所述关系子图的第一子图特征之间的相似度,将所述关系子图中的节点对应的相似度作为权重,融合所述关系子图中的节点的第二节点特征,得到所述关系子图的第二子图特征;
42.对于所述第一样本关系图中的每个节点,调用所述下一个特征提取层,基于所述第二样本关系参数,确定所述节点所属的关系子图的第一子图特征与所述节点的第二节点
特征之间的相似度,将所述节点所属的关系子图对应的相似度作为权重,融合所述节点所属的关系子图的第二子图特征,得到所述节点的第三节点特征。
43.在一种可能的实现方式中,所述调用所述第一个特征提取层,基于所述第一子图特征和所述第二节点特征,确定第二样本关系参数,包括:
44.获取所述第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;
45.将所述多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,所述第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;
46.基于调整后的所述多个余弦相似度生成所述第二样本关系参数。
47.在一种可能的实现方式中,所述将所述节点所属的关系子图对应的相似度作为权重,融合所述节点所属的关系子图的第二子图特征,得到所述节点的第三节点特征之后,所述方法还包括:
48.调用所述下一个特征提取层,基于所述第二子图特征和所述第三节点特征,确定第三样本关系参数,所述第三样本关系参数表示所述第一样本关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
49.在一种可能的实现方式中,所述基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型,包括:
50.获取所述最后一个特征提取层输出样本关系参数,所述样本关系参数表示所述第一样本关系图中的每个节点的节点特征与每个关系子图的子图特征之间的相似度;
51.基于所述样本关系参数确定第一损失值,所述第一损失值用于表示属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度;
52.基于所述样本关系标签和所述预测关系标签,确定所述关系识别模型的第二损失值,所述第二损失值用于表示所述样本关系标签和所述预测关系标签之间的相似度;
53.基于所述第一损失值与所述第二损失值的总损失值,训练所述关系识别模型。
54.在一种可能的实现方式中,所述调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征之后,所述方法还包括:
55.对于所述第一样本关系图中的每个关系子图的第一子图特征,调用所述第一个特征提取层,确定与所述第一子图特征相似的至少一个目标子图特征;
56.基于所述至少一个目标子图特征对所述第一子图特征进行更新,得到更新后的所述第一子图特征;
57.其中,所述目标子图特征为所述第二样本关系图中的关系子图的第一子图特征。
58.在一种可能的实现方式中,所述基于所述至少一个目标子图特征对所述第一子图特征进行更新,得到更新后的所述第一子图特征,包括:
59.调用所述第一个特征提取层,基于所述第一子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第一子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第一子图特征之间的相似度;
60.将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取
的目标子图特征进行融合,得到融合特征,将所述第一子图特征与所述融合特征的差异特征确定为更新后的所述第一子图特征。
61.在一种可能的实现方式中,所述调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征之后,所述方法还包括:
62.对于所述第一样本关系图中的每个关系子图的第二子图特征,调用所述下一个特征提取层,确定与所述第二子图特征相似的至少一个目标子图特征;
63.基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征;
64.其中,所述目标子图特征为所述第二样本关系图中的关系子图的第二子图特征。
65.在一种可能的实现方式中,所述基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征,包括:
66.调用所述下一个特征提取层,基于所述第二子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第二子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第二子图特征之间的相似度;
67.将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第二子图特征与所述融合特征的差异特征确定为更新后的所述第二子图特征。
68.另一方面,提供了一种文本匹配装置,所述装置包括:
69.文本获取模块,用于获取第一文本;
70.集合构成模块,用于对于所述第一文本中的每个词语,从所述第一文本中选取所述词语的每个关联词语,将所述词语以及选取的每个关联词语构成一个词语集合;
71.关系图生成模块,用于基于构成的至少一个词语集合生成第一关系图,所述第一关系图包括至少一个关系子图,每个关系子图与一个词语集合对应,所述每个关系子图中的每个节点用于表示对应的词语集合中的一个词语,且所述每个关系子图用于表示对应的词语集合中的每个词语之间存在关联关系;
72.文本匹配模块,用于基于所述第一关系图进行文本匹配。
73.在一种可能的实现方式中,所述集合构成模块,用于确定第一词语的第一词向量与每个第二词语的第二词向量之间的相似度,所述第一词语为所述第一文本中的任一词语,所述第二词语为所述第一文本中除所述第一词语之外的其他词语;选取与所述第一词向量之间的相似度小于参考阈值的每个第二词向量对应的第二词语;将所述第一词语以及选取的每个第二词语构成一个词语集合。
74.在一种可能的实现方式中,所述文本匹配模块,包括:
75.标签确定子模块,用于调用关系识别模型,确定所述第一关系图与第二文本对应的第二关系图之间的关系标签,所述关系标签用于表示所述第一关系图与所述第二关系图之间的关系,所述关系为匹配或不匹配;
76.文本确定子模块,用于响应于所述关系标签表示所述第一关系图与所述第二关系图匹配,将所述第二文本确定为与所述第一文本匹配的文本。
77.在一种可能的实现方式中,所述关系识别模型包括特征提取子模型和分类子模型;所述标签确定子模块,包括:
78.节点特征获取单元,用于调用所述特征提取子模型,获取所述第一关系图中的每个节点的节点特征,以及所述第二关系图中的每个节点的节点特征,所述节点的节点特征为所述节点所表示的词语的特征;
79.图特征获取单元,用于调用所述分类子模型,基于所述第一关系图中的每个节点的节点特征获取第一关系图特征,基于所述第二关系图中的每个节点的节点特征获取第二关系图特征;
80.标签确定单元,用于基于所述第一关系图特征与所述第二关系图特征,确定所述第一关系图与所述第二关系图之间的所述关系标签。
81.在一种可能的实现方式中,所述图特征获取单元,用于调用所述分类子模型,获取所述第一关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第一关系图特征,获取所述第二关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第二关系图特征。
82.在一种可能的实现方式中,所述特征提取子模型包括多个特征提取层;所述节点特征获取单元,包括:
83.第一特征获取子单元,用于调用第一个特征提取层,获取所述第一关系图中的每个节点的第一节点特征;
84.第二特征获取子单元,用于调用所述第一个特征提取层,分别融合所述第一关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征,分别融合所述第一关系图中的每个节点所属的关系子图的第一子图特征,得到所述每个节点的第二节点特征;
85.第三特征获取子单元,用于调用下一个特征提取层,分别融合所述第一关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征,分别融合所述第一关系图中的每个节点所属的关系子图的第二子图特征,得到所述每个节点的第三节点特征,直至得到最后一个特征提取层输出的所述每个节点的节点特征,将所述最后一个特征提取层输出的所述每个节点的节点特征确定为所述第一关系图中的每个节点的节点特征。
86.在一种可能的实现方式中,所述第二特征获取子单元,用于获取所述第一关系图的第一关系参数,所述第一关系参数表示所述第一关系图中的每个节点与每个关系子图的关系,所述关系为节点属于关系子图或节点不属于关系子图;对于所述第一关系图中的每个关系子图,调用所述第一个特征提取层,基于所述第一关系参数,确定所述关系子图中的节点,融合所述关系子图中的节点的第一节点特征,得到所述关系子图的第一子图特征;对于所述第一关系图中的每个节点,调用所述第一个特征提取层,基于所述第一关系参数,确定所述节点所属的关系子图,融合所述节点所属的关系子图的第一子图特征,得到所述节点的第二节点特征。
87.在一种可能的实现方式中,所述第二特征获取子单元,还用于调用所述第一个特征提取层,基于所述第一子图特征和所述第二节点特征,确定第二关系参数,所述第二关系参数表示所述第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征
之间的相似度;
88.所述第三特征获取子单元,用于对于所述第一关系图中的每个关系子图,调用所述下一个特征提取层,基于所述第二关系参数,确定所述关系子图中的节点的第二节点特征与所述关系子图的第一子图特征之间的相似度,将所述关系子图中的节点对应的相似度作为权重,融合所述关系子图中的节点的第二节点特征,得到所述关系子图的第二子图特征;对于所述第一关系图中的每个节点,调用所述下一个特征提取层,基于所述第二关系参数,确定所述节点所属的关系子图的第一子图特征与所述节点的第二节点特征之间的相似度,将所述节点所属的关系子图对应的相似度作为权重,融合所述节点所属的关系子图的第二子图特征,得到所述节点的第三节点特征。
89.在一种可能的实现方式中,所述第二特征获取子单元,用于获取所述第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;将所述多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,所述第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;基于调整后的所述多个余弦相似度生成所述第二关系参数。
90.在一种可能的实现方式中,所述第三特征获取子单元,还用于调用所述下一个特征提取层,基于所述第二子图特征和所述第三节点特征,确定第三关系参数,所述第三关系参数表示所述第一关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
91.在一种可能的实现方式中,所述第二特征获取子单元,还用于对于所述第一关系图中的每个关系子图的第一子图特征,调用所述第一个特征提取层,确定与所述第一子图特征相似的至少一个目标子图特征;基于所述至少一个目标子图特征对所述第一子图特征进行更新,得到更新后的所述第一子图特征;其中,所述目标子图特征为所述第二关系图中的关系子图的第一子图特征。
92.在一种可能的实现方式中,所述第二特征获取子单元,用于调用所述第一个特征提取层,基于所述第一子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第一子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第一子图特征之间的相似度;将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第一子图特征与所述融合特征的差异特征确定为更新后的所述第一子图特征。
93.在一种可能的实现方式中,所述第三特征获取子单元,还用于对于所述第一关系图中的每个关系子图的第二子图特征,调用所述下一个特征提取层,确定与所述第二子图特征相似的至少一个目标子图特征;基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征;其中,所述目标子图特征为所述第二关系图中的关系子图的第二子图特征。
94.在一种可能的实现方式中,所述第三特征获取子单元,用于调用所述下一个特征提取层,基于所述第二子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第二子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标
子图特征与所述第二子图特征之间的相似度;将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第二子图特征与所述融合特征的差异特征确定为更新后的所述第二子图特征。
95.在一种可能的实现方式中,所述关系识别模型的训练过程包括:
96.获取样本数据,所述样本数据包括第一样本关系图、第二样本关系图和样本关系标签,所述样本关系标签用于表示所述第一样本关系图与所述第二样本关系图之间的关系,所述关系为匹配或不匹配;
97.调用所述关系识别模型,确定所述第一样本关系图与所述第二样本关系图之间的预测关系标签,所述预测关系标签用于表示预测出的所述第一样本关系图与所述第二样本关系图之间的关系;
98.基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型。
99.在一种可能的实现方式中,所述基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型,包括:
100.基于所述样本关系标签和所述预测关系标签,确定所述关系识别模型的损失值;
101.基于所述损失值训练所述关系识别模型,所述损失值用于表示所述样本关系标签和所述预测关系标签之间的相似度。
102.在一种可能的实现方式中,所述关系识别模型包括特征提取子模型和分类子模型;所述调用所述关系识别模型,确定所述第一样本关系图与所述第二样本关系图之间的预测关系标签,包括:
103.调用所述特征提取子模型,获取所述第一样本关系图中的每个节点的节点特征,以及所述第二样本关系图中的每个节点的节点特征,所述节点的节点特征为所述节点所表示的词语的特征;
104.调用所述分类子模型,基于所述第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于所述第二样本关系图中的每个节点的节点特征获取第二样本关系图特征;
105.基于所述第一样本关系图特征与所述第二样本关系图特征,确定所述第一样本关系图与所述第二样本关系图之间的所述预测关系标签。
106.在一种可能的实现方式中,所述调用所述分类子模型,基于所述第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于所述第二样本关系图中的每个节点的节点特征获取第二样本关系图特征,包括:
107.调用所述分类子模型,获取所述第一样本关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第一样本关系图特征,获取所述第二样本关系图中的多个节点的节点特征的平均值,将所述平均值确定为所述第二样本关系图特征。
108.在一种可能的实现方式中,所述特征提取子模型包括多个特征提取层;所述调用所述特征提取子模型,获取所述第一样本关系图中的每个节点的节点特征,包括:
109.调用第一个特征提取层,获取所述第一样本关系图中的每个节点的第一节点特征;
110.调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征,分别融合所述第一样本
关系图中的每个节点所属的关系子图的第一子图特征,得到所述每个节点的第二节点特征;
111.调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到所述每个节点的第三节点特征,直至得到最后一个特征提取层输出的所述每个节点的节点特征,将所述最后一个特征提取层输出的所述每个节点的节点特征确定为所述第一样本关系图中的每个节点的节点特征。
112.在一种可能的实现方式中,所述调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到所述每个节点的第二节点特征,包括:
113.获取所述第一样本关系图的第一样本关系参数,所述表示所述第一样本关系图中的每个节点与每个关系子图的关系,所述关系为节点属于关系子图或节点不属于关系子图;
114.对于所述第一样本关系图中的每个关系子图,调用所述第一个特征提取层,基于所述第一样本关系参数,确定所述关系子图中的节点,融合所述关系子图中的节点的第一节点特征,得到所述关系子图的第一子图特征;
115.对于所述第一样本关系图中的每个节点,调用所述第一个特征提取层,基于所述第一样本关系参数,确定所述节点所属的关系子图,融合所述节点所属的关系子图的第一子图特征,得到所述节点的第二节点特征。
116.在一种可能的实现方式中,所述融合所述节点所属的关系子图的第一子图特征,得到所述节点的第二节点特征之后,所述装置包括:
117.调用所述第一个特征提取层,基于所述第一子图特征和所述第二节点特征,确定第二样本关系参数,所述第二样本关系参数表示所述第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度;
118.所述调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特征,分别融合所述第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到所述每个节点的第三节点特征,包括:
119.对于所述第一样本关系图中的每个关系子图,调用所述下一个特征提取层,基于所述第二样本关系参数,确定所述关系子图中的节点的第二节点特征与所述关系子图的第一子图特征之间的相似度,将所述关系子图中的节点对应的相似度作为权重,融合所述关系子图中的节点的第二节点特征,得到所述关系子图的第二子图特征;
120.对于所述第一样本关系图中的每个节点,调用所述下一个特征提取层,基于所述第二样本关系参数,确定所述节点所属的关系子图的第一子图特征与所述节点的第二节点特征之间的相似度,将所述节点所属的关系子图对应的相似度作为权重,融合所述节点所属的关系子图的第二子图特征,得到所述节点的第三节点特征。
121.在一种可能的实现方式中,所述调用所述第一个特征提取层,基于所述第一子图特征和所述第二节点特征,确定第二样本关系参数,包括:
122.获取所述第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;
123.将所述多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,所述第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;
124.基于调整后的所述多个余弦相似度生成所述第二样本关系参数。
125.在一种可能的实现方式中,所述将所述节点所属的关系子图对应的相似度作为权重,融合所述节点所属的关系子图的第二子图特征,得到所述节点的第三节点特征之后,所述装置还包括:
126.调用所述下一个特征提取层,基于所述第二子图特征和所述第三节点特征,确定第三样本关系参数,所述第三样本关系参数表示所述第一样本关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
127.在一种可能的实现方式中,所述基于所述样本关系标签和所述预测关系标签,训练所述关系识别模型,包括:
128.获取所述最后一个特征提取层输出样本关系参数,所述样本关系参数表示所述第一样本关系图中的每个节点的节点特征与每个关系子图的子图特征之间的相似度;
129.基于所述样本关系参数确定第一损失值,所述第一损失值用于表示属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度;
130.基于所述样本关系标签和所述预测关系标签,确定所述关系识别模型的第二损失值,所述第二损失值用于表示所述样本关系标签和所述预测关系标签之间的相似度;
131.基于所述第一损失值与所述第二损失值的总损失值,训练所述关系识别模型。
132.在一种可能的实现方式中,所述调用所述第一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第一节点特征,得到所述每个关系子图的第一子图特征之后,所述装置还包括:
133.对于所述第一样本关系图中的每个关系子图的第一子图特征,调用所述第一个特征提取层,确定与所述第一子图特征相似的至少一个目标子图特征;
134.基于所述至少一个目标子图特征对所述第一子图特征进行更新,得到更新后的所述第一子图特征;
135.其中,所述目标子图特征为所述第二样本关系图中的关系子图的第一子图特征。
136.在一种可能的实现方式中,所述基于所述至少一个目标子图特征对所述第一子图特征进行更新,得到更新后的所述第一子图特征,包括:
137.调用所述第一个特征提取层,基于所述第一子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第一子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第一子图特征之间的相似度;
138.将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第一子图特征与所述融合特征的差异特征确定为更新后的所述第一子图特征。
139.在一种可能的实现方式中,所述调用下一个特征提取层,分别融合所述第一样本关系图中的每个关系子图中的节点的第二节点特征,得到所述每个关系子图的第二子图特
征之后,所述装置还包括:
140.对于所述第一样本关系图中的每个关系子图的第二子图特征,调用所述下一个特征提取层,确定与所述第二子图特征相似的至少一个目标子图特征;
141.基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征;
142.其中,所述目标子图特征为所述第二样本关系图中的关系子图的第二子图特征。
143.在一种可能的实现方式中,所述基于所述至少一个目标子图特征对所述第二子图特征进行更新,得到更新后的所述第二子图特征,包括:
144.调用所述下一个特征提取层,基于所述第二子图特征与所述至少一个目标子图特征中的每个目标子图特征之间的相似度,从所述至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与所述第二子图特征之间的相似度大于所述至少一个目标子图特征中剩余的目标子图特征与所述第二子图特征之间的相似度;
145.将选取的目标子图特征与所述第一子图特征之间的相似度作为权重,对所述选取的目标子图特征进行融合,得到融合特征,将所述第二子图特征与所述融合特征的差异特征确定为更新后的所述第二子图特征。
146.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述计算机程序由所述处理器加载并执行以实现上述任一种可能实现方式中的文本匹配方法中执行的操作。
147.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述任一种可能实现方式中的文本匹配方法中执行的操作。
148.再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述各种可选实现方式中的文本匹配方法中执行的操作。
149.本技术实施例提供的技术方案带来的有益效果至少包括:
150.在本技术实施例中,考虑到文本中的每两个词语之间的关系往往无法完整地表示文本的语义信息,因此,在用关系图表示文本时,对于文本中的每个词语,要从该文本中将该词语的每个关联词语都选取出来,将该词语和选取的关联词语构成词语集合,基于构成的至少一个词语集合生成关系图,由于关系图中以关系子图为单位来表示该文本,且一个关系子图能够表示该关系子图对应的词语集合中的每个词语之间都存在关联关系,而不限于仅是两个词语之间存在关联关系,因此该关系图能够完整地表示文本的语义信息,通过该关系图进行文本匹配能够提高文本匹配的准确率。
附图说明
151.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
152.图1是本技术实施例提供的一种实施环境的示意图;
153.图2是本技术实施例提供的一种问答界面的示意图;
154.图3是本技术实施例提供的一种文本匹配方法的流程图;
155.图4是本技术实施例提供的一种文本匹配方法的流程图;
156.图5是本技术实施例提供的一种文本的关系图的示意图;
157.图6是本技术实施例提供的一种提取节点特征的过程示意图;
158.图7是本技术实施例提供的一种确定关系标签的过程示意图;
159.图8是本技术实施例提供的一种关系识别模型的训练过程的示意图;
160.图9是本技术实施例提供的一种文本匹配装置的框图;
161.图10是本技术实施例提供的一种文本匹配装置的框图;
162.图11是本技术实施例提供的一种终端的结构示意图;
163.图12是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
164.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
165.本技术所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本技术的范围的情况下,可以将第一关系图称为关系图,且类似地,可将第二关系图称为第一关系图。
166.本技术所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个节点包括3个节点,而每个是指这3个节点中的每一个节点,任一是指这3个节点中的任意一个,可以是第一个,可以是第二个、也可以是第三个。
167.图1是本技术实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。可选地,终端101为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、摄像机、照相机或者其他终端。可选地,服务器102是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
168.可选地,终端101上安装有由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。该目标应用具有与文本匹配的任务相关的功能,例如,目标应用具有信息检索功能、信息推荐功能、问题回答功能,当然,该目标应用还能够具有其他功能,本技术对此不做限制。可选地,该目标应用为内容推荐应用、搜索应用、问答服务应用等。
169.本技术实施例中,终端101用于获取第一文本,向服务器102发送该第一文本,服务器102用于将第一文本表示为第一关系图,基于该第一关系图进行文本匹配,得到与第一文
本匹配的其他文本,向终端101发送其他文本。需要说明的是,本技术实施例仅以实施环境中包括终端101和服务器102为例进行说明,在其他实施例中,实施环境中仅包括终端101或者服务器102。由终端101或服务器102来获取第一文本,将第一文本表示为第一关系图,并基于第一关系图进行文本匹配。
170.可选地,本技术实施例中的终端101或者服务器102为区块链系统中的节点,在该区块链系统中的每个节点存储有区块链,且不同节点上的区块链存储的数据保持同步。每个节点的区块链中存储的数据包括:文本、文本对应的关系图、对该文本进行文本匹配得到的其他文本、关系识别模型等。
171.本技术中的文本匹配方法能够应用于各种问答场景,例如,医保政策问答、公共卫生领域的疫苗信息问答等。以公共卫生领域的疫苗信息问答为例,用户在终端中输入问题“核酸检测和ct(computed tomography,计算机断层扫描技术)检测哪个更重要?”,终端将该问题发送至服务器,服务器将该问题与知识库中的多个标准问题分别进行文本匹配,在确定出该问题所匹配的标准问题后,向终端返回该标准问题对应的答案,然后终端展示该答案。需要说明的一点是,在获取到与用户的问题匹配的多个标准问题的情况下,可选地,服务器向终端返回匹配度最高的标准问题对应的答案,并向终端返回其他的标准问题,终端除了展示该答案外,还展示出其他的标准问题,以供用户确定是否进一步提问。图2为问答服务的问答界面的示意图。参考图2,用户输入的问题为“核酸检测和ct检测哪个更重要?”,在该问题的下方显示有该问题对应的答案。此外,在该问答界面的下方,还展示有与该问题相关的三个标准问题,例如“哪些时刻需要洗手?”、“能快速检测出病情吗”等。
172.本技术中的文本匹配方法还能够应用于信息搜索的场景,例如,用户在终端中输入搜索词后,终端向服务器发送该搜索词,服务器将该搜索词与知识库中的文本进行匹配,得到与该搜索词匹配的文本,向终端发送与该搜索词匹配的文本,然后终端展示该文本。
173.本技术中的文本匹配方法还能够应用于信息推荐的场景,例如,用户通过终端浏览了感兴趣的文本后,终端会向服务器发送用户感兴趣的文本,服务器基于用户感兴趣的文本进行文本匹配,得到与用户感兴趣的文本匹配的其他文本,向终端发送其他文本,则终端会将其他文本推荐给用户。
174.实际上,本技术提供的文本匹配方法能够应用在任意文本匹配的场景下,本技术实施例对此不做限制。
175.图3是本技术实施例提供的一种文本匹配方法的流程图。该实施例以执行主体为服务器为例进行说明。参见图3,该实施例包括:
176.301、服务器获取第一文本。
177.第一文本为任意文本,从第一文本所属的语种来讲,第一文本属于任意语种,例如,中文、英文等。从第一文本的内容来讲,第一文本为任意内容,例如第一文本描述疫苗信息、健康信息、体育信息等。从第一文本的长度来讲,第一文本为句子或文章,其中,文章由句子构成。
178.302、对于第一文本中的每个词语,服务器从第一文本中选取该词语的每个关联词语,将该词语以及选取的每个关联词语构成一个词语集合。
179.其中,对于第一文本中的每个词语,服务器从第一文本中选取该词语的每个关联词语是指:服务器从第一文本中除了该词语之外的其他词语中选取出所有与该词语关联的
词语,也即是,服务器会遍历第一文本中除该词语外的每个其他词语,以找出该词语的所有关联词语。每个词语集合中包括至少两个词语。例如,在第一文本中,某个词语a只有一个关联词语b,则构成的词语集合中包括两个词语,即词语a和词语b。例如,某个词语c有两个关联词语,分别为词语d和词语e,则构成的词语集合中包括三个词语,即词语c、词语d和词语e。
180.303、服务器基于构成的至少一个词语集合生成第一关系图。
181.其中,第一关系图包括至少一个关系子图,每个关系子图与一个词语集合对应,每个关系子图包括多个节点,每个关系子图中的每个节点用于表示对应的词语集合中的一个词语,且每个关系子图用于表示对应的词语集合中的每个词语之间存在关联关系。例如,某个关系子图包括两个节点,这两个节点分别表示一个词语集合中的词语a和词语b,则该关系子图用于表示词语a和词语b之间存在关联关系。又如,某个关系子图包括三个节点,这三个节点分别表示一个词语集合中的词语c、词语d和词语e,则该关系子图用于表示词语c、词语d和词语e之间存在关联关系。
182.304、服务器基于第一关系图进行文本匹配。
183.其中,文本匹配是指确定两个文本之间是否匹配,也即是,确定两个文本之间是否有语义关系或相关性。服务器基于第一关系图进行文本匹配,即服务器基于第一关系图获取与第一文本匹配的其他文本。
184.在本技术实施例中,考虑到文本中的每两个词语之间的关系往往无法完整地表示文本的语义信息,因此,在用关系图表示文本时,对于文本中的每个词语,要从该文本中将该词语的每个关联词语都选取出来,将该词语和选取的关联词语构成词语集合,基于构成的至少一个词语集合生成关系图,由于关系图中以关系子图为单位来表示该文本,且一个关系子图能够表示该关系子图对应的词语集合中的每个词语之间都存在关联关系,而不限于仅是两个词语之间存在关联关系,因此该关系图能够完整地表示文本的语义信息,通过该关系图进行文本匹配能够提高文本匹配的准确率。
185.图4是本技术实施例提供的一种文本匹配方法的流程图。该实施例描述通过关系识别模型进行文本匹配的过程。参见图4,该实施例包括:
186.401、服务器获取第一文本。
187.可选地,服务器获取第一文本的实现方式包括:服务器从终端获取第一文本,或者服务器从文本数据库中获取第一文本,其中,文本数据库用于存储文本。
188.402、对于第一文本中的每个词语,服务器从第一文本中选取该词语的每个关联词语,将该词语以及选取的每个关联词语构成一个词语集合。
189.在一种可能的实现方式中,该步骤的实现方式为:服务器确定第一词语的第一词向量与每个第二词语的第二词向量之间的相似度;服务器选取与第一词向量之间的相似度小于参考阈值的每个第二词向量对应的第二词语;将第一词语以及选取的每个第二词语构成一个词语集合。其中,第一词语为第一文本中的任一词语,第二词语为第一文本中除第一词语之外的其他词语,与第一词向量之间的相似度小于参考阈值的第二词向量对应的第二词语即是第一词语的关联词语。服务器在选取第一词语的关联词语时,要遍历第一文本中的每个第二词语,将所有与第一词向量之间的相似度小于参考阈值的第二词向量对应的第二词语选取出来,也即是将第一文本中第一词语的所有关联词语都选取出来,然后与该第
一词语构成一个词语集合。参考阈值根据需要设置为任意数值,本技术实施例对此不做限制。
190.词语的词向量用于表示该词语的语义,词语间的词向量的相似度越大,表示词语的语义越接近,越有可能是关联的词语。在本技术实施例中,在确定第一词语的关联词语时,确定该第一词语与每个第二词语的词向量之间的相似度,则该相似度能够表明第一词语与第二词语的语义的接近程度,因此,基于该相似度能够准确确定出第一词语的关联词语。
191.可选地,对于第一文本中的每个词语,服务器从第一文本中选取该词语的每个关联词语的实现方式为:服务器展示关联词语的标注界面,该标注界面中包括第一文本,服务器基于该标准界面检测用户的标注操作,基于用户的标注操作确定第一文本中的每个词语的所有关联词语。其中,关联词语的标注界面用于用户标注出第一文本中的每个词语的所有关联词语。由于用户能够通过阅读第一文本而获知第一文本的语义以及第一文本中词语之间的关联关系,因此,利用关联词语的标注界面获取由用户标注的每个词语的所有关联词语,则确定出的每个词语的关联词语的准确度高。
192.403、服务器基于构成的至少一个词语集合生成第一关系图。
193.第一关系图包括至少一个关系子图,每个关系子图与一个词语集合对应,每个关系子图包括多个节点,每个关系子图中的每个节点用于表示对应的词语集合中的一个词语,且每个关系子图用于表示对应的词语集合中的每个词语之间存在关联关系。
194.可选地,关系子图为一条关系链,相应的,第一关系图中包括至少一条关系链,每个关系链与一个词语集合对应,每个关系链包括多个节点,每个关系链中的每个节点用于表示对应的词语集合中的一个词语,且每个关系链用于表示对应的词语集合中的每个词语之间存在关联关系。
195.图5为文本的关系图的示意图。参考图5,该关系图中包括多个关系子图,分别为关系子图501、关系子图502和关系子图503。从该关系图中能够看出,每个关系子图中包括多个节点,每个节点用于表示关系子图对应的词语集合中的一个词语,并且,一个节点能够属于多个关系子图。
196.404、服务器调用关系识别模型,确定第一关系图与第二文本对应的第二关系图之间的关系标签。
197.其中,关系识别模型的功能是确定两个文本对应的关系图之间的关系,关系图之间的关系为匹配或不匹配。关系标签用于表示两个文本对应的关系图之间的关系,第一关系图与第二关系图之间的关系标签则用于表示第一关系图与第二关系图之间的关系,该关系为匹配或不匹配。第二文本是与第一文本不同的任意文本。例如,在第一文本为用户感兴趣的文本的情况下,第二文本为数据库中的备选文本,在对第一文本和第二文本进行文本匹配,确定出第二文本是与第一文本匹配的文本的情况下,将第二文本作为用户可能感兴趣的文本推荐给用户。服务器获取第二文本的实现方式与获取第一文本的实现方式同理,此处不再赘述。
198.在一种可能的实现方式中,关系识别模型包括特征提取子模型和分类子模型。相应的,服务器调用关系识别模型,确定第一关系图与第二关系图之间的关系标签,包括下述步骤(1)-(3)。
199.(1)服务器调用特征提取子模型,获取第一关系图中的每个节点的节点特征,以及第二关系图中的每个节点的节点特征。
200.其中,节点的节点特征为节点所表示的词语的特征。特征提取子模型用于提取关系图中节点的节点特征。
201.在一种可能的实现方式中,特征提取子模型包括多个特征提取层,每个特征提取层用于提取节点的节点特征,通过多个特征提取层的特征提取后,将最后一个特征提取层输出的节点特征确定为最终的节点特征。相应的,服务器调用特征提取子模型,获取第一关系图中的每个节点的节点特征,包括下述步骤(a)-(c)。
202.(a)服务器调用第一个特征提取层,获取第一关系图中的每个节点的第一节点特征。
203.可选地,对于每个节点,服务器从词向量数据库中获取该节点所表示的词语的词向量,将该词向量确定为该节点的第一节点特征。其中,词向量数据库用于存储每个词语的词向量。
204.(b)服务器调用第一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征,分别融合第一关系图中的每个节点所属的关系子图的第一子图特征,得到每个节点的第二节点特征。
205.在一种可能的实现方式中,步骤(b)包括下述三个步骤。
206.第一,服务器获取第一关系图的第一关系参数,第一关系参数表示第一关系图中的每个节点与每个关系子图的关系,关系为节点属于关系子图或节点不属于关系子图。
207.第一关系图中直接反映了每个节点是否属于每个关系子图,因此,服务器能够基于第一关系图来获取第一关系参数。可选地,第一关系参数为矩阵形式,矩阵中的每个元素代表一个节点与一个关系子图的关系。例如,矩阵中的第一个元素代表第一个节点与第一个关系子图的关系,第二个元素表示第一个节点与第二个关系子图的关系。可选地,元素为0,表示节点与关系子图的关系为节点不属于关系子图。元素为1,表示节点与关系子图的关系为节点属于关系子图。
208.第二,对于第一关系图中的每个关系子图,服务器调用第一个特征提取层,基于第一关系参数,确定该关系子图中的节点,融合该关系子图中的节点的第一节点特征,得到关系子图的第一子图特征。可选地,该方法通过下述公式(1)实现。
[0209][0210]
其中,xe表示关系子图的第一子图特征,σ表示激活函数,de表示关系子图的度的对角矩阵,a表示第一关系参数,dv表示节点的度的对角矩阵,xv表示节点的第一节点特征,we为可学习的矩阵,即模型参数,be为偏移量,也是模型参数。其中,关系子图的度的对角矩阵是由关系子图的度的向量转化的对角矩阵,关系子图的度的向量用于表示每个关系子图中的节点的数量。例如,关系子图的度的向量中的第一个元素表示第一个关系子图中的节点的数量,第二个元素表示第二个关系子图中的节点的数量。节点的度的对角矩阵是由节点的度的向量转化的对角矩阵,节点的度的向量用于表示每个节点所属的关系子图的数量。例如,节点的度的向量中的第一个元素表示第一个节点所属的关系子图的数量,第二个元素表示第二个节点所属的关系子图的数量。
[0211]
第三,对于第一关系图中的每个节点,服务器调用第一个特征提取层,基于第一关
系参数,确定节点所属的关系子图,融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征。可选地,该方法通过下述公式(2)实现。
[0212][0213]
其中,xv表示节点的节点特征,σ表示激活函数,dv表示节点的度的对角矩阵,a表示第一关系参数,de表示关系子图的度的对角矩阵,xe表示关系子图的第一子图特征,wv为可学习的矩阵,即模型参数,bv为偏移量,也是模型参数。
[0214]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到文本的语义信息,进而得到准确的节点特征。
[0215]
在一种可能的实现方式中,服务器调用第一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征之后,方法还包括:对于第一关系图中的每个关系子图的第一子图特征,服务器调用第一个特征提取层,确定与第一子图特征相似的至少一个目标子图特征;服务器基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征。其中,目标子图特征为第二关系图中的关系子图的第一子图特征。获取第二关系图中的关系子图的第一子图特征的实现方式与获取第一关系图中的关系子图的第一子图特征的实现方式同理,此处不再赘述。
[0216]
可选地,对于第一关系图中的每个关系子图的第一子图特征,服务器调用第一个特征提取层,确定与第一子图特征相似的至少一个目标子图特征的实现方式为:对于第一关系图中的每个关系子图的第一子图特征,服务器调用第一个特征提取层,确定该第一子图特征与第二关系图中的每个关系子图的第一子图特征的相似度,将第二关系图中对应的相似度大于参考相似度的第一子图特征确定为目标子图特征。可选地,相似度为余弦相似度,可选地,参考相似度为零,本技术实施例对此不做限制。
[0217]
在本技术实施例中,利用第二文本的第二关系图中的关系子图的子图特征来对第一关系图的子图特征进行更新,相当于在第一关系图的子图特征中融合了第二关系图的子图特征,也就相当于结合了第二文本的语义信息来学习第一文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0218]
在一种可能的实现方式中,服务器基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征,包括:服务器调用第一个特征提取层,基于第一子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,其中,选取的目标子图特征与第一子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第一子图特征之间的相似度。然后,服务器将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第一子图特征与融合特征的差异特征确定为更新后的第一子图特征。可选地,参考数量根据需要设置为任意数量,本技术实施例对此不做限制。
[0219]
在本技术实施例中,由于目标子图特征是第二关系图的子图特征中与第一关系图的子图特征相似的子图特征,通过按照选取的目标子图与第一关系图的子图特征之间的相似度来对选取的目标子图进行融合,则融合特征能够充分体现第二文本中的语义信息中与
第一文本的语义信息中相似的部分,因此,第一关系图的子图特征与该融合特征的差异特征能够充分体现两个文本的相似的部分语义信息之间的差异,而该差异能够真正体现两个文本之间是否匹配,因此将该差异特征确定为更新后的子图特征,后续基于该子图特征识别出的第一文本和第二文本之间的关系更加准确,也即是进行文本匹配的准确性更高。另外,在选取与第一关系图的子图特征相似的目标子图特征时,选取相似度较大的参考数量的目标子图特征,一方面能够降低处理的数据量,提高模型的特征提取的速度,进而提高模型的关系识别效率,另一方面,能够提高模型提取的特征的精度,进而保证文本匹配的准确性。
[0220]
(c)服务器调用下一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,以此类推,直至得到最后一个特征提取层输出的每个节点的节点特征,将最后一个特征提取层输出的每个节点的节点特征确定为第一关系图中的每个节点的节点特征。
[0221]
在本技术实施例中,假设特征提取层的数量为n,则第i个特征提取层输出第i+1节点特征和第i子图特征,第n个特征提取层输出第n+1节点特征和第n子图特征,其中,n为大于1的任意正整数,i为任意正整数,且i小于n。
[0222]
在一种可能的实现方式中,服务器融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征之后,方法还包括:服务器调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二关系参数,第二关系参数表示第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度。相应的,步骤(c)中服务器调用下一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,包括下述两个步骤:
[0223]
第一,对于第一关系图中的每个关系子图,服务器调用下一个特征提取层,基于第二关系参数,确定关系子图中的节点的第二节点特征与关系子图的第一子图特征之间的相似度,将关系子图中的节点对应的相似度作为权重,融合关系子图中的节点的第二节点特征,得到关系子图的第二子图特征。
[0224]
第二,对于第一关系图中的每个节点,服务器调用下一个特征提取层,基于第二关系参数,确定节点所属的关系子图的第一子图特征与节点的第二节点特征之间的相似度,将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征。
[0225]
需要说明的一点是,服务器调用下一个特征提取层来确定第二子图特征和第三节点特征的实现方式与服务器调用第一个特征提取层来确定第一子图特征和第二节点特征的实现方式同理,此处不再赘述。
[0226]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到文本的语义信息,进而得到准确的节点特征。并且,在融合关系子图中节点的节点特征得到关系子图的子图特征,以及融合节点所属的关系子图的子图特征得到节点的节点特征的过程中,结合节点与关系子图之间
的相似度,进一步提高了融合得到的子图特征和节点特征的精度。
[0227]
在一种可能的实现方式中,服务器调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二关系参数,包括:服务器获取第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;服务器将多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度。然后,服务器基于调整后的多个余弦相似度生成第二关系参数。其中,第一参考相似度与第二参考相似度能够设置为任意数值,例如,第一参考相似度与第二参考相似度为0,或者,第一参考相似度为0.3,第二参考相似度为0,本技术实施例对此不做限制。
[0228]
可选地,第二关系参数为矩阵形式,矩阵中的每个元素代表一个节点的第二节点特征与一个关系子图的第一子图特征之间的相似度。例如,矩阵中的第一个元素代表第一个节点的节点特征与第一个关系子图第一子图特征之间的相似度,第二个元素代表第一个节点的节点特征与第二个关系子图第一子图特征之间的相似度。可选地,通过下述公式(3)确定第二关系参数。
[0229][0230]
其中,h
ij
表示第二关系参数,表示第i个节点的第二节点特征,表示第j个关系子图的第一子图特征。
[0231]
在本技术实施例中,在确定关系参数时,确定每个节点特征与每个子图特征之间的相似度,将相似度较小的值调整为表示节点特征与子图特征不相似的相似度,则在以关系子图中的节点对应的相似度作为权重,融合关系子图中节点的节点特征,得到关系子图的子图特征的过程中,不仅能够提高子图特征的精度,还能够降低模型处理的数据量。同理,在以将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,能够提高节点特征的精度,并降低模型处理的数据量。
[0232]
在一种可能的实现方式中,服务器将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征之后,方法还包括:服务器调用该下一个特征提取层,基于第二子图特征和第三节点特征,确定第三关系参数,第三关系参数表示第一关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。服务器确定第三关系参数的实现方式与确定第二关系参数的实现方式同理,此处不再赘述。
[0233]
在一种可能的实现方式中,服务器调用下一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征之后,方法还包括:对于第一关系图中的每个关系子图的第二子图特征,服务器调用下一个特征提取层,确定与第二子图特征相似的至少一个目标子图特征;服务器基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征。其中,目标子图特征为第二关系图中的关系子图的第二子图特征。
[0234]
在本技术实施例中,利用第二文本的第二关系图中的关系子图的子图特征来对第一关系图的子图特征进行更新,相当于在第一关系图的子图特征中融合了第二关系图的子
图特征,也就相当于结合了第二文本的语义信息来学习第一文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0235]
在一种可能的实现方式中,服务器基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征,包括:服务器调用下一个特征提取层,基于第二子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征。其中,选取的目标子图特征与第二子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第二子图特征之间的相似度。然后,服务器将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第二子图特征与融合特征的差异特征确定为更新后的第二子图特征。
[0236]
需要说明的一点是,服务器获取更新后的第二子图特征的实现方式与获取更新后的第一子图特征的实现方式同理,此处不再赘述。另外,服务器调用特征提取子模型,获取第二关系图中的每个节点的节点特征的实现方式与服务器调用特征提取子模型,获取第一关系图中的每个节点的节点特征的实现方式同理,此处也不再赘述。
[0237]
图6为特征提取层提取节点特征的过程示意图。参考图6,关系图中包括e1、e2和e3等多个关系子图,其中,e1中包括节点n2、n4和n8,e2中包括节点n1、n6和n7,e3中包括节点n3、n5和n7。特征提取层在进行特征提取时,融合节点n2、n4和n8的节点特征,得到e1的子图特征,融合节点n1、n6和n7的节点特征,得到e2的子图特征,融合节点n3、n5和n7的节点特征,得到e3的子图特征,以此类推,得到关系子图中的所有关系子图的子图特征。然后,对于属于多个关系子图的节点,融合该节点所属的关系子图的子图特征,得到该节点的节点特征。例如,融合e2和e3的子图特征,得到n7的节点特征,对于属于一个关系子图的节点,将该节点所属的关系子图的子图特征确定为该节点的节点特征,以此方法得到所有节点的节点特征。
[0238]
(2)服务器调用分类子模型,基于第一关系图中的每个节点的节点特征获取第一关系图特征,基于第二关系图中的每个节点的节点特征获取第二关系图特征。
[0239]
其中,第一关系图特征用于表示第一文本的语义信息,第二关系图特征用于表示第二文本的语义信息。
[0240]
在一种可能的实现方式中,服务器调用分类子模型,基于第一关系图中的每个节点的节点特征获取第一关系图特征,基于第二关系图中的每个节点的节点特征获取第二关系图特征,包括:服务器调用分类子模型,获取第一关系图中的多个节点的节点特征的平均值,将平均值确定为第一关系图特征,获取第二关系图中的多个节点的节点特征的平均值,将平均值确定为第二关系图特征。可选地,通过下述公式(4)确定关系图特征。
[0241][0242]
其中,表示关系图特征,n表示关系图中的节点的数量,表示第i个节点的节点特征。
[0243]
在本技术实施例中,由于关系图中的每个节点的节点特征都能够表示文本的部分语义信息,通过获取关系图中的多个节点的节点特征的平均值,将平均值确定为关系图特征,则该关系图特征综合了每个节点的语义信息,从而能够体现整个文本的语义信息,基于
该关系图特征识别文本之间的关系,识别出来的关系更加准确。
[0244]
(3)服务器调用分类子模型,基于第一关系图特征与第二关系图特征,确定第一关系图与第二关系图之间的关系标签。
[0245]
关系标签用于表示第一关系图与第二关系图之间的关系,该关系为匹配或不匹配。可选地,关系标签包括第一关系图与第二关系图匹配的概率以及第一关系图与第二关系图不匹配的概率,两个概率的和为1,匹配的概率大于不匹配的概率表示第一关系图与第二关系图之间的关系为匹配,匹配的概率小于不匹配的概率表示第一关系图与第二关系图之间的关系为不匹配。匹配的概率等于不匹配的概率表示第一关系图与第二关系图之间的关系为匹配或不匹配,本技术实施例对此不做限制。
[0246]
可选地,分类子模型包括特征提取层和分类层,特征提取层用于基于第一关系图中的每个节点的节点特征获取第一关系图特征,基于第二关系图中的每个节点的节点特征获取第二关系图特征。分类层用于基于第一关系图特征与第二关系图特征,确定第一关系图与第二关系图之间的关系标签,实现方式为:服务器调用分类层,将第一关系图特征与第二关系图特征进行拼接,将拼接后的特征输入到分类层中的全连接层,通过softmax函数(一种映射函数),基于全连接层的输出特征确定第一关系图与第二关系图匹配的概率以及第一关系图与第二关系图不匹配的概率,基于这两个概率获取第一关系图与第二关系图之间的关系标签。可选地,该方法通过下述公式(5)和(6)实现。
[0247][0248][0249]
其中,z表示第一关系图与第二关系图匹配的概率以及第一关系图与第二关系图不匹配的概率,表示第一关系图特征,表示第二关系图特征,表示第一关系图特征与第二关系图特征的拼接特征,和vi表示将该拼接特征输入到全连接层后,全连接层输出的特征,该特征为一个1*2维的向量,该向量包括两个元素,vi表示该向量中的第i个元素,vj表示该向量中第j个元素。softmax(vi)为一个1*2维的向量,该向量包括两个元素,分别表示第一关系图与第二关系图匹配的概率以及不匹配的概率,且两个概率的和为1。
[0250]
405、服务器响应于关系标签表示第一关系图与第二关系图匹配,将第二文本确定为与第一文本匹配的文本。
[0251]
图7为通过关系识别模型确定第一关系图与第二关系图之间的关系标签的过程示意图。参考图7,以关系识别模型中的特征提取子模型包括两个特征提取层为例,将第一关系图和第二关系图分别输入到特征提取子模型中的第一个特征提取层,然后,对于任一关系图,第一个特征提取层获取该关系图中每个节点的第一节点特征,以及该关系图的第一关系参数,对于该关系图中的每个关系子图,基于第一关系参数融合属于该关系子图的节点的第一节点特征,得到该关系子图的第一子图特征。然后,对于第一关系图中每个的关系子图的第一子图特征,通过第二关系子图中与该第一子图特征相似的目标子图特征来更新该第一子图特征。对于第二关系图中的每个关系子图的第一子图特征,通过第一关系子图
中与该第一子图特征相似的目标子图特征来更新该第一子图特征。然后,对于任一关系图中的每个节点,基于第一关系参数融合该节点所属的关系子图的第一子图特征,得到该节点的第二节点特征。然后再基于节点的第二节点特征和关系子图的第一子图特征确定第二关系参数。然后将第二节点特征、第一子图特征和第二关系参数输入到下一个特征提取层。该下一个特征提取层对于任一关系图中的每个关系子图,基于第二关系参数融合该关系子图中的节点的第二节点特征,得到第二子图特征,利用另一个关系图中关系子图的子图特征更新该第二子图特征后,对于任一节点,基于第二关系参数融合该节点所属的关系子图当前的第二子图特征,得到第三节点特征,将第三节点特征输入到分类子模型中的特征提取层,分类子模型基于第一关系图中的节点的第三节点特征,确定第一关系图特征,基于第二关系图中的节点的第三节点特征,确定第二关系图特征,然后,将第一关系图特征和第二关系图特征输入到分类子模型中的分类层,由分类层基于第一关系图特征和第二关系图特征,确定第一关系图和第二关系图之间的关系标签。
[0252]
需要说明的一点是,在本技术实施例中,仅以特征提取子模型包括多个特征提取层为例进行说明,可选地,特征提取子模型包括一个特征提取层,则特征提取层将获取的节点的第一节点特征直接输入到分类子模型中,由分类子模型基于第一节点特征确定第一关系图和第二关系图之间的关系标签,如此方法简单,高效。另外,本技术实施例中的关系识别模型能够采用任意神经网络模型,本技术实施例对此不做限制。
[0253]
需要说明的另一点是,在本技术实施例中,特征提取子模型中的每个特征提取层在获取到关系子图的子图特征和节点的节点特征后,会基于当前的子图特征和节点特征确定当前的关系参数,相当于通过多个特征提取层而不断的更新关系参数,而该关系参数能够体现关系图中的每个节点与每个关系子图之间的关系,因此,对关系参数的更新过程也即是对关系图更新和完善的过程,而每个特征提取层基于前一个特征提取层输出的关系参数来获取当前的节点特征,也即是通过不断更新和完善的关系图来提取关系图中节点的节点特征,如此能够提高节点特征的准确性,从而保证文本匹配的准确性。
[0254]
需要说明的再一点是,本技术实施例中的文本匹配方法能够适用于各种长度的文本之间的匹配。例如,短文本之间的匹配(即句子和句子之间的匹配),短文本和长文本之间的匹配(即句子和文章之间的匹配),长文本和长文本之间的匹配(即文章和文章之间的匹配)。
[0255]
在本技术实施例中,考虑到文本中的每两个词语之间的关系往往无法完整地表示文本的语义信息,因此,在用关系图表示文本时,对于文本中的每个词语,要从该文本中将该词语的每个关联词语都选取出来,将该词语和选取的关联词语构成词语集合,基于构成的至少一个词语集合生成关系图,由于关系图中以关系子图为单位来表示该文本,且一个关系子图能够表示该关系子图对应的词语集合中的每个词语之间都存在关联关系,而不限于仅是两个词语之间存在关联关系,因此该关系图能够完整地表示文本的语义信息,通过该关系图进行文本匹配能够提高文本匹配的准确率。
[0256]
在本技术实施例中,由于词语的词向量用于表示该词语的语义,词语间的词向量的相似度越大,表示词语的语义越接近,越有可能是关联的词语,因此在确定第一词语的关联词语时,确定该第一词语与每个第二词语的词向量之间的相似度,则该相似度能够表明第一词语与第二词语的语义的接近程度,因此,基于该相似度能够准确确定出第一词语的
关联词语。
[0257]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到文本的语义信息,进而得到准确的节点特征。并且,在融合关系子图中节点的节点特征得到关系子图的子图特征,以及融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,结合节点与关系子图之间的相似度,进一步提高了融合得到的子图特征和节点特征的精度。
[0258]
在本技术实施例中,利用第二文本的第二关系图中的关系子图的子图特征来对第一关系图的子图特征进行更新,相当于在第一关系图的子图特征中融合了第二关系图的子图特征,也就相当于结合了第二文本的语义信息来学习第一文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0259]
在本技术实施例中,由于目标子图特征是第二关系图的子图特征中与第一关系图的子图特征相似的子图特征,通过按照选取的目标子图与第一关系图的子图特征之间的相似度来对选取的目标子图进行融合,则融合特征能够充分体现第二文本中的语义信息中与第一文本的语义信息中相似的部分,因此,第一关系图的子图特征与该融合特征的差异特征能够充分体现两个文本的相似的部分语义信息之间的差异,而该差异能够真正体现两个文本之间是否匹配,因此将该差异特征确定为更新后的子图特征,后续基于该子图特征识别出的第一文本和第二文本之间的关系更加准确,也即是进行文本匹配的准确性更高。另外,在选取与第一关系图的子图特征相似的目标子图特征时,选取相似度较大的参考数量的目标子图特征,一方面能够降低处理的数据量,提高模型的特征提取的速度,进而提高模型的关系识别效率,另一方面,能够提高模型提取的特征的精度,进而保证文本匹配的准确性。
[0260]
在本技术实施例中,在确定关系参数时,确定每个节点特征与每个子图特征之间的相似度,将相似度较小的值调整为表示节点特征与子图特征不相似的相似度,则在以关系子图中的节点对应的相似度作为权重,融合关系子图中节点的节点特征,得到关系子图的子图特征的过程中,不仅能够提高子图特征的精度,还能够降低模型处理的数据量。同理,在以将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,能够提高节点特征的精度,并降低模型处理的数据量。
[0261]
在本技术实施例中,由于关系图中的每个节点的节点特征都能够表示文本的部分语义信息,通过获取关系图中的多个节点的节点特征的平均值,将平均值确定为关系图特征,则该关系图特征综合了每个节点的语义信息,从而能够体现整个文本的语义信息,基于该关系图特征识别文本之间的关系,识别出来的关系更加准确。
[0262]
图8是本技术实施例提供的一种文本匹配方法的流程图。该实施例描述关系识别模型的训练过程。参见图8,该实施例包括:
[0263]
801、服务器获取样本数据,样本数据包括第一样本关系图、第二样本关系图和样本关系标签。
[0264]
样本关系标签用于表示第一样本关系图与第二样本关系图之间的关系,关系为匹配或不匹配。服务器获取第一样本关系图和第二样本关系图的实现方式与服务器获取第一
关系图和第二关系图的实现方式同理,此处不再赘述。
[0265]
802、服务器调用关系识别模型,确定第一样本关系图与第二样本关系图之间的预测关系标签。
[0266]
其中,预测关系标签用于表示关系识别模型预测出的第一样本关系图与第二样本关系图之间的关系。
[0267]
在一种可能的实现方式中,关系识别模型包括特征提取子模型和分类子模型。相应的,服务器调用关系识别模型,确定第一样本关系图与第二样本关系图之间的预测关系标签,包括下述步骤(1)-(3)。
[0268]
(1)服务器调用特征提取子模型,获取第一样本关系图中的每个节点的节点特征,以及第二样本关系图中的每个节点的节点特征。
[0269]
其中,节点的节点特征为节点所表示的词语的特征。
[0270]
在一种可能的实现方式中,特征提取子模型包括多个特征提取层,相应的,服务器调用特征提取子模型,获取第一样本关系图中的每个节点的节点特征,包括下述步骤(a)-(c)。
[0271]
(a)服务器调用第一个特征提取层,获取第一样本关系图中的每个节点的第一节点特征。
[0272]
(b)服务器调用第一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到每个节点的第二节点特征。
[0273]
在一种可能的实现方式中,步骤(b)包括下述三个步骤。
[0274]
第一,服务器获取第一样本关系图的第一样本关系参数,表示第一样本关系图中的每个节点与每个关系子图的关系,关系为节点属于关系子图或节点不属于关系子图。
[0275]
第一样本关系图中直接反映了每个节点是否属于每个关系子图,因此,服务器能够基于第一样本关系图来获取第一关系参数。可选地,第一关系参数为矩阵形式,矩阵中的每个元素代表一个节点与一个关系子图的关系。例如,矩阵中的第一个元素代表第一个节点与第一个关系子图的关系,第二个元素表示第一个节点与第二个关系子图的关系。可选地,元素为0,表示节点与关系子图的关系为节点不属于关系子图。元素为1,表示节点与关系子图的关系为节点属于关系子图。
[0276]
第二,对于第一样本关系图中的每个关系子图,服务器调用第一个特征提取层,基于第一样本关系参数,确定关系子图中的节点,融合关系子图中的节点的第一节点特征,得到关系子图的第一子图特征。
[0277]
第三,对于第一样本关系图中的每个节点,服务器调用第一个特征提取层,基于第一样本关系参数,确定节点所属的关系子图,融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征。
[0278]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到文本的语义信息,进而得到准确的节点特征。
[0279]
在一种可能的实现方式中,服务器调用第一个特征提取层,分别融合第一样本关
系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征之后,方法还包括:对于第一样本关系图中的每个关系子图的第一子图特征,服务器调用第一个特征提取层,确定与第一子图特征相似的至少一个目标子图特征;服务器基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征。其中,目标子图特征为第二样本关系图中的关系子图的第一子图特征。获取第二样本关系图中的关系子图的第一子图特征的实现方式与获取第一样本关系图中的关系子图的第一子图特征的实现方式同理,此处不再赘述。
[0280]
在本技术实施例中,利用第二样本文本的第二样本关系图中的关系子图的子图特征来对第一样本关系图的子图特征进行更新,相当于在第一样本关系图的子图特征中融合了第二样本关系图的子图特征,也就相当于结合了第二样本文本的语义信息来学习第一样本文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0281]
在一种可能的实现方式中,服务器基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征,包括:服务器调用第一个特征提取层,基于第一子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,服务器选取的目标子图特征与第一子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第一子图特征之间的相似度。服务器将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第一子图特征与融合特征的差异特征确定为更新后的第一子图特征。
[0282]
在本技术实施例中,由于目标子图特征是第二样本关系图的子图特征中与第一样本关系图的子图特征相似的子图特征,通过按照选取的目标子图与第一样本关系图的子图特征之间的相似度来对选取的目标子图进行融合,则融合特征能够充分体现第二样本文本中的语义信息中与第一样本文本的语义信息中相似的部分,因此,第一样本关系图的子图特征与该融合特征的差异特征能够充分体现两个样本文本的相似的部分语义信息之间的差异,而该差异能够真正体现两个样本文本之间是否匹配,因此将该差异特征确定为更新后的子图特征,后续基于该子图特征识别出的第一样本文本和第二样本文本之间的关系更加准确,也即是进行样本文本匹配的准确性更高。另外,在选取与第一样本关系图的子图特征相似的目标子图特征时,选取相似度较大的参考数量的目标子图特征,一方面能够降低处理的数据量,提高模型的特征提取的速度,进而提高模型的关系识别效率,另一方面,能够提高模型提取的特征的精度,进而保证样本文本匹配的准确性。
[0283]
(c)服务器调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,直至得到最后一个特征提取层输出的每个节点的节点特征,将最后一个特征提取层输出的每个节点的节点特征确定为第一样本关系图中的每个节点的节点特征。
[0284]
在一种可能的实现方式中,服务器融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征之后,方法包括:服务器调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二样本关系参数,第二样本关系参数表示第一样本关系图中的每
个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度。相应的,步骤(c)中服务器调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,包括下述两个步骤:
[0285]
第一,对于第一样本关系图中的每个关系子图,服务器调用下一个特征提取层,基于第二样本关系参数,确定关系子图中的节点的第二节点特征与关系子图的第一子图特征之间的相似度,将关系子图中的节点对应的相似度作为权重,融合关系子图中的节点的第二节点特征,得到关系子图的第二子图特征。
[0286]
第二,对于第一样本关系图中的每个节点,服务器调用下一个特征提取层,基于第二样本关系参数,确定节点所属的关系子图的第一子图特征与节点的第二节点特征之间的相似度,将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征。
[0287]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到样本文本的语义信息,进而得到准确的节点特征。并且,在融合关系子图中节点的节点特征得到关系子图的子图特征,以及融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,结合节点与关系子图之间的相似度,进一步提高了融合得到的子图特征和节点特征的精度。
[0288]
在一种可能的实现方式中,服务器调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二样本关系参数,包括:服务器获取第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;服务器将多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;服务器基于调整后的多个余弦相似度生成第二样本关系参数。
[0289]
在本技术实施例中,在确定关系参数时,确定每个节点特征与每个子图特征之间的相似度,将相似度较小的值调整为表示节点特征与子图特征不相似的相似度,则在以关系子图中的节点对应的相似度作为权重,融合关系子图中节点的节点特征,得到关系子图的子图特征的过程中,不仅能够提高子图特征的精度,还能够降低模型处理的数据量。同理,在以将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,能够提高节点特征的精度,并降低模型处理的数据量。
[0290]
在一种可能的实现方式中,服务器将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征之后,方法还包括:服务器调用下一个特征提取层,基于第二子图特征和第三节点特征,确定第三样本关系参数,第三样本关系参数表示第一样本关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
[0291]
在一种可能的实现方式中,服务器调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征之后,方法还包括:对于第一样本关系图中的每个关系子图的第二子图特征,服务器调用下一
个特征提取层,确定与第二子图特征相似的至少一个目标子图特征;服务器基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征。其中,目标子图特征为第二样本关系图中的关系子图的第二子图特征。
[0292]
在本技术实施例中,利用第二样本文本的第二样本关系图中的关系子图的子图特征来对第一样本关系图的子图特征进行更新,相当于在第一样本关系图的子图特征中融合了第二样本关系图的子图特征,也就相当于结合了第二样本文本的语义信息来学习第一样本文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0293]
在一种可能的实现方式中,服务器基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征,包括:服务器调用下一个特征提取层,基于第二子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与第二子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第二子图特征之间的相似度;服务器将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第二子图特征与融合特征的差异特征确定为更新后的第二子图特征。
[0294]
需要说明的一点是,服务器调用关系识别模型,确定第一样本关系图与第二样本关系图之间的预测关系标签的实现方式与调用关系识别模型,确定第一关系图与第二关系图之间的关系标签的实现方式同理,此处不再赘述。
[0295]
(2)服务器调用分类子模型,基于第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于第二样本关系图中的每个节点的节点特征获取第二样本关系图特征。
[0296]
其中,第一样本关系图特征用于表示第一样本文本的语义信息,第二样本关系图特征用于表示第二样本文本的语义信息。
[0297]
在一种可能的实现方式中,服务器调用分类子模型,基于第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于第二样本关系图中的每个节点的节点特征获取第二样本关系图特征,包括:服务器调用分类子模型,获取第一样本关系图中的多个节点的节点特征的平均值,将平均值确定为第一样本关系图特征,获取第二样本关系图中的多个节点的节点特征的平均值,将平均值确定为第二样本关系图特征。
[0298]
在本技术实施例中,由于样本关系图中的每个节点的节点特征都能够表示样本文本的部分语义信息,通过获取样本关系图中的多个节点的节点特征的平均值,将平均值确定为样本关系图特征,则该样本关系图特征综合了每个节点的语义信息,从而能够体现整个样本文本的语义信息,基于该样本关系图特征识别样本文本之间的关系,识别出来的关系更加准确。
[0299]
(3)服务器调用分类子模型,基于第一样本关系图特征与第二样本关系图特征,确定第一样本关系图与第二样本关系图之间的预测关系标签。
[0300]
预测关系标签用于表示预测的第一样本关系图与第二样本关系图之间的关系,该关系为匹配或不匹配。可选地,预测关系标签包括第一样本关系图与第二样本关系图匹配的概率以及第一样本关系图与第二样本关系图不匹配的概率,两个概率的和为1,匹配的概
率大于不匹配的概率表示第一样本关系图与第二样本关系图之间的关系为匹配,匹配的概率小于不匹配的概率表示第一样本关系图与第二样本关系图之间的关系为不匹配。匹配的概率等于不匹配的概率表示第一样本关系图与第二样本关系图之间的关系为匹配或不匹配,本技术实施例对此不做限制。
[0301]
803、服务器基于样本关系标签和预测关系标签,训练关系识别模型。
[0302]
服务器基于样本关系标签和预测关系标签,训练关系识别模型,以使关系识别模型所预测得到的预测关系标签与样本关系标签的相似度不断接近,直至达到某个阈值。
[0303]
在一种可能的实现方式中,服务器基于样本关系标签和预测关系标签,训练关系识别模型,包括:服务器基于样本关系标签和预测关系标签,确定关系识别模型的损失值;服务器基于该损失值训练关系识别模型。其中,损失值用于表示样本关系标签和预测关系标签之间的相似度,并且,该损失值与样本关系标签和预测关系标签之间的相似度呈负相关关系,即该损失值越小,表示样本关系标签和预测关系标签之间的相似度越大。可选地,服务器基于损失值,训练关系识别模型的实现方式为:服务器调整模型的参数,以使基于调整后的关系识别模型获取的损失值变小。可选地,通过下述公式(7)确定关系识别模型的损失值。
[0304][0305]
其中,lc表示关系识别模型的损失值,z
lf
表示预测关系标签,该预测关系标签为一个1*2维的向量,该向量中的第一个元素表示第一样本关系图与第二样本关系图不匹配的概率,第二个元素表示第一样本关系图与第二样本关系图匹配的概率,y
lf
表示样本关系标签,该样本关系标签为一个1*2维的向量,该向量中的第一个元素表示第一样本关系图与第二样本关系图真实的不匹配的概率,例如,1或0,第二个元素表示第一样本关系图与第二样本关系图真实的匹配的概率,例如,1或0,并且,这两个元素的和为1。y
l
表示样本数据的数量,l表示样本数据的序号,f表示样本关系标签以及预测关系标签的维度,即2,f表示样本关系标签以及预测关系标签的维度的序号。
[0306]
在一种可能的实现方式中,服务器基于样本关系标签和预测关系标签,训练关系识别模型,包括下述四个步骤。
[0307]
第一,服务器获取最后一个特征提取层输出样本关系参数,样本关系参数表示第一样本关系图中的每个节点的节点特征与每个关系子图的子图特征之间的相似度。
[0308]
其中,最后一个特征提取层的样本关系参数的获取方式与上述第二样本关系参数的获取方式同理,此处不再赘述。
[0309]
第二,服务器基于样本关系参数确定第一损失值,第一损失值用于表示属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度。
[0310]
属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度与第一损失值呈正相关关系,第一损失值越小,表示该离散程度越小,第一损失值越大,表示该离散程度越大。可选地,通过下述公式(8)确定关系识别模型的第一损失值。
[0311]
[0312]
其中,lg表示关系识别模型的第一损失值,i表示单位矩阵,dv表示节点的度的对角矩阵,de表示关系子图的度的对角矩阵,h为一个矩阵,表示最后一个特征提取层输出的样本关系参数,h
t
表示该矩阵的转置,h为一个矩阵,表示样本关系图中的节点的第一节点特征,h
t
表示该矩阵的转置,tr(m)表示矩阵m的迹。
[0313]
第三,服务器基于样本关系标签和预测关系标签,确定关系识别模型的第二损失值,第二损失值用于表示样本关系标签和预测关系标签之间的相似度。
[0314]
可选地,通过上述公式(7)确定关系识别模型的第二损失值。
[0315]
第四,服务器基于第一损失值与第二损失值的总损失值,训练关系识别模型。
[0316]
可选地,服务器基于第一损失值与第二损失值的总损失值,训练关系识别模型的实现方式为:服务器调整模型的参数,以使基于调整后的关系识别模型获取的总损失值变小。可选地,通过下述公式(9)确定关系识别模型的总损失值。
[0317]
l=lg+lcꢀꢀ
(9)
[0318]
其中,l表示关系识别模型的总损失值,lg表示第一损失值,lc表示第二损失值。
[0319]
在本技术实施例中,由于第一损失值表示属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度,则通过第一损失值来训练该关系识别模型,能够使属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度变小,而由于关系子图用于表示该关系子图中的每个节点所表示的每个词语之间具有关联关系,因此,该离散程度越小,也即表示模型确定的关联词语越准确,提取出的关联词语之间所表示的语义信息也越准确,因此能够提高文本匹配的准确度。
[0320]
在本技术实施例中,特征提取层在进行特征提取时,先通过融合关系子图中节点的节点特征得到关系子图的子图特征,再通过融合节点所属的关系子图的子图特征,得到节点的节点特征,通过这两个过程,能够使模型充分学习到样本文本的语义信息,进而得到准确的节点特征。并且,在融合关系子图中节点的节点特征得到关系子图的子图特征,以及融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,结合节点与关系子图之间的相似度,进一步提高了融合得到的子图特征和节点特征的精度。
[0321]
在本技术实施例中,利用第二样本文本的第二样本关系图中的关系子图的子图特征来对第一样本关系图的子图特征进行更新,相当于在第一样本关系图的子图特征中融合了第二样本关系图的子图特征,也就相当于结合了第二样本文本的语义信息来学习第一样本文本的语义信息,如此能够使模型学习到更准确的语义信息,从而得到更为准确的节点特征。
[0322]
在本技术实施例中,由于目标子图特征是第二样本关系图的子图特征中与第一样本关系图的子图特征相似的子图特征,通过按照选取的目标子图与第一样本关系图的子图特征之间的相似度来对选取的目标子图进行融合,则融合特征能够充分体现第二样本文本中的语义信息中与第一样本文本的语义信息中相似的部分,因此,第一样本关系图的子图特征与该融合特征的差异特征能够充分体现两个样本文本的相似的部分语义信息之间的差异,而该差异能够真正体现两个样本文本之间是否匹配,因此将该差异特征确定为更新后的子图特征,后续基于该子图特征识别出的第一样本文本和第二样本文本之间的关系更加准确,也即是进行样本文本匹配的准确性更高。另外,在选取与第一样本关系图的子图特征相似的目标子图特征时,选取相似度较大的参考数量的目标子图特征,一方面能够降低
处理的数据量,提高模型的特征提取的速度,进而提高模型的关系识别效率,另一方面,能够提高模型提取的特征的精度,进而保证样本文本匹配的准确性。
[0323]
在本技术实施例中,在确定关系参数时,确定每个节点特征与每个子图特征之间的相似度,将相似度较小的值调整为表示节点特征与子图特征不相似的相似度,则在以关系子图中的节点对应的相似度作为权重,融合关系子图中节点的节点特征,得到关系子图的子图特征的过程中,不仅能够提高子图特征的精度,还能够降低模型处理的数据量。同理,在以将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的子图特征,得到节点的节点特征的过程中,能够提高节点特征的精度,并降低模型处理的数据量。
[0324]
在本技术实施例中,由于样本关系图中的每个节点的节点特征都能够表示样本文本的部分语义信息,通过获取样本关系图中的多个节点的节点特征的平均值,将平均值确定为样本关系图特征,则该样本关系图特征综合了每个节点的语义信息,从而能够体现整个样本文本的语义信息,基于该样本关系图特征识别样本文本之间的关系,识别出来的关系更加准确。
[0325]
上述所有可选技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
[0326]
图9是本技术实施例提供的一种文本匹配装置的框图。参见图9,该装置包括:
[0327]
文本获取模块91,用于获取第一文本;
[0328]
集合构成模块92,用于对于第一文本中的每个词语,从第一文本中选取词语的每个关联词语,将词语以及选取的每个关联词语构成一个词语集合;
[0329]
关系图生成模块93,用于基于构成的至少一个词语集合生成第一关系图,第一关系图包括至少一个关系子图,每个关系子图与一个词语集合对应,每个关系子图中的每个节点用于表示对应的词语集合中的一个词语,且每个关系子图用于表示对应的词语集合中的每个词语之间存在关联关系;
[0330]
文本匹配模块94,用于基于第一关系图进行文本匹配。
[0331]
在一种可能的实现方式中,集合构成模块92,用于确定第一词语的第一词向量与每个第二词语的第二词向量之间的相似度,第一词语为第一文本中的任一词语,第二词语为第一文本中除第一词语之外的其他词语;选取与第一词向量之间的相似度小于参考阈值的每个第二词向量对应的第二词语;将第一词语以及选取的每个第二词语构成一个词语集合。
[0332]
在一种可能的实现方式中,参考图10,文本匹配模块94,包括:
[0333]
标签确定子模块941,用于调用关系识别模型,确定第一关系图与第二文本对应的第二关系图之间的关系标签,关系标签用于表示第一关系图与第二关系图之间的关系,关系为匹配或不匹配;
[0334]
文本确定子模块942,用于响应于关系标签表示第一关系图与第二关系图匹配,将第二文本确定为与第一文本匹配的文本。
[0335]
在一种可能的实现方式中,关系识别模型包括特征提取子模型和分类子模型;参考图10,标签确定子模块941,包括:
[0336]
节点特征获取单元9411,用于调用特征提取子模型,获取第一关系图中的每个节
点的节点特征,以及第二关系图中的每个节点的节点特征,节点的节点特征为节点所表示的词语的特征;
[0337]
图特征获取单元9412,用于调用分类子模型,基于第一关系图中的每个节点的节点特征获取第一关系图特征,基于第二关系图中的每个节点的节点特征获取第二关系图特征;
[0338]
标签确定单元9413,用于基于第一关系图特征与第二关系图特征,确定第一关系图与第二关系图之间的关系标签。
[0339]
在一种可能的实现方式中,图特征获取单元9412,用于调用分类子模型,获取第一关系图中的多个节点的节点特征的平均值,将平均值确定为第一关系图特征,获取第二关系图中的多个节点的节点特征的平均值,将平均值确定为第二关系图特征。
[0340]
在一种可能的实现方式中,特征提取子模型包括多个特征提取层;参考图10,节点特征获取单元9411,包括:
[0341]
第一特征获取子单元94111,用于调用第一个特征提取层,获取第一关系图中的每个节点的第一节点特征;
[0342]
第二特征获取子单元94112,用于调用第一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征,分别融合第一关系图中的每个节点所属的关系子图的第一子图特征,得到每个节点的第二节点特征;
[0343]
第三特征获取子单元94113,用于调用下一个特征提取层,分别融合第一关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,直至得到最后一个特征提取层输出的每个节点的节点特征,将最后一个特征提取层输出的每个节点的节点特征确定为第一关系图中的每个节点的节点特征。
[0344]
在一种可能的实现方式中,第二特征获取子单元94112,用于获取第一关系图的第一关系参数,第一关系参数表示第一关系图中的每个节点与每个关系子图的关系,关系为节点属于关系子图或节点不属于关系子图;对于第一关系图中的每个关系子图,调用第一个特征提取层,基于第一关系参数,确定关系子图中的节点,融合关系子图中的节点的第一节点特征,得到关系子图的第一子图特征;对于第一关系图中的每个节点,调用第一个特征提取层,基于第一关系参数,确定节点所属的关系子图,融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征。
[0345]
在一种可能的实现方式中,第二特征获取子单元94112,还用于调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二关系参数,第二关系参数表示第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度;
[0346]
第三特征获取子单元94113,用于对于第一关系图中的每个关系子图,调用下一个特征提取层,基于第二关系参数,确定关系子图中的节点的第二节点特征与关系子图的第一子图特征之间的相似度,将关系子图中的节点对应的相似度作为权重,融合关系子图中的节点的第二节点特征,得到关系子图的第二子图特征;对于第一关系图中的每个节点,调用下一个特征提取层,基于第二关系参数,确定节点所属的关系子图的第一子图特征与节点的第二节点特征之间的相似度,将节点所属的关系子图对应的相似度作为权重,融合节
点所属的关系子图的第二子图特征,得到节点的第三节点特征。
[0347]
在一种可能的实现方式中,第二特征获取子单元94112,用于获取第一关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;将多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;基于调整后的多个余弦相似度生成第二关系参数。
[0348]
在一种可能的实现方式中,第三特征获取子单元94113,还用于调用下一个特征提取层,基于第二子图特征和第三节点特征,确定第三关系参数,第三关系参数表示第一关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
[0349]
在一种可能的实现方式中,第二特征获取子单元94112,还用于对于第一关系图中的每个关系子图的第一子图特征,调用第一个特征提取层,确定与第一子图特征相似的至少一个目标子图特征;基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征;其中,目标子图特征为第二关系图中的关系子图的第一子图特征。
[0350]
在一种可能的实现方式中,第二特征获取子单元94112,用于调用第一个特征提取层,基于第一子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与第一子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第一子图特征之间的相似度;将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第一子图特征与融合特征的差异特征确定为更新后的第一子图特征。
[0351]
在一种可能的实现方式中,第三特征获取子单元94113,还用于对于第一关系图中的每个关系子图的第二子图特征,调用下一个特征提取层,确定与第二子图特征相似的至少一个目标子图特征;基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征;其中,目标子图特征为第二关系图中的关系子图的第二子图特征。
[0352]
在一种可能的实现方式中,第三特征获取子单元94113,用于调用下一个特征提取层,基于第二子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与第二子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第二子图特征之间的相似度;将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第二子图特征与融合特征的差异特征确定为更新后的第二子图特征。
[0353]
在一种可能的实现方式中,关系识别模型的训练过程包括:
[0354]
获取样本数据,样本数据包括第一样本关系图、第二样本关系图和样本关系标签,样本关系标签用于表示第一样本关系图与第二样本关系图之间的关系,关系为匹配或不匹配;
[0355]
调用关系识别模型,确定第一样本关系图与第二样本关系图之间的预测关系标签,预测关系标签用于表示预测出的第一样本关系图与第二样本关系图之间的关系;
[0356]
基于样本关系标签和预测关系标签,训练关系识别模型。
[0357]
在一种可能的实现方式中,基于样本关系标签和预测关系标签,训练关系识别模
型,包括:
[0358]
基于样本关系标签和预测关系标签,确定关系识别模型的损失值;
[0359]
基于损失值训练关系识别模型,损失值用于表示样本关系标签和预测关系标签之间的相似度。
[0360]
在一种可能的实现方式中,关系识别模型包括特征提取子模型和分类子模型;调用关系识别模型,确定第一样本关系图与第二样本关系图之间的预测关系标签,包括:
[0361]
调用特征提取子模型,获取第一样本关系图中的每个节点的节点特征,以及第二样本关系图中的每个节点的节点特征,节点的节点特征为节点所表示的词语的特征;
[0362]
调用分类子模型,基于第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于第二样本关系图中的每个节点的节点特征获取第二样本关系图特征;
[0363]
基于第一样本关系图特征与第二样本关系图特征,确定第一样本关系图与第二样本关系图之间的预测关系标签。
[0364]
在一种可能的实现方式中,调用分类子模型,基于第一样本关系图中的每个节点的节点特征获取第一样本关系图特征,基于第二样本关系图中的每个节点的节点特征获取第二样本关系图特征,包括:
[0365]
调用分类子模型,获取第一样本关系图中的多个节点的节点特征的平均值,将平均值确定为第一样本关系图特征,获取第二样本关系图中的多个节点的节点特征的平均值,将平均值确定为第二样本关系图特征。
[0366]
在一种可能的实现方式中,特征提取子模型包括多个特征提取层;调用特征提取子模型,获取第一样本关系图中的每个节点的节点特征,包括:
[0367]
调用第一个特征提取层,获取第一样本关系图中的每个节点的第一节点特征;
[0368]
调用第一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到每个节点的第二节点特征;
[0369]
调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,直至得到最后一个特征提取层输出的每个节点的节点特征,将最后一个特征提取层输出的每个节点的节点特征确定为第一样本关系图中的每个节点的节点特征。
[0370]
在一种可能的实现方式中,调用第一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第一子图特征,得到每个节点的第二节点特征,包括:
[0371]
获取第一样本关系图的第一样本关系参数,表示第一样本关系图中的每个节点与每个关系子图的关系,关系为节点属于关系子图或节点不属于关系子图;
[0372]
对于第一样本关系图中的每个关系子图,调用第一个特征提取层,基于第一样本关系参数,确定关系子图中的节点,融合关系子图中的节点的第一节点特征,得到关系子图的第一子图特征;
[0373]
对于第一样本关系图中的每个节点,调用第一个特征提取层,基于第一样本关系
参数,确定节点所属的关系子图,融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征。
[0374]
在一种可能的实现方式中,融合节点所属的关系子图的第一子图特征,得到节点的第二节点特征之后,装置包括:
[0375]
调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二样本关系参数,第二样本关系参数表示第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的相似度;
[0376]
调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征,分别融合第一样本关系图中的每个节点所属的关系子图的第二子图特征,得到每个节点的第三节点特征,包括:
[0377]
对于第一样本关系图中的每个关系子图,调用下一个特征提取层,基于第二样本关系参数,确定关系子图中的节点的第二节点特征与关系子图的第一子图特征之间的相似度,将关系子图中的节点对应的相似度作为权重,融合关系子图中的节点的第二节点特征,得到关系子图的第二子图特征;
[0378]
对于第一样本关系图中的每个节点,调用下一个特征提取层,基于第二样本关系参数,确定节点所属的关系子图的第一子图特征与节点的第二节点特征之间的相似度,将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征。
[0379]
在一种可能的实现方式中,调用第一个特征提取层,基于第一子图特征和第二节点特征,确定第二样本关系参数,包括:
[0380]
获取第一样本关系图中的每个节点的第二节点特征与每个关系子图的第一子图特征之间的余弦相似度,得到多个余弦相似度;
[0381]
将多个余弦相似度中小于第一参考相似度的余弦相似度调整为第二参考相似度,第二参考相似度表示不相似的第二节点特征与第一子图特征之间的相似度;
[0382]
基于调整后的多个余弦相似度生成第二样本关系参数。
[0383]
在一种可能的实现方式中,将节点所属的关系子图对应的相似度作为权重,融合节点所属的关系子图的第二子图特征,得到节点的第三节点特征之后,装置还包括:
[0384]
调用下一个特征提取层,基于第二子图特征和第三节点特征,确定第三样本关系参数,第三样本关系参数表示第一样本关系图中的每个节点的第三节点特征与每个关系子图的第二子图特征之间的相似度。
[0385]
在一种可能的实现方式中,基于样本关系标签和预测关系标签,训练关系识别模型,包括:
[0386]
获取最后一个特征提取层输出样本关系参数,样本关系参数表示第一样本关系图中的每个节点的节点特征与每个关系子图的子图特征之间的相似度;
[0387]
基于样本关系参数确定第一损失值,第一损失值用于表示属于同一关系子图的多对相邻节点的节点特征之间的相似度的离散程度;
[0388]
基于样本关系标签和预测关系标签,确定关系识别模型的第二损失值,第二损失值用于表示样本关系标签和预测关系标签之间的相似度;
[0389]
基于第一损失值与第二损失值的总损失值,训练关系识别模型。
[0390]
在一种可能的实现方式中,调用第一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第一节点特征,得到每个关系子图的第一子图特征之后,装置还包括:
[0391]
对于第一样本关系图中的每个关系子图的第一子图特征,调用第一个特征提取层,确定与第一子图特征相似的至少一个目标子图特征;
[0392]
基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征;
[0393]
其中,目标子图特征为第二样本关系图中的关系子图的第一子图特征。
[0394]
在一种可能的实现方式中,基于至少一个目标子图特征对第一子图特征进行更新,得到更新后的第一子图特征,包括:
[0395]
调用第一个特征提取层,基于第一子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与第一子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第一子图特征之间的相似度;
[0396]
将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第一子图特征与融合特征的差异特征确定为更新后的第一子图特征。
[0397]
在一种可能的实现方式中,调用下一个特征提取层,分别融合第一样本关系图中的每个关系子图中的节点的第二节点特征,得到每个关系子图的第二子图特征之后,装置还包括:
[0398]
对于第一样本关系图中的每个关系子图的第二子图特征,调用下一个特征提取层,确定与第二子图特征相似的至少一个目标子图特征;
[0399]
基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征;
[0400]
其中,目标子图特征为第二样本关系图中的关系子图的第二子图特征。
[0401]
在一种可能的实现方式中,基于至少一个目标子图特征对第二子图特征进行更新,得到更新后的第二子图特征,包括:
[0402]
调用下一个特征提取层,基于第二子图特征与至少一个目标子图特征中的每个目标子图特征之间的相似度,从至少一个目标子图特征中选取参考数量的目标子图特征,选取的目标子图特征与第二子图特征之间的相似度大于至少一个目标子图特征中剩余的目标子图特征与第二子图特征之间的相似度;
[0403]
将选取的目标子图特征与第一子图特征之间的相似度作为权重,对选取的目标子图特征进行融合,得到融合特征,将第二子图特征与融合特征的差异特征确定为更新后的第二子图特征。
[0404]
在本技术实施例中,考虑到文本中的每两个词语之间的关系往往无法完整地表示文本的语义信息,因此,在用关系图表示文本时,对于文本中的每个词语,要从该文本中将该词语的每个关联词语都选取出来,将该词语和选取的关联词语构成词语集合,基于构成的至少一个词语集合生成关系图,由于关系图中以关系子图为单位来表示该文本,且一个关系子图能够表示该关系子图对应的词语集合中的每个词语之间都存在关联关系,而不限
于仅是两个词语之间存在关联关系,因此该关系图能够完整地表示文本的语义信息,通过该关系图进行文本匹配能够提高文本匹配的准确率。
[0405]
需要说明的是:上述实施例提供的文本匹配装置在进行文本匹配时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本匹配装置与文本匹配方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0406]
本技术实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的文本匹配方法中执行的操作。
[0407]
可选地,该计算机设备提供为终端。图11示出了本技术一个示例性实施例提供的终端1100的结构框图。该终端1100可以是:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0408]
终端1100包括有:处理器1101和存储器1102。
[0409]
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0410]
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1101所执行以实现本技术中方法实施例提供的文本匹配方法。
[0411]
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106中的至少一种。
[0412]
外围设备接口1103可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器
1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0413]
射频电路1104用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。显示屏1105用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在另一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。
[0414]
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0415]
可选地,该计算机设备提供为服务器。图12是本技术实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1201和一个或一个以上的存储器1202,其中,所述存储器1202中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器1201加载并执行以实现上述各个方法实施例提供的文本匹配方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0416]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的文本匹配方法中执行的操作。
[0417]
本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或该计算机程序包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从该计算机可读存储介质读取该计算机程序,该处理器执行该计算机程序,使得该计算机设备执行上述各种可选实现方式中的文本匹配方法中执行的操作。
[0418]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0419]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1