文本匹配方法、装置及设备与流程

文档序号：19376230发布日期：2019-12-10 23:53阅读：来源：国知局

技术特征：

1.一种文本匹配方法，其特征在于，所述方法包括：

获取第一文本和第二文本；

根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离，所述含义匹配距离用于指示所述第一文本与所述第二文本的含义匹配程度。

2.根据权利要求1所述的文本匹配方法，其特征在于，所述根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量，计算所述第一文本和所述第二文本的含义匹配距离包括：

分别确定出所述第一文本的k个词向量和所述第二文本的k个词向量，k是正整数；

根据所述第一文本的k个词向量和所述第二文本的k个词向量计算词向量匹配距离；

根据所述词向量匹配距离和句向量匹配距离，计算出所述含义匹配距离，所述句向量匹配距离根据所述第一文本的句向量与所述第二文本的句向量计算得到。

3.根据权利要求2所述的文本匹配方法，其特征在于，所述分别确定出所述第一文本和所述第二文本的k个词向量包括：

确定所述第一文本包含的l个词汇字符串，l是大于k的整数；

确定所述第二文本包含的m个词汇字符串，m是大于k的整数；

根据所述l个词汇字符串和所述m个词汇字符串，确定所述第一文本的k个词汇字符串和所述第二文本的k个词汇字符串；

分别计算所述第一文本的k个词汇字符串中每个词汇字符串的词向量，以及所述第二文本的k个词汇字符串中每个词汇字符串的词向量，得到所述第一文本的k个词向量和所述第二文本的k个词向量。

4.根据权利要求2或3所述的文本匹配方法，其特征在于，所述根据所述第一文本的k个词向量和所述第二文本的k个词向量计算所述词向量匹配距离包括：

根据所述第一文本的k个词向量和所述第一文本的k个词汇字符串中每个词汇字符串的权重，以及所述第二文本的k个词向量，计算所述第一文本与所述第二文本的词向量匹配距离，其中，所述权重用于表示词汇字符串在所述第一文本中的重要性。

5.根据权利要求4所述的文本匹配方法，其特征在于，所述根据所述第一文本的k个词向量和所述第一文本的k个词汇字符串中每个词汇字符串的权重，以及所述第二文本的k个词向量，计算所述第一文本与所述第二文本的词向量匹配距离包括：

确定所述第二文本的k个词向量中与所述第一文本的k个词向量中每个词向量最接近的词向量；

计算所述第一文本的k个词向量中每个词向量与相应最接近的词向量的距离；

根据所述第一文本的k个词向量中每个词向量与相应最接近的词向量距离，与所述第一文本的k个词汇字符串中每个词汇字符串的权重，计算所述第一文本与所述第二文本的词向量匹配距离。

6.根据权利要求5所述的文本匹配方法，其特征在于，所述根据所述第一文本的k个词向量中每个词向量与相应最接近的词向量距离，与所述第一文本的k个词汇字符串中每个词汇字符串的权重，计算所述第一文本与所述第二文本的词向量匹配距离，包括：

计算所述第一文本的k个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值，将所述加权平均值确定为所述词向量匹配距离。

7.根据权利要求5所述的文本匹配方法，其特征在于，所述根据所述第一文本的k个词向量中每个词向量与相应最接近的词向量距离，与所述第一文本的k个词汇字符串中每个词汇字符串的权重，计算所述第一文本与所述第二文本的词向量匹配距离，包括：

计算所述第一文本的k个词汇字符串中每个词汇字符串对应的距离和权重乘积的加权平均值，作为第一结果值；

计算所述第二文本的k个词汇字符串中每个词汇字符串对应的距离，和所述第二文本中词汇字符串权重乘积的加权平均值，作为第二结果值；

计算所述第一结果值和所述第二结果值的加权值作为所述词向量匹配距离，其中，所述第一结果值的重要性高于所述第二结果值的重要性。

8.根据权利要求1至7中任一项所述的文本匹配方法，其特征在于，所述根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离，包括：

计算所述词向量匹配距离和所述句向量匹配距离的加权值，得到所述含义匹配距离。

9.根据权利要求1所述的文本匹配方法，其特征在于，在获取第一文本和第二文本之前，所述方法还包括：

接收语料文本，所述语料文本包括常用语料文本和预设领域的专业语料文本；

确定所述语料文本所包含的词汇字符串，得到词汇字符串集；

根据所述词汇字符串集中每种词汇字符串在所述常用语料文本中出现的频率，计算相应词汇字符串权重。

10.根据权利要求9所述的文本匹配方法，其特征在于，所述词汇字符串集中每个词汇字符串的权重i(s)满足：

其中，s是指所述词汇字符串集中任一词汇字符串，ns是指词汇字符串s在所述常用语料文本中出现的总数量，ε是指初始参数，n是指所述常用语料文本中词汇字符串的总数量，p(s)是指词汇字符串s在所述常用语料文本中出现的频率。

11.根据权利要求9或10所述的文本匹配方法，其特征在于，在计算所述词汇字符串集中每个词汇字符串的权重之后，还包括：

复制所述专业语料文本，使所述专业语料文本总字数的数量级与所述常用语料文本总字数的数量级相同，得到语料库；

根据所述语料库中的语料训练句向量模型和词向量模型。

12.一种问题匹配方法，其特征在于，所述方法包括：

接收输入问题；

计算所述输入问题与预设问题集中每个问题的含义匹配距离，所述含义匹配距离为根据所述输入问题的词向量与句向量，与所述预设问题集中每个问题的词向量与句向量计算得到；

从所述预设问题集中，选择与所述输入的问题之间的含义匹配距离最小的问题作为目标问题；

向用户显示所述目标问题对应的答案。

13.一种文本匹配设备，其特征在于，包括处理器和存储器，其中：

所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中存储的程序指令，以使所述文本匹配设备执行权利要求1至11中任一项所述的文本匹配的方法。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得所述计算机执行权利要求1至11中任一项所述的文本匹配的方法。

15.一种问题匹配设备，其特征在于，包括处理器和存储器，其中：

所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中存储的程序指令，以使所述问题匹配设备执行权利要求12所述的问题匹配的方法。

16.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得所述计算机执行权利要求12所述的问题匹配的方法。

技术总结
本申请实施例公开了一种文本匹配方法、装置及设备。所述方法包括：获取第一文本和第二文本；根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离。本申请实施例的文本匹配方法，综合文本中各个词汇的含义以及文本整句的含义，确定两文本的匹配程度，使得匹配计算的信息全面完整，从而能够提高文本匹配的准确度，提高用户的使用体验。

技术研发人员：周维;徐健鹏;李维
受保护的技术使用者：华为技术有限公司
技术研发日：2018.03.30
技术公布日：2019.12.10

完整全部详细技术资料下载

当前第2页1 2