技术特征:
1.一种文本语义相似度匹配方法,其特征在于,包括:对待匹配文本进行分词,得到所述待匹配文本的词语序列;采用第一滑动窗口在所述词语序列中确定多个词语子序列,并确定各所述词语子序列中各词语的词向量和权重,各词语子序列中包括多个词语;根据各所述词语子序列中词语的词向量和权重确定各所述词语子序列的指纹信息,并按照各所述词语子序列的顺序将各所述词语子序列的指纹信息组成指纹信息序列;采用第二滑动窗口在所述指纹信息序列中确定多个指纹信息子序列,并根据各指纹信息子序列的指纹信息确定各指纹信息子序列的指纹特征,其中,各指纹信息子序列中包括多个指纹信息,所述第二滑动窗口的长度等于所述第一滑动窗口的长度;对各指纹信息子序列的指纹特征分别进行分段处理,得到各指纹信息子序列的指纹特征的多个指纹分段特征,根据所述指纹分段特征以及预设的指纹数据库,确定所述待匹配文本的匹配结果。2.根据权利要求1所述的方法,其特征在于,所述采用第一滑动窗口在所述词语序列中确定多个词语子序列,并确定各所述词语子序列中各词语的词向量和权重,包括:采用所述第一滑动窗口遍历所述词语序列,在所述词语序列中确定多个词语子序列;在预设的词向量模型文件中查找所述词语子序列中的词语,确定各所述词语子序列中各词语的词向量;在预设的权重文件中查找所述词语子序列中的词语,确定各所述词语子序列中各词语的权重。3.根据权利要求1所述的方法,其特征在于,所述根据各所述词语子序列中词语的词向量和权重确定各所述词语子序列的指纹信息,并按照各所述词语子序列的顺序将各所述词语子序列的指纹信息组成指纹信息序列,包括:将各词语子序列中各词语的词向量和权重相乘,得到各词语的加权结果;将各词语子序列中各词语的加权结果相加并进行归一化处理,得到各词语子序列的指纹信息;按照各词语子序列的顺序对各词语子序列的指纹信息进行排序,得到所述指纹信息序列。4.根据权利要求1所述的方法,其特征在于,所述采用第二滑动窗口在所述指纹信息序列中确定多个指纹信息子序列,并根据各指纹信息子序列的指纹信息确定各指纹信息子序列的指纹特征,包括:采用所述第二滑动窗口遍历所述指纹信息序列,在所述指纹信息序列中确定多个指纹信息子序列;在各所述指纹信息子序列中将哈希值最大的指纹信息作为所述指纹信息子序列的指纹特征。5.根据权利要求1所述的方法,其特征在于,所述对各指纹信息子序列的指纹特征分别进行分段处理,得到各指纹信息子序列的指纹特征的多个指纹分段特征,根据所述指纹分段特征以及预设的指纹数据库,确定所述待匹配文本的匹配结果,包括:对各指纹信息子序列的指纹特征分别进行分段处理,得到各指纹信息子序列的指纹特征的多个指纹分段特征,并对各所述指纹分段特征添加对应的分段标识;
根据所述分段标识和所述指纹分段特征在所述指纹数据库中查找,确定所述指纹信息子序列对应的相似度匹配结果;根据各指纹信息子序列对应的匹配结果,确定所述待匹配文本的相似度匹配结果。6.根据权利要求5所述的方法,其特征在于,所述根据所述分段标识和所述指纹分段特征在所述指纹数据库中查找,确定所述指纹信息子序列对应的相似度匹配结果,包括:根据所述分段标识在所述指纹数据库中查找所述分段标识对应的多个待匹配指纹分段特征;确定所述指纹分段特征和各所述待匹配指纹分段特征的哈希值,并根据所述哈希值确定所述指纹分段特征的匹配结果;根据指纹信息子序列对应的各指纹分段特征的匹配结果,确定所述指纹信息子序列对应的相似度匹配结果。7.根据权利要求1-6任一项所述的方法,其特征在于,所述对待匹配文本进行分词,得到所述待匹配文本的词语序列,包括:采用分词工具对所述待匹配文本进行分词,得到所述待匹配文本的初始词语序列;根据预设的停用词文件,从所述初始词语序列中删除停用词,得到所述待匹配文本的词语序列。8.一种文本语义相似度匹配装置,其特征在于,包括:分词模块,用于对待匹配文本进行分词,得到所述待匹配文本的词语序列;第一确定模块,用于采用第一滑动窗口在所述词语序列中确定多个词语子序列,并确定各所述词语子序列中各词语的词向量和权重,各词语子序列中包括多个词语;第二确定模块,用于根据各所述词语子序列中词语的词向量和权重确定各所述词语子序列的指纹信息,并按照各所述词语子序列的顺序将各所述词语子序列的指纹信息组成指纹信息序列;第三确定模块,用于采用第二滑动窗口在所述指纹信息序列中确定多个指纹信息子序列,并根据各指纹信息子序列的指纹信息确定各指纹信息子序列的指纹特征,其中,各指纹信息子序列中包括多个指纹信息,所述第二滑动窗口的长度等于所述第一滑动窗口的长度;匹配模块,用于对各指纹信息子序列的指纹特征分别进行分段处理,得到各指纹信息子序列的指纹特征的多个指纹分段特征,根据所述指纹分段特征以及预设的指纹数据库,确定所述待匹配文本的匹配结果。9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求1至7任一所述的文本语义相似度匹配方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的文本语义相似度匹配方法的步骤。
技术总结
本申请提供了一种文本语义相似度匹配方法、装置、设备及存储介质,其中,该方法包括:对待匹配文本分词得到词语序列后,采用第一滑动窗口对词语序列生成多个指纹信息,再采用第二滑动窗口对指纹信息序列生成多个指纹特征,再将指纹特征分段,并根据得到的指纹分段特征以及预设的指纹数据库,确定待匹配文本的匹配结果。通过第一滑动窗口先生成指纹信息,再通过第二滑动窗口对指纹信息序列生成指纹特征,可以减少匹配时的指纹数量,从而降低文本匹配的复杂度,并且,本申请的指纹特征可以更全面的表征文本的整体含义,因此能够提高文本语义相似度匹配的准确性。似度匹配的准确性。似度匹配的准确性。
技术研发人员:唐孝军 范贵川 徐思航 赵鑫
受保护的技术使用者:中孚安全技术有限公司
技术研发日:2022.12.28
技术公布日:2023/3/27