文本相似度计算方法、装置、设备及存储介质与流程

文档序号:26393014发布日期:2021-08-24 16:02阅读:101来源:国知局
文本相似度计算方法、装置、设备及存储介质与流程

本申请涉及自言语言处理技术领域,尤其涉及一种文本相似度计算方法、装置、设备及存储介质。



背景技术:

文本相似技术在搜索、推荐、faq等领域中有着广泛的应用。发明人发现,目前现有的深度学习文本相似度技术基本都是根据全局信息计算相似度,常见的文本相似度计算方法是对整个文本进行向量化,每种向量代表一种语义特征,每个文本最终由这多个向量组合成一个完整的向量来进行计算相似度,然而,单纯的将每个词向量合并容易导致向量维度太大,计算复杂,且内存大、速度慢,另外简单地将各向量相加作为最终向量还容易抹平各向量的差异性,导致特征信息丢失。因而,通过根据全局信息来计算文本相似度时,无法针对文本特殊的某种特征维度或者重要的局部信息进行文本相似度的计算,大大地降低了文本相似性计算的准确度。



技术实现要素:

有鉴于此,本申请实施例提供了一种文本相似度计算方法、装置、设备及存储介质,可以从多个维度综合考虑文本的全局信息和某些重要的局部信息,以提升文本之间相似度计算的准确率。

本申请实施例的第一方面提供了一种文本相似度计算方法,包括:

对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多个词特征,各词特征均表示为含有若干个相似度计算维度的向量;

引入注意力机制,对第一文本的文本特征中所包含的词特征进行加权处理,获得所述第一文本加权后的文本特征,以及对第二文本的文本特征中所包含的词特征进行加权处理,获得所述第二文本加权后的文本特征;

根据所述第一文本加权后的文本特征和所述第二文本加权后的文本特征,计算出所述第一文本与所述第二文本之间的文本相似度。

结合第一方面,在第一方面的第一种可能实现方式中,所述对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征的步骤,包括:

对文本进行分词及停用词过滤处理,以提取到所述文本中所有具有实质意义的词语,其中,所述文本为第一文本或第二文本;

使用预设的维度学习模型对目标词语分别进行维度学习,获得所述目标词语对应学习到的一个或多个相似度计算维度,其中,所述目标词语为提取到的所述文本中所有具有实质意义的词语中的任意一个词语;

将所述目标词语对应学习到的每一个相似度计算维度分别映射为词特征中的特征项,以构建获得表征所述目标词语的词特征;

将所有所述具有实质意义的词语各自对应的词特征进行组合形成词特征集合,以将所述词特征集合作为所述文本的文本特征。

结合第一方面,在第一方面的第二种可能实现方式中,所述根据所述第一文本加权后的文本特征和所述第二文本加权后的文本特征,计算出所述第一文本与所述第二文本之间的文本相似度的步骤,包括:

根据所述第一文本加权后的文本特征中所包含的词特征以及所述第二文本加权后的文本特征中所包含的词特征,构建用于计算所述第一文本与所述第二文本之间文本相似度的向量空间模型;

基于所述向量空间模型,将所述第一文本表示为第一词频向量以及将所述第二文本表示为第二词频向量;

根据所述第一词频向量和所述第一文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第一文本的第一特征向量,根据所述第二词频向量和所述第二文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第二文本的第二特征向量;

按照余弦相似度算法,计算出所述第一特征向量和所述第二特征向量之间夹角的余弦值作为所述第一文本与所述第二文本之间的文本相似度。

结合第一方面,在第一方面的第三种可能实现方式中,所述引入注意力机制,对第一文本的文本特征进行词特征加权处理,获得所述第一文本加权后的文本特征,以及对第二文本的文本特征进行词特征加权处理,获得所述第二文本加权后的文本特征的步骤中,加权后的文本特征由以下关系式获得:

其中,source表示为文本;keyi表示为文本中的第i个词特征,且词特征表征为包含有若干个相似度维度的向量;x表示为文本中词特征的数量;valuei表示为文本中的第i个词特征对应的特征值,similarity(query,keyi)表示为文本中第i个词特征的权重。query表示为维度学习模型自学习获得的包含有若干相似度计算维度的向量。

结合第一方面和第一方面的第一至三种可能实现方式中的任意一种,在第一方面的第四种可能实现方式中,所述对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征的步骤之前,还包括:

通过初始化学习构建用于获取文本特征的维度学习模型,其中,所述初始化学习包括随机初始化学习和先验知识初始化学习中的任意一种。

本申请实施例的第二方面提供了一种文本相似度计算装置,所述文本相似度计算装置包括:

文本特征获取模块,用于对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多个词特征,各词特征均表示为含有若干个相似度计算维度的向量;

文本特征加权模块,用于引入注意力机制,对第一文本的文本特征中所包含的词特征进行加权处理,获得所述第一文本加权后的文本特征,以及对第二文本的文本特征中所包含的词特征进行加权处理,获得所述第二文本加权后的文本特征;

文本相似度计算模块,用于根据所述第一文本加权后的文本特征和所述第二文本加权后的文本特征,计算出所述第一文本与所述第二文本之间的文本相似度。

结合第二方面,在第二方面的第一种可能实现方式中,所述文本相似度计算装置还包括:

词语提取子模块,用于对文本进行分词及停用词过滤处理,以提取到所述文本中所有具有实质意义的词语,其中,所述文本为第一文本或第二文本;

维度学习子模块,用于使用预设的维度学习模型对目标词语分别进行维度学习,获得所述目标词语对应学习到的一个或多个相似度计算维度,其中,所述目标词语为提取到的所述文本中所有具有实质意义的词语中的任意一个词语;

词特征构建子模块,用于将所述目标词语对应学习到的每一个相似度计算维度分别映射为词特征中的特征项,以构建获得表征所述目标词语的词特征;

文本特征获取子模块,用于将所有所述具有实质意义的词语各自对应的词特征进行组合形成词特征集合,以将所述词特征集合获取为所述文本的文本特征。

结合第二方面,在第二方面的第二种可能实现方式中,所述文本相似度计算装置还包括:

向量空间模型构建子模块,用于根据所述第一文本加权后的文本特征中所包含的词特征以及所述第二文本加权后的文本特征中所包含的词特征,构建用于计算所述第一文本与所述第二文本之间文本相似度的向量空间模型;

词频向量获取子模块,用于基于所述向量空间模型,将所述第一文本表示为第一词频向量以及将所述第二文本表示为第二词频向量;

文本特征加权子模块,用于根据所述第一词频向量和所述第一文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第一文本的第一特征向量,根据所述第二词频向量和所述第二文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第二文本的第二特征向量;

文本相似度计算子模块,用于按照余弦相似度算法,计算出所述第一特征向量和所述第二特征向量之间夹角的余弦值作为所述第一文本与所述第二文本之间的文本相似度。

本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的文本相似度计算方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本相似度计算方法的各步骤。

本申请实施例提供的一种文本相似度计算方法、装置、电子设备及存储介质,具有以下有益效果:

本申请所述方法通过预先训练一个维度学习模型对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取第一文本的文本特征和第二文本的文本特征。且每个文本获得的文本特征中包含有多个词特征,各个词特征均表示为含有若干个相似度计算维度的向量,该若干个相似度计算维度通过维度学习模型学习获得。然后,分别对第一文本的文本特征中的各词特征和第二文本的文本特征中的各词特征,基于各词特征所含有的若干个相似度维度,通过引入注意力机制进行词特征加权处理,使得各词特征均具有各自对应的权重值,从而获得第一文本加权后的文本特征以及第二文本加权后的文本特征。最后,根据第一文本加权后的文本特征和第二文本加权后的文本特征来计算出第一文本与第二文本之间的文本相似度。由于基于各词特征所含有的若干个相似度维度来对词特征进行加权,可以突出各词特征的差异性,减少信息丢失。且结合词特征的多个相似度计算维度来计算文本相似度,综合考虑了文本的全局信息以及局部重点信息,相似度计算的准确率高。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请第一实施例提供的一种文本相似度计算方法的实现流程图;

图2为本申请实施例提供的文本相似度计算方法中获取通过维度学习获取文本特征时的一种方法流程图;

图3为本申请实施例提供的文本相似度计算方法中计算第一文本与第二文本之间文本相似度的一种方法流程示意图;

图4为本申请实施例提供的一种文本相似度计算装置的基本结构框图;

图5为本申请实施例提供的文本相似度计算装置中的另一结构框图;

图6为本申请实施例提供的文本相似度计算装置中的又一结构框图;

图7为本申请实施例提供的一种电子设备的基本结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

请参阅图1,图1为本申请第一实施例提供的一种文本相似度计算方法的实现流程图。详述如下:

步骤s11:对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多个词特征,各词特征均表示为含有若干个相似度计算维度的向量。

本实施例中,预先训练一个维度学习模型,该维度学习模型用于获取文本的文本特征。在本实施例中,使用该维度学习模型对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取第一文本的文本特征和第二文本的文本特征。其中,两个文本各自对应的文本特征中都各自包含有多个词特征,各词特征均表示为包含有若干个相似度计算维度的向量。

在本申请的一些实施例中,示例性的,请参阅图2,图2为本申请实施例提供的文本相似度计算方法中获取通过维度学习获取文本特征时的一种方法流程图。详细如下:

步骤s21:对文本进行分词及停用词过滤处理,以提取到所述文本中所有具有实质意义的词语,其中,所述文本为第一文本或第二文本;

步骤s22:使用预设的维度学习模型对目标词语分别进行维度学习,获得所述目标词语对应学习到的一个或多个相似度计算维度,其中,所述目标词语为提取到的所述文本中所有具有实质意义的词语中的任意一个词语;

步骤s23:将所述目标词语对应学习到的每一个相似度计算维度分别映射为词特征中的特征项,以构建获得表征所述目标词语的词特征;

步骤s24:通过将所有所述具有实质意义的词语各自对应的词特征进行组合形成词特征集合,将所述词特征集合确定为所述文本的文本特征。

在本实施例中,可以先对文本进行分词处理和停用词过滤处理,提取到文本中所有具有实质意义的词语,其中,该文本为第一文本或第二文本。对于从文本中提取到的每一个具有实质意义的词语,使用预先训练好的维度学习模型进行维度学习,每一个词语可以对应学习到多个相似度计算维度。然后以每一个词语分别作为目标词语,即目标词语为提取到的所述文本中所有具有实质意义的词语中的任意一个词语,将目标词语对应学习到的每一个相似度计算维度分别映射为词特征中的一个特征项,从而构建获得该目标词语对应的词特征,由此每个词特征均表示为含有若干个相似度计算维度的向量。最后,将文本中所有具有实质意义的词语都作为目标词语构建获得各自对应的词特征后,通过将这些词特征进行组合形成词特征集合,该词特征集合即为该文本的文本特征。需要说明的是,用于表示各词特征的向量的维度数量相同,由维度学习模型确定,但是各词语在维度学习模型中学习到的相似度计算维度的数量随机的、各词语之间可以不相同,且小于等于该维度学习模型确定的维度数量。当词语学习到的相似度计算维度的数量小于该维度学习模型确定的维度数量时,则通过填充的方式(比如都填充为0)使其维度数量与该维度学习模型确定的维度数量相同。

示例性的,假设维度学习模型预定义了100个特征维度,若文本(第一文本或第二文本)中有10个具有实质意义的词语,此时维度学习模型可以通过维度学习将该文本中的10个具有实质意义的词语都表示为100维的词特征,即10个100维的词特征。可以理解的是,每个具有实质意义的词语各自在维度学习过程获得的相似度计算维度是随机的,可以不完全相同,且获得的相似度计算维度的数量也是随机的、可以不完全相同。例如,第一词语在维度学习过程获得了17个相似度计算维度,则第二词语在维度学习过程获得的相似度计算维度可以是1-100个中的任意数量个,其中,该第二词语在维度学习过程获得的相似度计算维度可以是与第一词语完全相同的17个相似度计算维度,也可以是与第一词语不完全相同或完全不同的17个相似度计算维度,还可以是既包含有与第一词语相同的相似度计算维度也包含有其他相似度计算维度的1-100个相似度计算维度中的任意数量个相似度计算维度。在本实施例中,各词语均表示为100维的向量,例如第一词语,除了该学习到的17个维度外,其余的83个维度则通过无意义填充(比如都填充为0)的方式补入,由此获得用于表示该词语的100维的词特征。例如第二个词语在维度学习过程获得的相似度维度为58个,那么该词语仍然是表示为100维的向量,除了该学习到的58个维度外,其余的42个维度则通过无意义填充(比如都填充为0)的方式补入,由此获得用于表示该词语的100维的词特征。由于维度学习模型基于词语进行自学习来获得各词语对应的相似度计算维度,所以各个词语学习获得的维度可以时完全相同、不完全相同或者完全不同,维度数量也是可以相同、可以不同。

步骤s12:引入注意力机制,对第一文本的文本特征中所包含的词特征进行加权处理,获得所述第一文本加权后的文本特征,以及对第二文本的文本特征中所包含的词特征进行加权处理,获得所述第二文本加权后的文本特征。

本实施例中,基于维度学习模型获得的第一文本的文本特征以及第二文本的文本特征均包含有多个词特征,表示为词特征集合。在本实施例中,对于第一文本,通过引入注意力(attention)机制,将第一文本的文本特征中的各个词特征进行加权处理。在该注意力(attention)机制中,第一文本的文本特征中的各个词特征都各自对应地获得一个用于计算文本相似度的权重值。第一文本的文本特征中,各个词特征按照各自对应的权重值进行加权,从而获得第一文本加权后的文本特征。对于第二文本同理,通过引入注意力(attention)机制,获得第二文本加权后的文本特征。

示例性的,在本实施例提供的attention机制中,attention机制计算过程具体为:将文本(source)中的构成元素表示为由一系列的key-value数据对组成,然后通过给定的某个需求元素query,可以计算出query和各个key之间的相关度,该计算得到各个key的相关度即为各个key对应value的权重值,通过对各个key对应的value进行加权,即可获得文本的attention,按照词特征突出文本的局部重点信息。

在本申请的一些实施例中,示例性的,由于用于进行attention机制计算的文本(第一文本或第二文本)的文本特征中所包含的各词特征均表示为含有若干个相似度维度的向量。基于attention机制,对文本中的各词特征加权处理过程可以由以下关系式获得:

其中,source表示为文本;keyi表示为source文本中第i个词特征,且词特征表征为包含有若干个相似度维度的向量;x表示为source文本中词特征的数量;valuei表示为source文本中的第i个词特征对应的特征值,similarity(query,keyi)表示为source文本中第i个词特征的权重。query表示为维度学习模型自学习获得的包含有若干相似度计算维度的向量。

在本实施例中,对于第一文本或第二文本,通过将文本中的每个词特征都与维度学习模型自学习获得的query计算一遍相关度,该计算获得的词特征与query之间的相关度即为在文本中为该词特征配置得到的权重值,以此实现对文本中的各个词特征进行加权处理。具体地,各词特征与query之间的相关度可以采用余弦相似度计算获得。在本实施例中,根据上述关系式,通过将第一文本的文本特征中所包含的各词特征分别对应地乘以各自的权重值,即可获得第一文本加权后的文本特征;通过将第二文本的文本特征中所包含的各词特征分别对应地乘以各自的权重值,即可获得第二文本加权后的文本特征。

步骤s13:根据所述第一文本加权后的文本特征和所述第二文本加权后的文本特征,计算出所述第一文本与所述第二文本之间的文本相似度。

在本实施例中,加权后的文本特征同样采用词特征集合表示,其中,第一文本加权后的文本特征,其词特征集合中包含有加权前的所有词特征以及通过attention机制为各词特征配置得到的权重值,词特征与其权重值一一对应关联。第二文本加权后的文本特征同理,其词特征集合中包含有加权前的所有词特征以及通过attention机制为各词特征配置得到的权重值,词特征与其权重值一一对应关联。获得第一文本加权后的文本特征以及第二文本加权后的文本特征后,可以根据该第一文本加权后的文本特征以及第二文本加权后的文本特征,按照余弦相似度算法计算获得第一文本与第二文本之间的文本相似度。

在本申请的一些实施例中,请一并参阅图3,图3为本申请实施例提供的文本相似度计算方法中计算第一文本与第二文本之间文本相似度的一种方法流程示意图。详细如下:

步骤s31:根据所述第一文本加权后的文本特征中所包含的词特征以及所述第二文本加权后的文本特征中所包含的词特征,构建用于计算所述第一文本与所述第二文本之间文本相似度的向量空间模型;

步骤s32:基于所述向量空间模型,将所述第一文本表示为第一词频向量以及将所述第二文本表示为第二词频向量;

步骤s33:根据所述第一词频向量和所述第一文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第一文本的第一特征向量,根据所述第二词频向量和所述第二文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第二文本的第二特征向量;

步骤s34:按照余弦相似度算法,计算出所述第一特征向量和所述第二特征向量之间夹角的余弦值作为所述第一文本与所述第二文本之间的文本相似度。

本实施例中,通过将第一文本的文本特征中包含的所有词特征和第二文本的文本特征中包含的所有词特征进行取并集整合,获得既包含有第一文本的文本特征中所有词特征又包含有第二文本的文本特征中所有词特征的词特征集合,且该整合获得的词特征集合中所包含的词特征互异,即词特征集合中无重复的词特征。进而,通过将该并集整合获得的词特征集合中的每一个词特征分别一一对应地配置为向量空间模型中的特征项,以此生成用于执行文本相似度计算的向量空间模型。获得向量空间模型后,基于该向量空间模型遍历第一文本,可以统计出该向量空间模型中的各个特征项对应的词特征在该第一文本中出现的次数,将该统计获得的各词特征出现的次数对应作为向量空间模型中的各个特征项的特征值,由此获得第一词频向量。第一词频向量的结构与向量空间模型的结构一致。同理,基于该向量空间模型遍历第二文本,可以统计出该向量空间模型中的各个特征项对应的词特征在该第二文本中出现的次数,将统计获得的各词特征出现的次数对应作为向量空间模型中的各个特征项的特征值,由此获得第二词频向量。第一文本加权后的文本特征中还包含有第一文本各词特征各自对应的权重值。根据该第一文本的文本特征中各词特征各自对应的权重值,基于词特征,可以将第一词频向量中各特征项的特征值乘以对应的权重值,以此生成用于表征第一文本的第一特征向量。需要说明的是,在该第一词频向量中,其特征值为0的特征项所对应的词特征为在第一文本中未出现过的词特征,该特征项的权重值为0。同理,根据第二文本的文本特征中各词特征各自对应的权重值,基于词特征,可以将第二词频向量中各特征项的特征值乘以对应的权重值,以此生成用于表征第二文本的第二特征向量。获得第一特征向量和第二特征向量后,按照按照余弦相似度算法,计算出该第一特征向量与该第二特征向量之间的余弦值,该计算获得的余弦值即为第一文本与第二文本之间的文本相似度值。其中,余弦值越大,表示第一文本与第二文本之间的相似度越高。

示例性的,举例说明,假设第一文本为“平安福的等待期是多久”,第二文本为“平安福有多长时间的等待期”。通过维度学习模型可以获得第一文本的词特征为{平安福、的、等待期、是、多、久},通过维度学习模型可以获得第二文本的词特征为{平安福、有、多、长、时间、的、等待期}。通过将两个文本对应的文本特征进行并集整合,生成用于计算该两文本之间文本相似度的向量空间模型表示为{平安福、的、等待期、是、多、久、有、长、时间}。其中,每个词特征可以表示为含有若干个相似度维度的向量。进而,通过统计每个词特征分别在该两个文本中出现的次数,可以得到该两个文本各自对应的词频向量,以此将该两个文本表示为词频向量,例如,针对第一文本,可对应获得的第一词频向量表示为{1,1,1,1,1,1,0,0,0},针对第二文本,可对应获得的第二词频向量表示为{1,1,1,0,1,0,1,1,1}。在本实施例中,基于attention计算后可获得各个词特征在文本中的权重值,假设第一文本获得各词特征的权重值为{平安福“x1”、的“x2”、等待期“x3”、是“x4”、多“x5”、久“x6”},则将第一文本的文本特征中的所有词特征进行加权,获得第一文本加权后的文本特征,表示为第一特征向量:{1*x1,1*x2,1*x3,1*x4,1*x5,1*x6,0,0,0}。假设第二文本获得各词特征的权重值为{平安福“y1”、有“y2”、多“y3”、长“y4”、时间“y5”、的“y6”、等待期“y7”},则将第二文本的文本特征中的所有词特征进行加权,获得第二文本加权后的文本特征,表示为第二特征向量:{1*y1,1*y6,1*y7,0,1*y3,0,1*y2,1*y4,1*y5}。此时根据第一特征向量和第二特征向量,按照余弦相似度算法,可以计算出两个特征向量之间夹角的余弦值,从而获得第一文本与第二文本之间的文本相似度。其中,余弦值越大,则第一文本与第二文本之间的相似度越高。余弦值cosθ的具体计算过程如下:

以上可以看出,本申请实施例提供的文本相似度计算方法通过预先训练一个维度学习模型对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取第一文本的文本特征和第二文本的文本特征。且每个文本获得的文本特征中包含有多个词特征,各个词特征均表示为含有若干个相似度计算维度的向量,该若干个相似度计算维度通过维度学习模型学习获得。然后,分别对第一文本的文本特征中的各词特征和第二文本的文本特征中的各词特征,基于各词特征所含有的若干个相似度维度,通过引入注意力机制进行词特征加权处理,使得各词特征均具有各自对应的权重值,从而获得第一文本加权后的文本特征以及第二文本加权后的文本特征。最后,根据第一文本加权后的文本特征和第二文本加权后的文本特征来计算出第一文本与第二文本之间的文本相似度。由于基于各词特征所含有的若干个相似度维度来对词特征进行加权,可以突出各词特征的差异性,减少信息丢失。且结合词特征的多个相似度计算维度来计算文本相似度,综合考虑了文本的全局信息以及局部重点信息,相似度计算的准确率高。

本申请的一些实施例中,在对第一文本和第二文本进行维度学习之前,需要预先训练一个用于获取文本特征的维度学习模型。在本实施例中,可以通过随机初始化学习或先验知识初始化学习中的任意一种初始化学习方式进行网络模型训练,从而构建的得到用于获取文本特征的维度学习模型。具体通过初始化学习训练,使得维度学习模型自学习获得若干个相似度计算维度,且学习获得每个相似度计算维度分别表征的含义,例如词性维度、句子成分维度等,如词性维度包括实体词、关键名词、疑问词等等,又如句子成分维度包括主语成分、谓语成分、宾语成分、状语成分等等。在本实施例中,采用随机初始化方式时,维度学习模型可以根据训练样本统计学习出每个维度所表征的含义。采用随机初始化训练获得的维度学习模型,其学习结果随着样本的变化而变化,比较灵活。而采用先验知识初始化时,需要预先对一些训练样本进行分析,抽取出可用于相似度计算的若干个维度{view1,view2,……,viewn},进而,从大量的训练样本中统计出能够表征维度的词{words-1,words-2,……,words-n},最后通过使用sum函数对维度进行初始化,模型训练速度相对较快。举例说明,例如通过函数sum(embedding(words-i))对维度i进行初始化,假设预先抽出的维度有实体词、关键名词、疑问词等,通过sum函数对训练样本“平安福的等待期是多久?”进行初始化,可以获得表征实体词维度的词为“平安福”;表征关键名词维度的词为“等待期”;表征疑问词的词为“多久”。

可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

本申请的一些实施例中,请参阅图4,图4为本申请实施例提供的一种文本相似度计算装置的基本结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图4所示,文本相似度计算装置包括:文本特征获取模块41、文本特征加权模块42以及文本相似度计算模块43。其中:所述文本特征获取模块41用于对需要进行相似度计算的第一文本和第二文本分别进行维度学习,获取所述第一文本的文本特征和所述第二文本的文本特征,其中,文本特征中包含有多个词特征,各词特征均表示为含有若干个相似度计算维度的向量。所述文本特征加权模块42用于引入注意力机制,对第一文本的文本特征中所包含的词特征进行加权处理,获得所述第一文本加权后的文本特征,以及对第二文本的文本特征中所包含的词特征进行加权处理,获得所述第二文本加权后的文本特征。所述文本相似度计算模块43用于根据所述第一文本加权后的文本特征和所述第二文本加权后的文本特征,计算出所述第一文本与所述第二文本之间的文本相似度。

请参阅图5,图5为本申请实施例提供的文本相似度计算装置中的另一结构框图。如图5所示,文本相似度计算装置包括:词语提取子模块51、维度学习子模块52、词特征构建子模块53以及文本特征获取子模块54。其中:所述词语提取子模块51用于对文本进行分词及停用词过滤处理,以提取到所述文本中所有具有实质意义的词语,其中,所述文本为第一文本或第二文本.所述维度学习子模块52用于使用预设的维度学习模型对目标词语分别进行维度学习,获得所述目标词语对应学习到的一个或多个相似度计算维度,其中,所述目标词语为提取到的所述文本中所有具有实质意义的词语中的任意一个词语。所述词特征构建子模块53用于将所述目标词语对应学习到的每一个相似度计算维度分别映射为词特征中的特征项,以构建获得表征所述目标词语的词特征。所述文本特征获取子模块54用于将所有所述具有实质意义的词语各自对应的词特征进行组合形成词特征集合,以将所述词特征集合获取为所述文本的文本特征。

请参阅图6,图6为本申请实施例提供的文本相似度计算装置中的又一结构框图。如图6所示,文本相似度计算装置包括:向量空间模型构建子模块61、词频向量获取子模块62、文本特征加权子模块63以及文本相似度计算子模块64。其中:所述向量空间模型构建子模块61用于根据所述第一文本加权后的文本特征中所包含的词特征以及所述第二文本加权后的文本特征中所包含的词特征,构建用于计算所述第一文本与所述第二文本之间文本相似度的向量空间模型。所述词频向量获取子模块62用于基于所述向量空间模型,将所述第一文本表示为第一词频向量以及将所述第二文本表示为第二词频向量。所述文本特征加权子模块63用于根据所述第一词频向量和所述第一文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第一文本的第一特征向量,根据所述第二词频向量和所述第二文本加权后的文本特征中各词特征对应的权重值生成用于表征所述第二文本的第二特征向量。所述文本相似度计算子模块64用于按照余弦相似度算法,计算出所述第一特征向量和所述第二特征向量之间夹角的余弦值作为所述第一文本与所述第二文本之间的文本相似度。

应当理解的是,上述文本相似度计算装置,与上述的文本相似度计算方法一一对应,此处不再赘述。

本申请的一些实施例中,请参阅图7,图7为本申请实施例提供的一种电子设备的基本结构框图。如图7所示,该实施例的电子设备7包括:处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73,例如文本相似度计算方法的程序。处理器71执行所述计算机程序73时实现上述各个文本相似度计算方法各实施例中的步骤。或者,所述处理器71执行所述计算机程序73时实现上述文本相似度计算装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。

示例性的,所述计算机程序73可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器72中,并由所述处理器71执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序73在所述电子设备7中的执行过程。例如,所述计算机程序73可以被分割成获取模块、处理模块和执行模块,各模块具体功能如上所述。

所述转台设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器72可以是所述电子设备7的内部存储单元,例如电子设备7的硬盘或内存。所述存储器72也可以是所述电子设备7的外部存储设备,例如所述电子设备7上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器72还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。在本实施例中,所述计算机可读存储介质可以是非易失性,也可以是易失性。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1