本发明涉及分类技术领域,更具体地说,涉及一种文本分类方法及装置。
背景技术:
文本分类是文本分析领域最常见的需求点之一,比如,文本内容分类,文本情感分析等。文本分析的主要难点在于对原始文本的语义表达,尤其是对于篇章力度的长文本,由于篇幅较长,中间表达的语义情况多种多样,想要完整的捕获原文的类别信息,必须建立在对原文有充分的特征表达基础之上。
而现有的文本分类方法中,主要依赖于人工提取特征进行传统的机器学习分类算法。而人工提取特征主观性强,而且不能表达文本丰富的语义情况,分类结果的精确度较低。
技术实现要素:
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置。
借由上述技术方案,第一方面,本发明提供了一种文本分类方法,包括:
对待分类文本进行切词,得到切词序列;
通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
上述方法,优选的,所述基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵,包括:
若句子包含的切词数为预设值b,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值b,则取该句子的前b个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值b,则确定该句子相对于所述预设值b缺少的切词数d,将该句子包含的切词对应的向量以及d个预置向量构成该句子对应的二维矩阵。
上述方法,优选的,所述词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
上述方法,优选的,预先使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
上述方法,优选的,所述文本分类模型的训练过程包括:
对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;
通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;
将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
上述方法,优选的,所述基于注意力机制的多层神经网络模型包括:基于注意力机制的两层神经网络模型。
上述方法,优选的,所述将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别,包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测待分类文本的类别。
第二方面,本发明还提供了一种文本分类装置,包括:
切词模块,用于对待分类文本进行切词,得到切词序列;
映射模块,用于通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
第一转化模块,用于基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
第二转化模块,用于基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
分类模块,用于将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
第三方面,本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如第一方面任意一项所述的文本分类方法。
第四方面,本发明还提供了一种处理器,所述处理器用于运行程序,所述程序运行时执行如第一方面任意一项所述的文本分类方法。
本发明提供的文本分类方法、装置、存储介质及处理器,不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,分类结果更加精准。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请提供的文本分类模型训练过程的一种实现流程图;
图2示出了本申请提供的文本分类方法的一种实现流程图;
图3示出了本申请提供的文本分类装置的一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,图1为本申请实施例提供的文本分类模型训练过程的一种实现流程图,可以包括:
步骤s11:使用第一语料库中的第一类文本进行词向量训练,得到词向量模型。
第一语料库可以为行业语料库,或者,通用语料库。其中,行业语料库是指某一特定行业或领域内的文本库,例如,汽车门户网站上的评论。通用语料库是指脱离行业个性化的文本库,例如,百度百科等。
可以使用开源工具软件,例如,哈工大语言技术平台(languagetechnologyplatform,ltp),对第一语料库中每条文本句子进行切词,并使用词向量训练工具word2vec或者glove进行词向量训练,生成词向量模型,该词向量模型用于将词映射到一定维度的空间内,即将词映射为一定维度的向量。例如,将切词映射为100维的向量,100维的向量是指该向量包括100个元素。
第一语料库中会存在出现频率低于预置频率的切词,对于这类切词,词向量模型将这些切词映射为指定向量,所有出现频率低于预置频率的切词均映射为该指定向量。这样就减少了词向量模型存储的向量的数量,从而降低了存储词向量所占用的存储空间,而且,对后续的文本分类模型的训练影响很小,几乎不会产生影响。
对于第一语料库中出现频率高于上述预置频率的切词,词向量模型将不同的切词映射为不同的向量。
步骤s12:对第二语料库中的各个第二类文本进行切词,得到第二类文本对应的切词序列;第二类文本带有类别标记。
第二语料库中的文本带有类别标记,以情感分析为例,类别标记可以为:正面情感词标记,中性情感词标记,负面情感词标记。
可以使用开源工具软件,如哈工大ltp,或者,jieba分词,对文本句子进行切词,得到相应切词序列。
本申请实施例中,步骤s11与步骤s12的执行顺序不做具体限定,可以先执行步骤s11,再执行步骤s12;或者,先执行步骤s12,再执行步骤s11;或者,步骤s11与步骤s12同时执行。
步骤s13:通过前述训练得到的词向量模型将切词序列中的各个切词映射为一定维度的向量。
若切词不在上述词向量模型中,则将该切词映射为上述指定向量。
步骤s14:基于切词对应的向量,将第二类文本中的各个句子转化成相同结构的二维矩阵。
每个句子都由切词构成,因此,可以将句子转化成a*b的二维矩阵,其中,a表示切词对应的向量的维度值,b为预先设定的句子长度。其中,预先设定的句子长度b可以在步骤s14之前,根据如下方式确定:
对于第二语料库中的所有文本(即第二类文本),统计文本里每句话的长度分布情况,若第二语料库中存在超长的离群长度句子,例如句子中包含的切词数量大于阈值t1,则取覆盖绝大部分长度句子的长度作为句子长度b,如果第二语料库中不存在超长的离群长度句子,则取最长句子的长度作为句子长度b。句子的长度可以用句子中包含的切词数度量。
下面举例说明句子长度b的确定过程。假设第二语料库中有100句话,每一句话的长度可以不等。那么,如果每句话包含的切词数都在20个以内,则取20为句子长度b,即b的取值为20;如果其中一个句子包含的切词数为500,另一个句子包含的切词数为300,其它句子包含的切词数都在60以内,若阈值t1为100,则取60为句子长度b,即b的取值为60;如果其中一个句子包含的切词数为500,有两个句子包含的切词数为300,还有一个句子包含90个切词,其它句子包含的切词数都在60以内,若阈值t1为100,则取90为句子长度b,即b的取值为90。
在一可选的实施例中,将句子转化成二维矩阵的过程可以包括:
若句子包含的切词数为预设值b,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值b,则取该句子的前b个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值b,则确定该句子相对于所述预设值b缺少的切词数d,将该句子包含的切词对应的向量以及d个预置向量构成该句子对应的二维矩阵。其中,预置向量的维度和上述切词的向量的维度相同。预置向量为实数向量,比如,预置向量可以为a维的全0向量。例如,假设预设值b的取值为15,而句子包含的切词数为10,则该句子相对于预设值b缺少的切词数5,则将上述10个切词对应的10个向量,以及5个预置向量构成a*15的二维矩阵。
步骤s15:基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵。
与将句子转化成二维矩阵类似,每个第二类文本都由句子构成,因此,可以基于二维矩阵将文本转化成a*b*c的三维矩阵,其中,a表示切词对应的向量的维度值,b为预先设定的句子长度,c为预先设定的文本长度。其中,预先设定的句子长度b的设置方式参见前述内容,这里不再赘述。下面说明预先设定的文本长度c的确定方式:
对于第二语料库中的所有文本(即第二类文本),统计各个文本中包含的句子个数的分布情况,若第二语料库中存在超长的离群长度的文本,例如文本中包含的句子的数量大于阈值t2,则取覆盖绝大部分长度文本的长度作为文本长度c,如果第二语料库中不存在超长的离群长度文本,则取最长文本的长度作为文本长度c。文本长度可以用文本中包含的句子个数度量。
下面举例说明文本长度c的确定过程。假设第二语料库中有20个文本,每个文本的长度可以不等。那么,如果每个文本包含的句子数都在10个以内,则取10为文本长度c,即c的取值为10;如果其中一个文本包含的句子数为400,另一个文本包含的句子数为300,其它文本包含的句子数都在8以内,若阈值t2为100,则取8为句子长度c,即c的取值为8;如果其中一个文本包含的句子数为300,有两个文本包含的句子数为200,还有一个文本包含20个句子,其它文本包含的句子数都在10以内,若阈值t2为100,则取20为文本长度c,即c的取值为20。
步骤s16:将三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
本申请实施例中,基于注意力机制的多层神经网络模型可以是基于注意力机制的两层神经网络模型。两层神经网络模型可以相同,也可以不同。
在一可选的实施例中,基于注意力机制的两层神经网络模型可以是:基于注意力机制的两层深度神经网络模型。上述深度神经网络模型可以是卷积神经网络(convolutionalneuralnetworks,cnn)模型,也可以是循环神经网络(recurrentneuralnetworks,rnn)模型,例如,长短期记忆(longshort-termmemory,lstm)网络模型。
在一可选的实施例中,文本分类模型的训练过程可以为:
通过第一层次的神经网络对三维矩阵进行解析,获得句子层级的向量;第一层次的神经网络可以是卷积神经网络,或者,可以是循环神经网络;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;该文本的表达表征文本中句子之间的序列关系,句子之间的序列关系就是句子在文本中的排列顺序。第二层次的神经网络可以是长短期记忆网络。
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于携带权重的文本的表达对各个第二类文本进行类别预测;预测过程可以选用常用的预测方法,这里不再赘述。
若预测结果满足迭代停止条件,则停止训练,若预测结果不满足迭代停止条件,则更新所有向量中的参数,向量的参数包括向量中的元素的值,获得新的三维矩阵,将新的三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行下一轮迭代。
可以将预测结果与真实的类别标记进行比较,判断预测结果的准确率,若准确率大于预设预置,则认为预测结果满足迭代停止条件。其中,预测结果的准确率可以是指所有有标记文本中,预测结果正确的文本数占总文本数的比率。
在一可选的实施例中,可以基于随机梯度下降法对向量中的参数进行更新。
本申请实施例训练得到的文本分类模型,结合不同的语料库进行训练得到,既包含了大量的外部词向量信息,又用到了序列结构语义信息,结合了注意力机制,分类效果更加精准。
在训练得到文本分类模型后,就可以基于该文本分类模型预测待分类文本的类别了。在使用上述文本分类模型预测待分类文本的类别时,对于每一个待分类文本,需要先将该待分类文本特征化为三维矩阵,然后将该三维矩阵作为上述文本分类模型的输入预测该待分类文本的类别。
本申请实施例提供的文本分类方法的一种实现流程图如图2所示,可以包括:
步骤s21:对待分类文本进行切词,得到切词序列;
可以使用开源工具软件,如哈工大ltp,或者,jieba分词,对待分类文本中的句子进行切词,得到相应切词序列。
步骤s22:通过前述训练得到的词向量模型将切词序列中的各个切词映射为一定维度的向量;
步骤s23:基于切词对应的向量,将待分类文本中的各个句子转化成相同结构的二维矩阵;
在一可选的实施例中,可以通过如下方式将待分类文本中的各个句子转化成相同结构的二维矩阵:
若句子包含的切词数为预设值b,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值b,则取该句子的前b个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值b,则确定该句子相对于所述预设值b缺少的切词数d,将该句子包含的切词对应的向量以及d个预置向量构成该句子对应的二维矩阵。
本实施例中,二维矩阵为a*b的二维矩阵,其中,a表示切词对应的向量的维度值。
步骤s24:基于每个句子对应的二维矩阵,将待分类文本转化成三维矩阵。
在一可选的实施例中,可以通过如下方式将待分类文本转化成三维矩阵:
若待分类文本包含的句子数为预设值c,则由该文本包含的句子对应的二维矩阵构成该带分类文本对应的三维矩阵;
若待分类文本包含的句子数大于所述预设值c,则取该文本的前c个句子对应的二维矩阵构成该文本对应的三维矩阵;
若待分类文本包含的句子数小于所述预设值b,则确定该文本相对于所述预设值c缺少的句子数e,将该文本包含的句子对应的向量以及e个预置二维矩阵构成该文本对应的三维矩阵。其中,预置二维矩阵的结构与句子对应的二维矩阵的结构相同,都是a*b的二维矩阵。
本申请实施例中,三维矩阵为a*b*c的三维矩阵,其中,a表示切词对应的向量的维度值,b为预先设定的句子长度。
步骤s25:将三维矩阵作为输入传递给预先训练好的文本分类模型,得到待分类文本的类别。
本申请实施例提供的文本分类方法,既不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。而且,词向量模型和文本分类模型选用不同的语料库进行训练,使得文本分类模型包含了大量的外部词向量信息,使语义表达更加丰富,进一步提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,使文本分类结果更加精准。
在一可选的实施例中,词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。也就是说,若待分类文本中的某个词是第一语料库中出现频率低于预置频率的词,则,将该词映射为指定的向量,若待分类文本中的某个词未在一语料库中出现,即词向量模型中没有该词与向量的映射关系,则该词也映射为上述指定向量。
在一可选的实施例中,基于注意力机制的多层神经网络模型可以为:基于注意力机制的两层神经网络模型。
在一可选的实施例中,将三维矩阵作为输入传递给预先训练好的文本分类模型,得到待分类文本的类别的过程可以包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测所述待分类文本的类别。
与方法实施例,本申请实施例还提供一种文本分类装置。本申请实施例提供的文本分类装置的一种结构示意图如图3所示,可以包括:
切词模块31,用于对待分类文本进行切词,得到切词序列;
映射模块32,用于通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
第一转化模块33,用于基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
第二转化模块34,用于基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
分类模块35,用于将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
本申请实施例提供的文本分类装置,既不需要人工提取特征表达,也可以表达文本丰富的语义,提高了文本分类精度。而且,词向量模型和文本分类模型选用不同的语料库进行训练,使得文本分类模型包含了大量的外部词向量信息,使语义表达更加丰富,进一步提高了文本分类精度。另外,基于注意力机制的文本分类模型能选择性地强化文本中的关键信息,弱化不必要信息,分类结果更加精准。
在一可选的实施例中,第一转化模块33具体可以用于,
若句子包含的切词数为预设值b,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值b,则取该句子的前b个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值b,则确定该句子相对于所述预设值b缺少的切词数d,将该句子包含的切词对应的向量以及d个预置向量构成该句子对应的二维矩阵。
在一可选的实施例中,词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
在一可选的实施例中,文本分类装置还可以包括:
第一训练模块,用于使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
在一可选的实施例中,文本分类装置还可以包括:
第二训练模块,用于对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
第二训练模块在将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型时,具体用于,通过第一层次的神经网络对三维矩阵进行解析,获得句子层级的向量;通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;基于携带权重的文本的表达对各个第二类文本进行类别预测。若预测结果满足迭代停止条件,则停止训练,若预测结果不满足迭代停止条件,则更新所有向量中的参数,获得新的三维矩阵,将新的三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行下一轮迭代。
在一可选的实施例中,分类模块35具体用于,通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;基于所述携带权重的文本的表达预测待分类文本的类别。
所述文本分类装置包括处理器和存储器,上述切词模块、映射模块、第一转化模块、第二转化模块和分类模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高文本分类精度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本分类方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本分类方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:(方法权项步骤,独权+从权)。本文中的设备可以是服务器、pc、pad、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对待分类文本进行切词,得到切词序列;
通过预先训练好的词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将所述待分类文本转化成三维矩阵;
将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别;
其中,所述文本分类模型通过对第二语料库进行切词,将切词通过所述述词向量模型转换为向量,根据转换得到的向量将第二语料库中的各个第二类文本转换为相同结构的三维矩阵,将三维矩阵作为基于注意力机制的多层神经网络模型的输入进行训练得到。
其中,所述基于切词对应的向量,将所述待分类文本中的各个句子转化成相同结构的二维矩阵,包括:
若句子包含的切词数为预设值b,则由该句子包含的切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数大于所述预设值b,则取该句子的前b个切词对应的向量构成该句子对应的二维矩阵;
若句子包含的切词数小于所述预设值b,则确定该句子相对于所述预设值b缺少的切词数d,将该句子包含的切词对应的向量以及d个预置向量构成该句子对应的二维矩阵。
其中,所述词向量模型将所述待分类文本中所有出现频率低于预置频率的词映射为同一向量。
其中,预先使用第一语料库中的第一类文本进行词向量训练,得到所述词向量模型。
其中,所述文本分类模型的训练过程包括:
对第二语料库中的各个第二类文本进行切词,得到所述第二类文本对应的切词序列;所述第二类文本带有类别标记;
通过所述词向量模型将所述切词序列中的各个切词映射为一定维度的向量;
基于切词对应的向量,将所述第二类文本中的各个句子转化成相同结构的二维矩阵;
基于每个句子对应的二维矩阵,将各个第二类文本转化成相同结构的三维矩阵;
将所述三维矩阵作为输入传递给基于注意力机制的多层神经网络模型进行训练,得到文本分类模型。
其中,所述基于注意力机制的多层神经网络模型包括:基于注意力机制的两层神经网络模型。
其中,所述将所述三维矩阵作为输入传递给预先训练好的文本分类模型,得到所述待分类文本的类别,包括:
通过第一层次的神经网络对所述三维矩阵进行解析,获得句子层级的向量;
通过第二层次的神经网络分析各个句子层级的向量之间的序列关系,得到文本的表达;
基于注意力机制赋予每个句子层级的向量以不同的权重,获得携带权重的文本的表达;
基于所述携带权重的文本的表达预测待分类文本的类别。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。