一种短文本分类方法及系统与流程

文档序号:15851546发布日期:2018-11-07 10:03阅读:386来源:国知局
一种短文本分类方法及系统与流程

本发明涉及计算机的自然语言处理技术领域,特别是一种短文本分类方法及其应用该方法的系统。

背景技术

短文本分类是浅层自然语言处理领域的一个分支,其处理对象为各种形式的短文本语料。在自然语言处理领域,如何表达一个词语或者句子一直是一个难题。现有技术的文本分类方法例如词嵌入技术(wordembedding)虽然能够使得词语的表达(representation)变得越来越强大,然而,对于句子或者短文本的表达能力却还有待提高。

目前表现的比较好的方法还有word2vec,sentence2vec,tf-idf,lsi等。但是,上述方法要么是忽略了句子中词语的语义信息、位置信息,要么是忽略了相邻词存在的关联关系,使得学习得到的结果丢失了部分语义,从而使得分类结果不准确。



技术实现要素:

本发明为解决上述问题,提供了一种短文本分类方法及系统,其通过对短文本中的词语的词向量和词性向量进行拼接,并将词语与邻接词进行叠加,从而根据邻接词向量对所述短文本进行分类,最终得到准确率较高的短文本分类结果。

为实现上述目的,本发明采用的技术方案为:

一种短文本分类方法,其包括以下步骤:

a.对短文本进行分词处理,得到分词后的词语;

b.对所述词语进行词性标注,得到所述词语的词性向量;并将所述词性向量乘以对应的词性权重值,得到新的词性向量;

c.采用word2vec方法对所述词语进行语义特征的学习,得到所述词语的词向量;并计算所有分词后的词语的tf-idf权重值;将所述词语的词向量乘以对应的tf-idf权重值得到加权词向量;

d.将所述加权词向量与所述的新的词性向量进行拼接,得到加权拼接词向量;

e.将所述词语的加权拼接词向量与邻接词的加权拼接词向量进行叠加处理得到邻接词向量;

f.根据所述词语的邻接词向量对所述短文本进行分类。

优选的,所述的步骤a中,还进一步对所述短文本进行去除噪点和去除停用词。

优选的,所述的步骤b中,分词后的词语的词性特征采用one-hot形式表示;所述词性包括主干名词、其他名词、主干动词、其他词性,对不同词性设置不同的词性权重值,所述词性权重值设置为:主干名词>其他名词>主干动词>其他词性。

优选的,所述的步骤c中,采用word2vec中的skip-gram模型进行学习每个词语的语义特征。

优选的,所述的步骤e中,所述邻接词向量的tf-idf权重值,采用相互叠加的所述词语和所述邻接词中的tf-idf权重值进行比较,取权重最大值作为叠加后的邻接词相邻的tf-idf权重值。

优选的,所述的步骤b中,计算所有分词后的词语的tf-idf权重值,进一步对所述tf-idf权重值进行规范化处理,使得所述词语的权重值之和为1。

优选的,所述的步骤f中对所述短文本进行分类,是通过将所述短文本的各个词语的邻接词向量作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类的短文本的类别。

优选的,所述的步骤f中对所述短文本进行分类,是根据所述短文本的词语的邻接词向量和文档数据集中的候选文档的词语的邻接词向量,进行计算所述短文本的词语与文档数据集中的候选文档的词语的wmd距离和/或rwmd距离,并根据所述wmd距离和/或rwmd距离得到所述短文本与所述候选文档的相似度,根据相似度最高的候选文档的文本类型对所述短文本进行分类。

优选的,所述的步骤f中对所述短文本进行分类,首先根据wcd距离从文档数据集中筛选出与所述短文本最接近的候选文档;然后,根据所述短文本的词语的邻接词向量和所述候选文档的词语的邻接词向量,进行计算所述短文本的词语与所述候选文档的词语的wmd距离和/或rwmd距离,并根据所述wmd距离和/或rwmd距离得到所述短文本与所述候选文档的相似度,根据相似度最高的候选文档的文本类型对所述短文本进行分类。

对应的,本发明还提供一种短文本分类系统,其包括:

文本预处理模块,用于对短文本进行分词处理得到分词后的词语;

词性向量获取模块,用于对所述词语进行词性标注,得到所述词语的词性向量;并将所述词性向量乘以对应的词性权重值,得到新的词性向量;

词向量获取模块,其采用word2vec方法对所述词语进行语义特征的学习,得到所述词语的词向量;并计算所有分词后的词语的tf-idf权重值;将所述词语的词向量乘以对应的tf-idf权重值得到加权词向量;

拼接模块,用于将所述加权词向量与所述的新的词性向量进行拼接,得到加权拼接词向量;

叠加模块,用于将所述词语的加权拼接词向量与邻接词的加权拼接词向量进行叠加处理得到邻接词向量;

分类模块,根据所述词语的邻接词向量对所述短文本进行分类。

本发明的有益效果是:

(1)本发明通过对短文本中的词语的词向量和词性向量进行加权拼接,并将词语与邻接词进行叠加,从而根据所述词语的邻接词向量对所述短文本进行分类,最终得到准确率较高的短文本分类结果;

(2)本发明首先根据wcd距离从文档数据集中筛选出与所述短文本最接近的候选文档;然后,根据邻接词向量进行计算所述短文本与所述候选文档的相似度,根据相似度最高的候选文档的文本类型对所述短文本进行分类,不仅能够提高计算效率,而且能够保证分类的准确度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明一种短文本分类方法的流程简图;

图2为本发明一种短文本分类系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

随着移动互联网时代的到来,微博、评论、微信等短文本数据呈现爆炸式增长,对文本的处理提出了更高的要求。基于此本发明的一种短文本分类方法,,如图1所示,其包括以下步骤:

a.对短文本进行分词处理,得到分词后的词语;

b.对所述词语进行词性标注,得到所述词语的词性向量;并将所述词性向量乘以对应的词性权重值,得到新的词性向量;

c.采用word2vec方法对所述词语进行语义特征的学习,得到所述词语的词向量;并计算所有分词后的词语的tf-idf权重值;将所述词语的词向量乘以对应的tf-idf权重值得到加权词向量;

d.将所述加权词向量与所述的新的词性向量进行拼接,得到加权拼接词向量;

e.将所述词语的加权拼接词向量与邻接词的加权拼接词向量进行叠加处理得到邻接词向量;

f.根据所述词语的邻接词向量对所述短文本进行分类。

所述的步骤a中,还进一步对所述短文本进行去除噪点和去除停用词。预处理工作除了分词处理之外,还包括去除短文本中的噪点,例如标点符号、特殊字符等,以达到去除一定干扰的目的;另外,停用词(stopword)的存在也极大的影响了计算效率,停用词包括了语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的"的"、"在"之类。通过去除噪点和去除停用词,从而能够减少干扰,提高分类精度。

所述的步骤b中,分词后的词语的词性特征采用one-hot形式表示;所述词性包括主干名词、其他名词、主干动词、其他词性,不同词性的词语具有不同的tf-idf权重值;本实施例中,对不同词性设置不同的词性权重值,所述词性权重值设置为:主干名词>其他名词>主干动词>其他词性;不同词语的词性向量乘以不同权重值后添加,与词向量进行拼接。其中,tf-idf权重值是指词频-逆文档频率值,tf-idf实际上就是tf*idf,具体计算公式如下:

tfidfi,j=t,fi,j×idfi;

其中tf(termfrequency),表示词条在文档(document)中出现的频率;idf(inversedocumentfrequency)表示逆文本频率指数,其主要思想就是,如果包含某个词word的文档越少,则这个词的区分度就越大,也就是idf越大,tfidfi,j即tf-idf。词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,tf-idf值越大,则说明这个名词对这篇文档的区分度就越高,权重值越大。本实施例进一步对所有词语的所述tf-idf权重值进行规范化处理,使得所述词语的权重值之和为1。

所述的步骤c中,采用word2vec中的skip-gram模型进行学习每个词语的语义特征。word2vec方法有两种:cbow模型和skip-gram模型,这两种都是训练词向量的方法。cbow模型是统计语言模型的一种,顾名思义就是根据某个词前面的c个词或者前后c个连续的词,来计算某个词出现的概率;skip-gram模型则相反,是根据某个词,然后分别计算它前后出现某几个词的各个概率。根据经验,cbow模型要更快一些,但是skip-gram模型效果要更好些,本实施例优选采用skip-gram模型。

所述的步骤d中,将所述词语的词性向量乘以对应的tf-idf权重值后,与所述词向量进行拼接,得到加权拼接词向量;现有技术通常是采用全局语义向量与局部语义向量进行拼接,维度较高,需要费较多的内存和计算时间,对于爆炸式增长的短文本数据并不适用。因此,本实施例中所述的拼接,是指词性向量与词向量的拼接,主要是对短文本中的局部语义向量的拼接。

所述的步骤e中,所述邻接词向量的tf-idf权重值,采用相互叠加的所述词语和所述邻接词中的tf-idf权重值进行比较,取权重最大值作为叠加后的邻接词相邻的tf-idf权重值。即,所述邻接词向量的权重取两个邻接的词语和邻接词中的最大值。采用叠加后的邻接词向量进行短文本相似度的匹配,能够极大的提高相似度匹配的准确率。举例如下:

待匹配短文本包括:

“优秀的学生有很多朋友”,“学生有很多优秀的朋友”两个句子;

对上述两个句子进行分词后变成:

“优秀的\学生\有\很多\朋友”,“学生\有\很多\优秀的\朋友”;

现有技术的方法只是考虑单个词语的语义,这两个原本差别很大的句子就会被错误的判定为语义相近;

本发明在上述分词处理后,还进一步进行邻接词的叠加处理:

“优秀的学生\学生有\有很多\很多朋友”,“学生有\有很多\很多优秀的\优秀的朋友”;

其中,“优秀的学生”和“优秀的朋友”,其语义明显会有区分了。

此外,词性信息也是区别两个词语义的重要成分,给定合适的权重可以提高词语相似度匹配结果。

所述的步骤f中对所述短文本进行分类,可结合计算得到的邻接词相邻通过多种分类方法来实现。举例如下:

方案一:通过将所述短文本的各个词语的邻接词向量作为已训练的神经网络的输入,根据所述神经网络的输出得到待分类的短文本的类别。

方案二:根据所述短文本的词语的邻接词向量和文档数据集中的候选文档的词语的邻接词向量,进行计算所述短文本的词语与文档数据集中的候选文档的词语的wmd距离和/或rwmd距离,并根据所述wmd距离和/或rwmd距离得到所述短文本与所述候选文档的相似度,根据相似度最高的候选文档的文本类型对所述短文本进行分类。

方案三:首先根据wcd距离从文档数据集中筛选出与所述短文本最接近的候选文档;然后,根据所述短文本的词语的邻接词向量和所述候选文档的词语的邻接词向量,进行计算所述短文本的词语与所述候选文档的词语的wmd距离和/或rwmd距离,并根据所述wmd距离和/或rwmd距离得到所述短文本与所述候选文档的相似度,根据相似度最高的候选文档的文本类型对所述短文本进行分类。

本实施例中优选为采用方案三的分类方法。其中,wmd距离度量算法可以保留两个作比较的句子中词语的位置信息,考虑一个词与另外一个句子所有词语的关联度;rwmd距离度量算法与wmd距离度量算法相比,其计算速度加快很多,而相应的准确率会降一些,本领域技术人员可根据实际需要进行选用合适的算法。

本实施例的步骤f的具体步骤如下:

f1.计算wcd(wordcentroiddistance)

用wcd取离所述短文本最近的m个文档;

由于wcd算法计算速度快,可提高整体的计算效率,使得后续计算过程无需与文档数据集中的所有文档进行匹配。

f2.计算wmd(wordmovingdistance)

计算前k个文档的wmd距离;其中,k小于m。

采用wcd计算wmd的下届。如果当前文档与文档数据集的wmd下界已经大到可以确定它不在query文档的k-nn列表里,那就直接扔掉而不用再花时间求当前文档的wmd距离了。

f3.计算rwmd(relaxedwordmovingdistance)

计算剩下p个文档的rwmd;其中,p=m-k。

如果某个文档的rwmd大于k-nn列表中第k个文档的wmd就扔掉,不然就计算它的wmd。如果发现在k-nn列表中就更新k-nn列表,不然也扔掉。

或者,所述的步骤f2和步骤f3可任选其一。例如,先根据wcd距离计算与所述短文本最接近的m个候选文档,然后再根据所述邻接词向量计算所述短文本与所述m个候选文档的wmd距离或rwmd距离,并返回相似度最高的k个相似文档,最后根据该k个相似文档对所述短文本进行分类。

如图2所示,本发明还提供一种短文本分类系统,其包括:

文本预处理模块,用于对短文本进行分词处理得到分词后的词语;

词性向量获取模块,用于对所述词语进行词性标注,得到所述词语的词性向量;并将所述词性向量乘以对应的词性权重值,得到新的词性向量;

词向量获取模块,其采用word2vec方法对所述词语进行语义特征的学习,得到所述词语的词向量;并计算所有分词后的词语的tf-idf权重值;将所述词语的词向量乘以对应的tf-idf权重值得到加权词向量;

拼接模块,用于将所述加权词向量与所述的新的词性向量进行拼接,得到加权拼接词向量;

叠加模块,用于将所述词语的加权拼接词向量与邻接词的加权拼接词向量进行叠加处理得到邻接词向量;

分类模块,根据所述词语的邻接词向量对所述短文本进行分类。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1