本发明属于自然语言处理及模式识别
技术领域:
,尤其涉及一种具有时间适应性的分类方法及装置。
背景技术:
:随着互联网的快速发展,网络交易日渐普及,随之而来的是网络上的商品评论数量越来越多,形成海量的评论文本信息。这些海量的文本信息一般带有明显的情感色彩,具有很高的价值,对其进行情感分析及研究,能够对企业、政府、个人等进行决策提供有效的帮助。情感分类是情感分析中一项重要的研究任务,其主要是根据作者/评论者所表达的观点和态度实现对文本进行分类。然而,由于语言具有动态发展的特性,其在不同时间段表达情感的方式往往是有所不同的,以商品的评论文本为例,在最新的评论文本中,一些旧词的使用会越来越少,甚至可能会逐渐消失,与此同时,可能会出现一些新的表达情感的词汇,因此,不同时间段的评论文本在词分布方面的差距往往较大,此种情况会导致情感分类的时间适应性较差,即在利用以前已标注好的文本作为训练样本所得到的分类器对现阶段所产生的文本进行情感分类时,其分类的准确率会降低。基于这一考虑,目前的大部分情感分类研究几乎都假设训练集和测试集均来自同一时间段,但此种方式由于需对现阶段样本进行诸如专家标注等标注任务,无疑会大大地增加现阶段样本标注的工作量,基于此,如何在确保较高准确率的前提下,充分利用以前已有的已标注样本来对现阶段的待测试文本进行情感分类,使得情感分类具有较高的时间适应性成为本领域的研究热点。技术实现要素:有鉴于此,本发明的目的在于提供一种具有时间适应性的分类方法及装置,旨在解决现有的情感分类方式存在的问题,使得情感分类具有较高的时间适应性。为此,本发明公开如下技术方案:一种具有时间适应性的分类方法,包括:将已标注的历史样本集作为训练样本,训练得到基础分类器;利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。上述方法,优选的,所述将已标注的历史样本集作为训练样本,训练得到基础分类器,包括:将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述第一属性集及所述第二属性集的交集为空,合集为所述历史样本集;基于所述第一属性集训练得到第一基础分类器;基于所述第二属性集训练得到第二基础分类器。上述方法,优选的,所述利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本,包括:利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。上述方法,优选的,将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,包括:将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;将所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。上述方法,优选的,还包括:基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。一种具有时间适应性的分类装置,包括:基础分类器训练模块,用于将已标注的历史样本集作为训练样本,训练得到基础分类器;标签标注模块,用于利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本;迭代模块,用于将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签;目标分类器训练模块,用于基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。上述装置,优选的,所述基础分类器训练模块包括:划分单元,用于将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述两个属性集的交集为空,合集为所述历史样本集;第一训练单元,用于基于所述第一属性集训练得到第一基础分类器;第二训练单元,用于基于所述第二属性集训练得到第二基础分类器。8、根据权利要求7所述的装置,其特征在于,所述标签标注模块包括:第一标注单元,用于利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;第二标注单元,用于利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。上述装置,优选的,所述迭代模块包括:第一添加单元,用于将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;第二添加单元,用于所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;迭代单元,用于将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。上述装置,优选的,还包括:准确性验证模块,用于基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。由以上方案可知,本申请公开的具有时间适应性的分类方法,通过将已标注的历史样本集作为训练样本训练得到基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集中的样本进行标注,在此基础上,结合利用所述历史样本集以及现阶段已标注的样本,来训练得到一目标分类器,从而后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本发明实施例一提供的具有时间适应性的分类方法的流程图;图2是本发明实施例二提供的具有时间适应性的分类方法的流程图;图3-图4是本发明实施例三提供的具有时间适应性的分类装置的结构示意图。具体实施方式为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:半监督学习:Semi-SupervisedLearning,SSL:是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类,半监督回归,半监督聚类和半监督降维算法。一元模型(Unigram):一元词特征,例如“秦羊奶粉怎么认真假”分词成:‘秦’、‘羊’、‘奶粉’、‘怎么’、‘认’、‘真假’。机器学习分类方法:ClassificationMethodsBasedonMachineLearning:用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别标签。根据学习算法的不同,常见的分类方法有朴素贝叶斯、最大熵分类方法、支持向量机等分类方法,本发明采用最大熵分类方法。时间适应性:timeadaptation,是指在考察现阶段所产生的文本情感极性时,并没有已标注好的现阶段文本,此时利用以前已标注好的同领域文本作为训练样本,预测现在的文本情感。情感分类:sentimentclassification,是指文本的情感极性,就是将提供的文本分类到正确的情感类别中,一般来说,分类类别包括正面评价和负面评价。数据抽取:DataExtraction,指的是在原本杂乱的数据中,获得分布在各个类别,不同的时间段的数据,比如本发明所需要的数据是相隔时间较长的数据,因此可选择2002年以前的数据和2012年以后的数据作为实验数据。这就需要通过程序过滤不需要的数据,选择这些有用的数据存到本地电脑中。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例一本申请实施例一公开一种具有时间适应性的分类方法,该方法适用于但不限于对文本数据进行情感极性分类,参考图1示出的分类方法流程图,该方法可以包括以下步骤:S101:将已标注的历史样本集作为训练样本,训练得到基础分类器。本实施例以情感分类为例对本申请方法进行阐述,具体地,本实施例提出一种基于协同训练的时间适应性情感分类方案。其中,协同训练(Co-training)是一种比较常用的半监督学习方法,它最初由是Blum在20世纪90年代提出的。他们假定对于给定的标注样本集存在两个充分冗余的视图,即符合下列条件的两个属性集:每一个属性集都能够很好地描述该问题,也就是说如果训练集比较充足,在每个属性集上都能够训练出一个强分类器;两个属性集彼此之间条件独立。基本思路为:在两个视图上基于已标注样本构建两个分类器,然后利用两个分类器分别对未标注样本进行分类实现类别标注,且从各自分类所得的已标注样本中选取一些置信度高的添加到各自对应的已标注样本集中,将更新后的两个已标注样本集作为训练集,重新训练两个分类器,迭代这一过程直至满足条件时结束。本发明的基于协同训练的时间适应性情感分类方法的基本构思是:抽取一定数目的主题在不同时间段的评论文本,包括历史时段内的已标注文本及现阶段的未标注文本,然后基于历史时段的所述已标注文本及现阶段的所述未标注文本采用协同训练方式,训练具有时间适应性的情感分类器,后续采用该情感分类器对现阶段的待测样本进行分类。本发明所需要的样本数据是相隔时间较长的数据,基于此,本发明选择2002年以前的文本数据和2012年以后的文本数据作为本实施例的示例数据,本实施例具体通过数据抽取程序抽取亚马逊商品评论中四个主题:electronic、kitchen、movies、video的正负类评论,每个主题选择2002年以前(已标注的历史样本)的和2012年以后产生的评论(现阶段的未标注样本),且每个主题在每个时段抽取正负各2000条评论,即相当于每个主题抽取8000条评论,四个主题共32000条。所抽取的四个主题的评论文本的示例具体可参考以下的表1。表1其中,针对每个主题进行数据分割,具体将2002年之前的每个主题的已标注文本作为最初的训练样本,2012年以后的每个主题中的3200条评论文本作为即将用来进行协同训练的未标注样本,而2012年以后每个主题中剩余的800条样本作为现阶段的待测样本,以实现对最终训练得出的目标分类器的准确性进行验证。在以上描述的基础上,本步骤S101具体基于协同训练的思想,将抽取的2002年之前的已标注文本即历史样本集作为初始的训练样本,并将该训练样本划分为两个属性集:第一属性集及第二属性集,一般来说,在进行样本划分时可尽量使得第一属性集和第一属性集拥有数目相当的样本,且所述第一属性集及第二属性集的交集为空,合集为所述历史样本集。之后,在每个属性集上各自训练分类器,从而基于初始的训练样本得到两个基础分类器:第一基础分类器和第二基础分类器。S102:利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本。接下来,利用基础分类器对现阶段的即将用来进行协同训练的未标注样本集中的部分样本进行分类以实现类别标注。具体地,利用所述第一基础分类器对2012年以后每个主题的3200条样本中的部分样本进行情感分类,得到参与分类的部分样本的情感极性置信度数值(包括正向极性的概率、负向极性的概率),并将置信度较高的极性作为样本的类别标签,从而实现对该部分样本的标注。与此同时,利用第二基础分类器对2012年以后每个主题的3200条样本中剩余未标注样本中的部分样本进行情感分类,得到参与分类的部分样本的情感极性置信度,从而实现对该部分样本的分类,进而实现了对该部分样本进行类别标签的标注。本发明采用TF(TermFrequency,词频)向量表示法表示文本,即文本向量的分量为相应的单词在该文本中出现的频度,文本的向量作为机器学习分类方法实现的分类器的输入。本实施例中,TF向量的获取具体基于文本的一元词特征(一元模型),以上四个主题的文本的一元模型示例请参考以下的表2。表2主题特征举例(Unigram)electronic‘This’、‘case’、‘is’、‘junk’kitchen‘Well’、‘made’、‘tough’、‘and’、‘strong’movie‘Would’、‘have’、‘been’、‘5’、‘star’、‘but’、‘read’、‘book’video‘If’、‘you're’、‘into’、‘retro’、‘gaming’在此基础上,本实施例的分类器采用最大熵分类方法实现样文本的分类,最大熵分类方法基于最大熵信息理论,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事实,但是让未知的因素最随机化。相对于朴素贝叶斯方法,该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。在最大熵模型下,预测条件概率P(c|D)的公式如下:P(ci|D)=1Z(D)exp(Σkλk,cFk,c(D,ci))]]>其中,Z(D)是归一化因子。Fk,c是特征函数,定义为:Fk,c(D,c′)=1,nk(d)>0andc′=c0,otherwise]]>λk,c表示模型中各个特征函数Fk,c的参数向量,来控制特征函数在整个公式中的权重,Z是以观测序列D(数据中所有不同词的集合,词典)为条件概率的归一化因子,其意义是将复杂的联合分布分解为多个因子的乘积,实质是得到归一化因子Z(D)均衡给定D任意特征c的条件概率分布P(ci|D)数值,最大熵模型学习过程就是估计出这两种有关c,D的参数。nk(d)表示特征词典D中的词d在一条评论中出现的次数。c’表示当前预测的词c的上下文词。比如,一条评论:我喜欢这个商品。则预测“喜欢”这个词的概率,“我”、“这个”、“商品”就是“喜欢”的上下文。S103:将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定值的样本作为新的训练样本,并迭代执行所述训练、所述分类及所述训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签。对于采用第一基础分类器进行分类实现类别标签标注的部分现阶段样本,从中选择出置信度较高的一部分样本,例如从中筛选出置信度较高(可通过设定最低置信度阈值筛选)的P个正向极性样本以及置信度较高的N个负向极性样本,并将筛选出的样本添加至第二属性集中构成新的训练样本,所述P、N为自然数。同样地,对于采用第二基础分类器进行分类实现类别标签标注的部分现阶段样本,从中选择出置信度较高的一部分样本,例如从中筛选出置信度较高的P个正向极性样本以及置信度较高的N个负向极性样本,并将筛选出的样本添加至第二属性集中构成新的训练样本。之后,在两个相互独立的属性集对应的新的训练样本上分别继续训练分类器,并利用训练得出的两个新的分类器继续按上述过程对现阶段的剩余的未标注样本进行分类标注,后续,在参与协同训练的现阶段样本未标注完毕的前提下,继续迭代执行以上的训练分类器以及利用训练的当前分类器对未标注样本进行标注的过程,直至现阶段需参与协同训练的未标注样本全部标注完毕为止。S104:基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。在对现阶段需参与协同训练的未标注样本全部标注完毕的基础上,即对上述每个主题在2012年以后的3200个样本全部标注完毕的基础上,本步骤将已标注的历史样本集及现阶段的完成标注样本集共同作为训练样本来协同训练目标分类器,针对本实施例提供的四个主题的示例,则具体将抽取的2002年之前的已标注样本以及2012以后每个主题的3200条已完成标注的样本共同作为训练样本,来协同训练一具有时间适应性的目标分类器。从而在此基础上,可利用该目标分类器对现阶段的待测样本进行分类,例如,具体可利用该目标分类器对每个主题在2012年以后所预留的800条样本进行分类。由于目标分类器构建时充分考虑了现阶段样本的样本特征,从而在利用该目标分类器对现阶段样本进行分类时,具有较高的分类准确率。由以上方案可知,本申请公开的具有时间适应性的分类方法,通过将已标注的历史样本集作为训练样本训练得到基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集中的样本进行标注,在此基础上,结合利用所述历史样本集以及现阶段已标注的样本,来训练得到一目标分类器,从而后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。实施例二本实施例二中,参考图2示出的具有时间适应性的分类方法流程图,该方法还可以包括以下步骤:S105:基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。本实施例具体对实施例一中基于协同训练得到的目标分类器进行准确性验证,在本申请提供的四个主题数据的示例中,具体将2012年之后每个主题中预留的800条评论文本作为待测样本,并利用基于协同训练得到的目标分类器对该待测样本进行分类。在分类的基础上,将分类所得的类别标签与每个主题中预留的所述800条评论文本的实际类别进行比较(相同则分类准确,不同则分类错误),以此得出所述目标分类器的准确率,实现对该目标分类器的准确性进行验证。本实施例同时采用2002年之前的四个主题的已标注样本训练一分类器,并利用该分类器对所述待测样本(2012年之后的每个主题中预留的800条文本)进行分类,并基于待测样本的分类类别、实际类别的比较情况获得该分类器的分类准确率。参考以下的表3,表3示出了基于历史已标注样本训练的分类器(未利用未标注样本协同训练)的准确率以及本申请的采用未标注样本协同训练的分类器的分类准确率的对比数据。表3类别未利用未标注样本ME利用未标注样本Co-trainingelectronic0.7910.866kitchen0.8150.861movie0.8020.898video0.7800.835由表3可知,在仅利用已标注的历史样本而未利用未标注样本进行协同训练的情况下,四个主题的分类准确率均较低;而本申请结合利用已标注的历史样本及现阶段未标注样本基于协同训练得到的分类器,在四组实验中,每一组的分类准确率均有很大提升,从而表明本发明方案的分类性能相比于现有技术有了显著提高。实施例三本实施例三公开一种具有时间适应性的分类装置,该装置与以上实施例公开的具有时间适应性的分类方法相对应。相应于实施例一的方法,参考图3示出的分类装置的结构示意图,该装置可以包括基础分类器训练模块100、标签标注模块200、迭代模块300和目标分类器训练模块400。基础分类器训练模块100,用于将已标注的历史样本集作为训练样本,训练得到基础分类器。所述基础分类器训练模块100包括划分单元、第一训练单元和第二训练单元。划分单元,用于将所述历史样本集划分为两个属性集:第一属性集及第二属性集;其中,所述两个属性集的交集为空,合集为所述历史样本集;第一训练单元,用于基于所述第一属性集训练得到第一基础分类器;第二训练单元,用于基于所述第二属性集训练得到第二基础分类器。标签标注模块200,用于利用所述基础分类器对现阶段的预定未标注样本集中的部分样本进行分类,得到具有类别标签的部分样本。所述标签标注模块200包括第一标注单元和第二标注单元。第一标注单元,用于利用所述第一基础分类器对所述部分样本中的第一部分样本进行分类,得到具有类别标签的第一部分样本;第二标注单元,用于利用所述第二基础分类器对所述部分样本中的第二部分样本进行分类,得到具有类别标签的第二部分样本。迭代模块300,用于将所述已标注的历史样本集及具有类别标签的所述部分样本中置信度高于预定阈值的样本作为新的训练样本,并迭代执行所述训练、所述分类训练样本的更新过程,直至所述未标注样本集中的各个样本均具有相应的类别标签。所述迭代模块300包括第一添加单元、第二添加单元和迭代单元。第一添加单元,用于将所述具有类别标签的第一部分样本中置信度高于预定阈值的样本添加至所述第一属性集,得到新的第一属性集;第二添加单元,用于所述具有类别标签的第二部分样本中置信度高于预定阈值的样本添加至所述第二属性集,得到新的第二属性集;迭代单元,用于将所述第一属性集及所述第二属性集作为新的训练样本,并迭代执行所述训练、所述分类及训练样本的更新过程。目标分类器训练模块400,用于基于所述已标注的历史样本集及所述未标注样本集标注后对应的具有类别标签的所有样本,训练得到目标分类器,以使得基于所述目标分类器对待测样本进行分类。相应于实施例二,参考图4示出的分类装置的结构示意图,所述装置还可以包括准确性验证模块500,用于基于所述待测样本的分类类别及实际类别,验证所述目标分类器的分类准确性。对于本发明实施例三公开的具有时间适应性的分类装置能量评估系统而言,由于其与实施例一至实施例二公开的具有时间适应性的分类方法相对应,所以描述的比较简单,相关相似之处请参见实施例一至实施例二中具有时间适应性的分类方法部分的说明即可,此处不再详述。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域:
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3