专利名称:分类器的构建方法及装置、中文文本情感分类方法及系统的制作方法
技术领域:
本发明涉及自然语言处理及模式识别技术领域,尤其涉及一种分类器的构建方法及装置、中文文本情感分类方法及系统。
背景技术:
随着Web2.0的蓬勃发展,互联网上产生了大量大众对于人物、事件、产品的等带有感情色彩的评论信息,用户通过浏览这些评论信息可以了解大众舆论对于某一事件或产品的看法,由于评论信息的信息量较大,用户如果单纯地依靠人工去收集和整理,会浪费大量的时间和精力,因此,迫切需要利用计算机帮助用户快速获取和整理这些评论信息,文本情感分析技术应运而生。所谓文本情感分析,就是利用计算机帮助用户快速获取、整理和分析评论信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,文本情感分类是文本情感分析的一项基本内容,其按不同的粒度可分为句子级、篇章级等,对于句子级和篇章级,文本情感分类是指将文本分为正面文本和负面文本,例如,“我很喜欢这个产品”,通过文本情感分类,这句话将被分类为正面文本,而“这本书是在太差了”将被分类为负面文本。目前,常用的文本情感分类方法是基于监督方法的,该方法用领域被标记的数据训练特定领域的分类,这种方法虽然取得了较好的分类效果,但由于其需要大量人工标注语料库,因此,构建分类器的时间较长,而且,如果换一个领域就必须重新标注语料,即领域依赖性较大。
发明内容
有鉴于此,本发明提供了一种分类器的构建方法及装置、中文文本情感分类方法及系统,用以解决现有的分类方法构建分类器的时间较长且应用领域依赖性较大的问题。其技术方案如下一种分类器的构建方法,包括获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本;查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面;转变所述待标注样本中符合情感极性转变规则的情感词的情感极性;统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量;根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本;依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集;
利用所述标注样本集中的标注样本构建最大熵分类器。优选地,转变所述待标注样本中符合情感极性转变规则的情感词的情感极性包括如果待标注样本中的情感词所在的句子中出现了否定关键词,则转变该情感词的情感极性;如果待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词,则转变该情感词的情感极性;和/或,如果待标注样本中的情感词所在的句子出现了能愿关键词,则转变该情感词的情感极性。优选地,所述根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性包括如果情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值,则确定所述待标注样本的情感极性为正面;如果情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值,则确定所述待标注样本的情感极性为负面。优选地,根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本包括利用所述标注样本构建最大熵分类器;利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类,得到分类结果;根据所述分类结果确定每个待标注样本的情感极性,得到标注样本集。一种中文文本情感分类方法,包括上述的分类器的构建方法,还包括利用构建的最大熵分类器对待分类的中文文本进行分类。—种分类器的构建装置,包括获取单元、查找单元、极性转变单元、统计单元、确定单元、自学习单元和分类器构建单元;所述获取单元,用于获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本;所述查找单元,用于查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面;所述极性转变单元,用于转变所述待标注样本中符合情感极性转变规则的情感词的情感极性; 所述统计单元,用于统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量;所述确定单元,用于根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本;所述自学习单元,用于依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集;所述分类器构建单元,用于利用所述标注样本集中的标注样本构建最大熵分类器。
优选地,所述极性转变单元包括第一极性转变子单元、第二极性转变子单元和/或第三极性转变子单元;所述第一极性转变子单元,用于当待标注样本中的情感词所在的句子中出现了否定关键词时,转变该情感词的情感极性;所述第二极性转变子单元,用于当待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词时,转变该情感词的情感极性;所述第三极性转变子单元,用于当待标注样本中的情感词所在的句子出现了能愿关键词时,转变该情感词的情感极性。优选地,所述确定单元包括第一确定子单元和第二确定子单元;所述第一确定子单元,用于当情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值时,确定所述待标注样本的情感极性为正面;所述第二确定子单元,用于当情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值时,确定所述待标注样本的情感极性为负面。优选地,所述自学习单元包括分类器构建子单元、分类子单元和第三确定子单元;所述分类器构建子单元,用于利用所述标注样本构建最大熵分类器;所述分类子单元,用于利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类,得到分类结果;第三确定子单元,用于根据所述分类结果确定每个待标注样本的情感极性。—种中文文本情感分类系统,包括上述的分类器的构建装置,还包括分类单元;所述分类单元,用于利用所述分类器的构建装置构建的最大熵分类器对待分类的中文文本进行分类。本发明提供的分类器的构建方法及装置、中文文本情感分类方法及系统,应用情感极性转变规则对情感器的情感极性进行极性转变,并且依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注,将根据标注样本集的标注样本构建的最大熵分类器作为中文文本情感分类的分类器。本发明提供的分类器的构建方法及装置、中文文本情感分类方法及系统,避免了人工标注训练样本浪费的人耗代价,缩短了用于中文文本情感分类的分类器的构建时间,同时,提高了中文文本情感分类的正确率。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例提供的分类器的构建方法的流程示意图;图2为本发明实施例提供的中文文本情感分类系统的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明提供了一种分类器的构建方法,图1为该方法的流程图,该方法可以包括SlOl :获取待标注样本集并从所述标注样本集中获取一个待标注样本,其中,待标注样本集包括至少两个待标注样本。S102 :查找待标注样本中的情感词,并获取每个情感词的情感极性,其中,情感词的情感极性包括正面和负面。S103 :转变待标注样本中符合情感极性转变规则的情感词的情感极性。 S104 :统计待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量。S105 :根据情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定待标注样本的情感极性,得到标注样本。S106 :依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注,得到标注样本集,该标注样本集中包括了所有的标注样本。S107 :利用标注样本集中的标注样本构建最大熵分类器。在本发明的另一实施例中,步骤S102可以包括对照预置的情感词与情感极性的对应表,在待标注样本中查找情感词,并根据对应表获取与情感词对应的情感极性。表I给出了一情感词与情感极性的对应表需要说明的是,本实施例并不限定于表I所列举的情感词,还可有其它情感词。表I
权利要求
1.一种分类器的构建方法,其特征在于,包括 获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本; 查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面; 转变所述待标注样本中符合情感极性转变规则的情感词的情感极性; 统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量; 根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本; 依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集; 利用所述标注样本集中的标注样本构建最大熵分类器。
2.根据权利要求1所述的方法,其特征在于,转变所述待标注样本中符合情感极性转变规则的情感词的情感极性包括 如果待标注样本中的情感词所在的句子中出现了否定关键词,则转变该情感词的情感极性; 如果待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词,则转变该情感词的情感极性; 和/或,如果待标注样本中的情感词所在的句子出现了能愿关键词,则转变该情感词的情感极性。
3.根据权利要求1所述的方法,其特征在于,所述根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性包括 如果情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值,则确定所述待标注样本的情感极性为正面; 如果情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值,则确定所述待标注样本的情感极性为负面。
4.根据权利要求1所述的方法,其特征在于,依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集包括 利用所述标注样本构建最大熵分类器; 利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类,得到分类结果; 根据所述分类结果确定每个待标注样本的情感极性,得到标注样本集。
5.一种中文文本情感分类方法,其特征在于,包括如权利要求1-4中任意一项所述的分类器的构建方法,还包括 利用构建的最大熵分类器对待分类的中文文本进行分类。
6.一种分类器的构建装置,其特征在于,包括获取单元、查找单元、极性转变单元、统计单元、确定单元、自学习单元和分类器构建单元; 所述获取单元,用于获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本; 所述查找单元,用于查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面; 所述极性转变单元,用于转变所述待标注样本中符合情感极性转变规则的情感词的情感极性; 所述统计单元,用于统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量; 所述确定单元,用于根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本; 所述自学习单元,用于依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集; 所述分类器构建单元,用于利用所述标注样本集中的标注样本构建最大熵分类器。
7.根据权利要求6所述的装置,其特征在于,所述极性转变单元包括第一极性转变子单元、第二极性转变子单元和/或第三极性转变子单元; 所述第一极性转变子单元,用于当待标注样本中的情感词所在的句子中出现了否定关键词时,转变该情感词的情感极性; 所述第二极性转变子单元,用于当待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词时,转变该情感词的情感极性; 所述第三极性转变子单元,用于当待标注样本中的情感词所在的句子出现了能愿关键词时,转变该情感词的情感极性。
8.根据权利要求6所述的装置,其特征在于,所述确定单元包括第一确定子单元和第二确定子单元; 所述第一确定子单元,用于当情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值时,确定所述待标注样本的情感极性为正面; 所述第二确定子单元,用于当情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值时,确定所述待标注样本的情感极性为负面。
9.根据权利要求6所述的装置,其特征在于,所述自学习单元包括分类器构建子单元、分类子单元和第三确定子单元; 所述分类器构建子单元,用于利用所述标注样本构建最大熵分类器; 所述分类子单元,用于利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类,得到分类结果; 第三确定子单元,用于根据所述分类结果确定每个待标注样本的情感极性。
10.一种中文文本情感分类系统,其特征在于,包括如权利要求6-9中任意一项所述的分类器的构建装置,还包括分类单元; 所述分类单元,用于利用所述分类器的构建装置构建的最大熵分类器对待分类的中文文本进行分类。
全文摘要
本申请提供了一种分类器的构建方法及装置、中文文本情感分类方法及系统,分类方法包括从待标注样本集中获取一个待标注样本,查找待标注样本中的情感词并获取每个情感词的情感极性,转变待标注样本中符合情感极性转变规则的情感词的情感极性;统计待标注样本中情感极性为正面和负面的情感词的数量;根据情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定待标注样本的情感极性,得到标注样本;利用标注样本对待标注样本集中其它待标注样本进行标注,得到标注样本集;利用标注样本集中构建最大熵分类器,利用最大熵分类器对待分类的中文文本进行分类。本申请提供的方法、装置及系统缩短了中文文本的分类时间,提高了分类准确率。
文档编号G06F17/28GK103020249SQ20121055644
公开日2013年4月3日 申请日期2012年12月19日 优先权日2012年12月19日
发明者李寿山, 张小倩, 周国栋 申请人:苏州大学