一种应用于评论语料的情感信息压缩方法及系统的制作方法
【专利摘要】本发明提供一种应用于评论语料的情感信息压缩方法及系统。上述方法包括以下步骤。S1、将待用数据分为K份,并取其中1份作为测试样本,其余K-1份作为训练样本。S2、使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。S3、将所有样本根据情感代表性分值从大到小排序,并根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。本发明能够有效的压缩评论语料,并最大程度上保存原语料的情感分类信息,达到了在小存储容量的移动设备上实现情感分类任务的目的。
【专利说明】一种应用于评论语料的情感信息压缩方法及系统
【技术领域】
[0001]本发明涉及自然语言处理【技术领域】及模式识别领域,具体涉及一种应用于评论语料的情感信息压缩方法及系统。
【背景技术】
[0002]随着互联网的迅猛发展,人们越来越习惯于在网络上表达自己的观点,从而使网络上涌现出大量带情感的文本。这些倾向性文本往往以商品评论、论坛评论和博客的形式存在。这些文本往往是关键文本,或者是用户感兴趣的文本。如何从海量文本中提取这一类文本,并对其进行情感倾向性的分析,具有很强的应用价值。例如:用户可以根据商品的评论了解商品的信息,选择合适的品牌;商家根据用户的评论改进商品的品质,争取更大的市场;追踪社会舆论趋势,发现社会热点问题等。情感分析就是针对这些应用问题提出的一个新兴研究课题。
[0003]所谓文本倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析。情感分类(Sentiment Classificat1n)是情感分析中的一个基本任务。该任务旨在将文本按照情感倾向进行褒贬分类。与传统基于主题的文本分类相比,情感分类被认为更具有挑战性。该任务具体是指将文本分为正面文本或者负面文本的任务。例如:“我很喜欢这部电影”,通过情感分类,这句话将被分为正面文本;而“这个电影很差劲”,被分类为负面文本。
[0004]目前,主流的情感分类方法大致可以分为两种。
[0005]第一种分类方法是基于情感词表的非监督学习方法,这种方法主要是基于词计数的方法。利用情感词表去统计样本中正面情感词和负面情感词的数目,如果正面词的数目多于负面词的数目,则判断样本为正面样本,否则为负面样本。该方法的实现非常简单,执行效率高,适合任何领域,但是分类效果与实际需求仍存在较大差距。
[0006]第二种是基于机器学习的监督分类方法,该方法分为两个过程:训练过程和分类过程。其中,在训练过程中,需要人工标注一定规模的正负样本。这种方法的分类准确率比较高,但是随着训练样本数目的增加,特征数目也随之大幅度地提高,分类过程中需要占用大量的内存空间,对于移动终端设备往往受到内存容量的限制,很难进行文本分类的任务。
[0007]另外,对于一些特殊的任务,如不平衡情感分类任务,其中某一类别的样本数目远远多于另一类别的样本数目,样本数目的不平衡往往导致很差的分类效果。
[0008]鉴于上述原因,本发明提供一种应用于评论语料的情感信息压缩方法及系统,对评论语料进行压缩,使之最大程度上保留情感分类信息,从而能够适应于移动设备上的情感分类任务,以及为某些特殊的任务(如不平衡情感分类任务)提供服务,以实现对多类别的语料进行压缩。
【发明内容】
[0009]为了更好地理解本发明,首先将本发明涉及的常用的术语与标记介绍如下。
[0010]机器学习分类方法(Classificat1nMethods Based on Machine Learning):用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别标签。常见的机器学习分类方法有朴素贝叶斯、最大熵、支持向量机等。评论语料:对产品进行评论的文本。情感分类:通过分析文本的主观性信息,将文本分为褒义文本或者贬义文本的任务。
[0011]本发明提供一种应用于评论语料的情感信息压缩方法,包括以下步骤。
[0012]S1、将待用数据分为K份,并取其中I份作为测试样本,其余K-1份作为训练样本。
[0013]S2、使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。
[0014]S3、将所有样本根据情感代表性分值从大到小排序,并根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。
[0015]优选的,在步骤SI中,对所述待用数据采用顺序切分或者随机抽取的方式,组成K份均等的样本集。
[0016]优选的,在步骤SI中,每次从K份中取其中I份作为测试样本,剩下的K-1份作为训练样本,共循环迭代K次。
[0017]优选的,在步骤S2中,使用的机器学习方法为最大熵的机器学习方法。
[0018]优选的,在步骤S2中,所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。
[0019]优选的,在步骤S2中,使用机器学习的分类方法在训练样本上进行训练,并对测试样本进行分类,得到其属于每个类别的后验概率。
[0020]优选的,在步骤S3中,所述排在前面的N个样本作为压缩样本集,并作为最终的压缩结果。
[0021]本发明还提供一种应用于评论语料的情感信息压缩系统,包括情感代表性打分模块和压缩模块,所述情感代表性打分模块连接压缩模块。所述情感代表性打分模块,包括预处理装置及分类装置,所述预处理装置连接分类装置。所述预处理装置,用于将待用数据分为K份,并取其中I份作为测试样本,其余K-1份作为训练样本。所述分类装置,用于使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。所述压缩模块,包括排序装置及输出装置,所述排序装置连接输出装置。所述排序装置,用于将所有样本根据情感代表性分值从大到小排序。所述输出装置,用于根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。
[0022]通过本发明提供的应用于评论语料的情感信息压缩方法及系统,采用机器学习方法训练分类器对测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。同时,将所有样本根据情感代表性分值从大到小排序,并抽取排在前面的N个样本作为压缩样本集。如此,能够有效的压缩评论语料,并最大程度上保存原语料的情感分类信息,达到了在小存储容量的移动设备上实现情感分类任务的目的。
【专利附图】
【附图说明】
[0023]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本发明较佳实施例提供的应用于评论语料的情感信息压缩方法流程图;
[0025]图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图;
[0026]图3是本发明较佳实施例提供的压缩过程的算法流程图;
[0027]图4是本发明较佳实施例提供的应用于评论语料的情感信息压缩系统示意图。
【具体实施方式】
[0028]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0029]图1是本发明较佳实施例提供的应用于评论语料的情感信息压缩方法流程图。如图1所示,本发明较佳实施例提供的应用于评论语料的情感信息压缩方法包括步骤Si~S3。
[0030]步骤S1:将待用数据分为K份,并取其中1份作为测试样本,其余K-1份作为训练样本。
[0031]具体而言,本实施例中,对所述待用数据采用顺序切分或者随机抽取的方式,组成K份均等的样本集。其中,每次从K份中取其中1份作为测试样本,剩下的K-1份作为训练样本,共循环迭代K次。
[0032]步骤S2:使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。
[0033]具体而言,所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。使用机器学习的分类方法在训练样本上进行训练,并对测试样本进行分类,得到其属于每个类别的后验概率。
[0034]图2是本发明较佳实施例提供的对样本进行情感代表性打分的算法流程图。本实施例中,文档采用TF向量表示法,即文档向量的分量为相应的单词在该文档中出现的频度。文本的向量作为机器学习分类方法实现的分类器的输入。
[0035]本步骤中所使用的机器学习方法包括K近邻,贝叶斯,最大熵,SVM等,本实施例使用的机器学习方法为最大熵的机器学习方法。于此,最大熵分类方法是基于最大熵信息理论,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事实,但是让未知的因素最随机化。相对于朴素贝叶斯方法,该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。
[0036]在最大熵模型下,预测条件概率P (c I D)的公式如下:
[0037]
【权利要求】
1.一种应用于评论语料的情感信息压缩方法,其特征在于,包括以下步骤: 51、将待用数据分为K份,并取其中I份作为测试样本,其余K-1份作为训练样本; 52、使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数; 53、将所有样本根据情感代表性分值从大到小排序,并根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。
2.根据权利要求1所述的方法,其特征在于,在步骤SI中,对所述待用数据采用顺序切分或者随机抽取的方式,组成K份均等的样本集。
3.根据权利要求1所述的方法,其特征在于,在步骤SI中,每次从K份中取其中I份作为测试样本,剩下的K-1份作为训练样本,共循环迭代K次。
4.根据权利要求1所述的方法,其特征在于,在步骤S2中,使用的机器学习方法为最大熵的机器学习方法。
5.根据权利要求1所述的方法,其特征在于,在步骤S2中,所述后验概率是使用机器学习方法训练的分类器对样本进行分类时获得的。
6.根据权利要求1所述的方法,其特征在于,在步骤S2中,使用机器学习的分类方法在训练样本上进行训练,并对测试样本进行分类,得到其属于每个类别的后验概率。
7.根据权利要求1所述的方法,其特征在于,在步骤S3中,所述排在前面的N个样本作为压缩样本集,并作为最终的压缩结果。
8.一种应用于评论语料的情感信息压缩系统,其特征在于,包括情感代表性打分模块和压缩模块,所述情感代表性打分模块连接压缩模块, 所述情感代表性打分模块,包括预处理装置及分类装置,所述预处理装置连接分类装置, 所述预处理装置,用于将待用数据分为K份,并取其中I份作为测试样本,其余K-1份作为训练样本; 所述分类装置,用于使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数; 所述压缩模块,包括排序装置及输出装置,所述排序装置连接输出装置, 所述排序装置,用于将所有样本根据情感代表性分值从大到小排序; 所述输出装置,用于根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。
【文档编号】G06F17/27GK104199980SQ201410494394
【公开日】2014年12月10日 申请日期:2014年9月24日 优先权日:2014年9月24日
【发明者】李寿山, 高伟, 周国栋, 王红玲 申请人:苏州大学