一种基于句子间情绪转移概率的句子级情绪分类方法

文档序号:8487897阅读:302来源:国知局
一种基于句子间情绪转移概率的句子级情绪分类方法
【技术领域】
[0001]本发明涉及自然语言处理及机器学习技术领域,特别涉及一种基于句子间情绪转移概率的句子级情绪分类方法。
【背景技术】
[0002]随着互联网的高速发展,人们越来越倾向于在社交网站上发表自己的情感,从微博、微信上的一句短句,到长篇的博客,这些大量的文本信息中蕴含着作者大量的情绪信息。
[0003]目前按照情绪标签对文本信息进行分类的研宄开始逐渐增多,但普遍都是对文本信息自身的情绪特征进行分析。由于人类对语言文字的组织运用是带有主观性和多样性的,使得不少文本信息自身的表面情绪特征往往与作者真实的情绪是不一致的。所以,如果仅仅是对文本信息自身的情绪特征进行分析,便有可能造成错误的分类结果。
[0004]综上所述可以看出,在按照情绪标签对文本信息进行分类时,如何改善文本信息的情绪分类效果是目前亟待解决的问题。

【发明内容】

[0005]有鉴于此,本发明的目的在于提供一种基于句子间情绪转移概率的句子级情绪分类方法,在按照情绪标签对文本信息进行分类时,改善了文本信息的情绪分类效果。其具体方案如下:
[0006]一种基于句子间情绪转移概率的句子级情绪分类方法,
[0007]利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;
[0008]利用预先基于所述已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对所述预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
[0009]优选的,所述已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组所述已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。
[0010]优选的,所述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。
[0011]优选的,用于对所述已标注情绪标签的文本句子进行标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。
[0012]优选的,所述M种情绪标签为8种情绪标签,所述8种情绪标签为高兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
[0013]优选的,基于所述已标注情绪标签的句子级文本集计算所述句子间情绪转移概率的过程包括:
[0014]记录每组所述已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系;
[0015]按照所述情绪对应关系的种类对所述N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类所述句子级文本类包括一组或多组所述已标注情绪标签的句子级文本;
[0016]计算每类所述句子级文本类中含有的句子级文本的数量占所述句子级文本集中含有的句子级文本的总量的比例,得到每类所述句子级文本类的所述句子间情绪转移概率。
[0017]优选的,基于所述已标注情绪标签的句子级文本集建立所述分类器的过程为:
[0018]在所述已标注情绪标签的句子级文本集上执行机器学习分类算法,得到所述分类器。
[0019]优选的,所述机器学习分类算法为最大熵分类算法。
[0020]本发明中,在利用分类器对待标注情绪标签的句子级文本进行预分类后,也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析后,还利用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本进行优化分类,从而得到最终的优化分类结果,可见,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。
【附图说明】
[0021]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0022]图1为本发明实施例公开的一种基于句子间情绪转移概率的句子级情绪分类方法流程图;
[0023]图2为本发明实施例公开的一种句子间情绪转移概率的计算方法流程图。
【具体实施方式】
[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]本发明实施例公开了一种基于句子间情绪转移概率的句子级情绪分类方法,参见图1所示,上述方法包括:
[0026]步骤SlOl:利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本。
[0027]本实施例中,已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。优选的,上述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。上述已标注情绪标签的句子级文本可以是从相关已有的文本数据库中获取,也可以通过自行标注的方式获得。
[0028]另外,用于对已标注情绪标签的文本句子进彳丁标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。优选的,M种情绪标签为8种情绪标签,8种情绪标签为尚兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
[0029]本实施例中,基于已标注情绪标签的句子级文本集建立分类器的过程为:在已标注情绪标签的句子级文本集上执行机器学习分类算法,得到分类器。优选的机器学习分类算法为最大熵分类算法。最大熵分类算法适合融合各种不一样的情绪特征,而无需考虑情绪特征之间的影响。由于最大熵分类算法是一种现有技术,在此不再对其进行赘述。
[0030]在步骤SlOl中,利用分类器对待标注情绪标签的句子级文本进行预分类,例如,待标注情绪标签的句子级文本包括呈上下句关系的文本句子A和文本句子B。文本句子A经过分类器的预分类处理后,被标上“渴望”的概率为100%,文本句子B经过分类器的预分类处理后,被标上“喜欢”的概率为55%,而被标上“讨厌”的概率为45%。那么,经过预分类后得到的预标注情绪标签的句子级文本包括被标上“渴望”的概率为100%的文本句子A以及被标上“喜欢”的概率为55%和被标上“讨厌”的概率为45%的文本句子B。此时文本句子B的情绪标签还未最终确定,需要经过后续的优化分类处理才能最终确定。
[0031]步骤S102:利用预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
[0032]同样以上述步骤SlOl中提到的例子为例,如果预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率中,文本句子间的情绪标签从“渴望”转移到“喜
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1