专利名称:基于混合模型的web文本情感主题识别方法
技术领域:
本发明涉及一种情感主题识别方法,特别涉及基于混合模型的TOB文本情感主题 识别方法。属于网络信息安全领域。
背景技术:
WEB文本主题提取和情感倾向分析是网络信息安全领域重要的研究内容。文献“网络环境下中文情感倾向的分类方法,语言文字应用,2008,Vol. 2 (5), P139-144”公开了一种基于语义倾向的文本情感分类方法。该方法通过语义学与数据挖掘 相关理论的结合,利用中文文本中词组的感情色彩来研究整个文本的情感倾向。但是此方 法单一的分析网络文本的情感,并不能同时识别网络文本的主题和情感倾向,无法满足网 络信息处理中用户的需求,同时该方法的情感识别准确率不高,平均准确率为67. 81%。
发明内容
为了克服现有技术方法情感识别准确率低的缺陷,本发明提供一种基于混合模型 的TOB文本情感主题识别方法。该方法通过在文本集合中进行模型训练,真实模拟不同情 感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分 别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型 与这两类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本 的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性 和规律,充分利用语言表达的特点和习惯,建立能够同时分析识别主题和情感的混合模型, 可以提高情感识别的准确率。为解决本发明技术问题所采用的技术方案一种基于混合模型的WEB文本情感主 题识别方法,其特点是包括以下步骤(a)对训练集中的文本进行手工标注,分别标记每个文本的情感倾向和所属主题 类别。根据不同情感语言表达方式的不同,估计出两类情感模型“褒义”模型和“贬义”模 型;同时根据不同主题文本的语言表达方式,分别估计各类主题语言模型;(b)对于步骤(a)建立的情感模型和主题模型分别进行参数估计。首先采用最大 似然估计(MLE)方法对各个模型的参数进行估计。利用最大似然估计方法必然会引起零概 率问题,因此还需要采用Jelinek-Mercer平滑方法进行数据平滑,调整概率分布的取值;(c)对于待处理的文本,计算其语言模型与两类情感模型的距离,选取距离最近的 情感模型的情感倾向赋予该文本;计算与各个主题模型的距离,选取距离最近的主题模型 的主题属性作为该文本的主题。本发明的有益效果是由于在文本集合中进行模型训练,真实模拟不同情感倾向 以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生 情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型与这两 类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性和规律, 充分利用语言表达的特点和习惯,建立能够同时分析识别主题和情感的混合模型,情感识 别的平均准确率由现有技术的67. 81%提高到81. 36%。下面结合附图和实施例对本发明作详细说明。
附图是本发明基于混合模型的WEB文本情感主题识别方法的流程图。
具体实施例方式对于一个待测文本,根据本方法分析文本情感倾向和文本主题,具体步骤如下第一步,手工标注训练集文本的情感和主题,建立主题和情感模型。设X是文档的 集合X = {xl,X2,. . .,xn},C表示类别的集合,是对X的一个划分C = {Cl,c2,. . .,cj, Cj U Cj = (t, V/ 的密度函数为
K= J>(x|c,)p(c,)(1)
(=i为了计算模型与待处理文本间的距离,采用了 Kullback-Liebler测度作为衡量 类别之间差别的判据。两个概率分布q(x)与P(x)之间的KL距离通常定义为KL(q(x)\\p(x)) = (V(x)lncbc(2)
J LPW.当q(x) =p(x)时,KL距离等于0。也就是两类差别越大时,KL距离越大,当两类 概率分布完全相同时,KL距离最小为0。数据x在第i类上的概率密度函数为q(x) = &|(^),密度函数?00与q(x)之 间的KL距离定义为¥ = -KL(p(x|Ci) | |p(x))(3)对于情感模型,i = 2,表示有两种模型“褒义”模型和“贬义”模型;而对于主题 模型,i = s,s是从训练集合中估计的主题模型的个数。在建立语言模型时,模型阶数是影响模型性能的重要因素。在建模单元相同的情 况下,高阶模型的性能要优于低阶模型,但高阶模型的构造难度要大于低阶模型。理论上 而言,虽然采用更高阶的n-gram能更准确的描述语言模型,使模型能更逼近真实的语言现 象,但是实际上在现有的语料库中应用更高阶语言单元,会引起严重的数据稀疏问题,影响 模型的效果。因此,式(1)中的语言单元,采用常用的词语的bigram作为模型的参数。第二步,模型参数估计。采用常用的最大似然估计(MLE)方法对模型参数进行估 计。应用MLE方法对模型参数的初步估计如下Pm(^\T) = C-^(4)
counter)在式子(4)中,T既可以表示待处理文本,也可以代表褒义文本集合,贬义文本集 合或者主题文本集合。count (Wi)表示中出现的次数,相应的count (r)表示任意一 个词在T中出现的次数。由于数据的稀疏性,利用极大似然估计方法必然会引起零概率问 题对于某个没有出现在文档t中的词项w,使用MLE将导致P(w |t) =0。零概率问题会大大削弱了模型描述能力和后处理能力。数据平滑技术通过调整概率分布的取值,使低概率 (包括零概率)被调高,高概率被调低,从而避免了零概率的出现,能有效解决数据稀疏问 题,同时还能使模型参数概率分布更加均勻,概率的计算更加精确。本发明中采用基于线性 插值的Jelinek-Mercer平滑方法,该方法常用于解决由于训练样本集较小而引起的参数 估计的偏置问题。根据Jelinek-Mercer平滑方法的思想,模型参数的平滑计算可以定义如 下Ps(Wi|T) = APM(Wi|T) + (l-A)P(Wi|C)(5)式(5)中,入是一个平滑参数,0 <入< 1。A需要通过实验确定,直接影响模型 的性能。通过式(4)和(5),完成对情感模型和主题模型中的参数估计和平滑。第三步,模型距离函数的定义。为了准确评估待处理文本与模型之间的相似程度, 引入了距离函数。通过计算待处理文本模型与各模型之间的距离,判断模型之间的相似度。情感模型的距离函数定义如下0 (t, 6p, 6N) = d1-d2(6)其中t表示待处理文本,S p和S N分别表示“褒”模型和“贬”模型,dl代表文本 t与“褒”模型之间的KL距离,而d2代表文本t “贬”模型之间的KL距离。当0大于0, 表明待处理文本更接近“贬”模型,判断文本表达的感情为贬斥类;反之,当e小于0,判断 其为褒扬类。当e等于0,表示文本表达的情感中立。对于主题模型的建立,首先手工标注训练数据集合中的文本主题,对各个主题的 语言模型进行估计,然后分别评估待处理文本自身的语言模型与这两种模型之间的相似程 度。如果待处理文本自身的语言模型与某个情感模型更为相似,那么就认为该文本的主题 与这个模型的主题是一致的。主题模型的距离函数定义如下0 (t, yys) = dmin(t,ri)(7)其中,ri表示第i个主题模型,dfflin(t, r,)表示待处理文本自身模型与各个主题模 型之间最小的KL距离。若文本与第i个主题模型之间的KL距离最小,则认为该文本的主 题为第i个主题。经检测,本发明方法对情感识别的平均准确率是81. 36%。
权利要求
一种基于混合模型的WEB文本情感主题识别方法,其特征在于包括以下步骤(a)对训练集中的文本进行手工标注,分别标记每个文本的情感倾向和所属主题类别,根据不同情感语言表达方式的不同,估计出两类情感模型“褒义”模型和“贬义”模型;同时根据不同主题文本的语言表达方式,分别估计各类主题语言模型;(b)对于步骤(a)建立的情感模型和主题模型分别进行参数估计,首先采用最大似然估计(MLE)方法对各个模型的参数进行估计,利用最大似然估计方法必然会引起零概率问题,因此还需要采用Jelinek-Mercer平滑方法进行数据平滑,调整概率分布的取值;(c)对于待处理的文本,计算其语言模型与两类情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本;计算与各个主题模型的距离,选取距离最近的主题模型的主题属性作为该文本的主题。
全文摘要
本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型与这两类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性和规律,充分利用语言表达的特点和习惯,建立能够同时分析识别主题和情感的混合模型,情感识别的平均准确率由现有技术的67.81%提高到81.36%。
文档编号G06F17/30GK101876985SQ20091021916
公开日2010年11月3日 申请日期2009年11月26日 优先权日2009年11月26日
发明者樊娜, 蔡皖东 申请人:西北工业大学