一种判别短文本情感倾向性的方法

文档序号:6546670阅读:1095来源:国知局
一种判别短文本情感倾向性的方法
【专利摘要】本发明公开一种判别短文本情感倾向性的方法,包括:A、直接从待分析文本中构建情感词典;B、根据情感词典,基于局部依赖关系判断待分析文本的情感极性。本发明的目的是提出一种适用于句法不严谨的文本的,能得到短语搭配的情感极性的可行方案。首先是,本发明提出的自动构建情感词典的方法,不依赖大量外部标注样本,而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是,本发明采用局部依存关系分析,可以适用于句子结构不严谨的文本,尤其是短文本,而且本发明的单个特征包含搭配信息,因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。
【专利说明】一种判别短文本情感倾向性的方法
【技术领域】
[0001 ] 本发明涉及文字处理领域,更具体的说,涉及一种判别短文本情感倾向性的方法。【背景技术】
[0002]分析大量短文本语义的一种主要技术是情感极性判断,它经常被应用于某种产品、服务、事件的论述内容中。用这种方法来判定人们对该话题的反应是一片痛骂还是拍手称快。对于企业而言,文本信息,尤其是评论性短文本信息的情感极性直接反应了消费者对企业服务的反馈,可用以辅助相关决策人有针对性地做出反应。
[0003]为了跟上海量信息的生成速度,通常要使用自动化情感分类方法。用于短文本的情感极性判断的基本方法是:1.参考预制的情感词表,在待分类的文本中查找相应的情感词,并以此为依据确定情感极性或极性概率。2.依照待分类文本的句法依存关系或共现关系,结合1.结果,判定句子的情感极性或极性概率。3.用标题、或自主选定的观点句为依据,给出篇章的情感极性或极性强度。
[0004]专利文献CN103473380A提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。这种方法用特征空间上建立的有向无环图避免了以往的词袋方法导致的文本结构信息丢失的问题,可以保存文本的结构信息。同时,L1-正则化逻辑回归可以较好地选出关键特征,提高学习效率。
[0005]该方法在传统的从文本到特征空间映射方法的基础上,建立了有向无环图。它所需的两类输入势必大大增加数据的稀疏性,因此也限制该方案只适合在较窄的特定领域内使用;在大范围内,用逻辑回归等模型处理稀疏数据,会较得出有效的分类器。
[0006]专利文献CN103440235A公开了一种基于认知结构模型的文本情感类型识别方法及装置,该方法包括:对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;对所构建的情感维度词典进行求精,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,得到相应的情感类型。这一方案根据种子词能自动构建高精度的情感维度词典,可解释性、使用灵活性及有效性上都有优势。
[0007]该基于认知结构模型的文本情感类型识别方法因为能够根据种子词,自动构建情感维度词典,具有一定优势。然而却无法处理情感词与评价对象的不同搭配对于句子级情感倾向性判断所带来的影响。例如,“新买的显示器上就有一个亮点,垃圾! ”与“整部剧的亮点是男一号的出色表现。”虽然都用到了“亮点”,但它们的情感倾向却截然相反。
[0008]专利文献CN103399916A提出了一种基于产品特征的互联网评论观点挖掘方法,包括:从互联网上获取产品信息及对应的评论信息;从评论信息中抽取产品特征,并从产品特征中提取出相关联的显式特征评论及隐式特征评论;利用显式特征评论和隐式特征评论在句子粒度上进行情感分类;依据产品特征及对应的情感分类结果生成情感文摘提供给用户。这一方法不仅可以帮助用户节省时间,处理评论中的矛盾信息和发现被评论产品的不足,而且深入挖掘用户评论中针对不同产品特征的情感信息,一方面能给用户的购买提供参考,另一方面也能给生产厂商提供产品的改进建议。
[0009]该方法提出的基于产品特征的互联网评论观点挖掘方法,在提取出产品特征对应的显、隐性评论后,仅基于开放情感词典和用户情感表述规则判断句子级别的情感倾向。这个方案一方面,无法处理大量存在的、句法不严谨的网络短文本;另一方面,开放情感词典并不总是能套用在特定产品特征的情感倾向性判定任务中,所以也有CN103440235A的不足。
[0010]专利文献CN201310355704本发明公开了一种文本倾向性分析方法包括步骤:对评论文本进行预处理;识别中文句法的依存关系结构;计算情感词的上下文极性值;完成评价对象和评价词的二元组抽取,确定评价对象间的从属关系;对情感词倾向值加权求和得到句子倾向值,实现句子级倾向性判别;通过句子级极性值的正负,判别评论情感的褒贬倾向;根据极性绝对值大小,判别评论褒贬情感的强弱。这一思路组合情感词典并将领域本体加入文本倾向性分析,提高了情感词极性计算与〈评价对象,评价词> 二元组抽取的准确率,实现了对论坛商品评论的倾向性分析。
[0011]该发明公开的这种文本倾向性分析方法通过对情感词倾向值加权求和得到句子倾向值,再根据该值的正负进一步确定句子的情感极性。这种方案的主要问题在于加权求和法忽略了情感词所处的句法结构、和上下文搭配,这会影响最终情感倾向性判定的准确程度。
[0012]在实际应用中,情感分析领域存在内生悖论:如果不采用句法分析,就无法得到评价对象和评价内容的匹配关系,容易因此误判极性;如果采用句法分析,就无法处理大量存在的句法不严谨的网络短文本。如果不采用外部标注样本或情感词典,就无从着手训练情感分类器;如果采用外部标注样本或情感词又无法保证外部数据和待分析数据的相关程度,及可能出现的误判。

【发明内容】

[0013]本发明解决的技术问题是提出一种适用于句法不严谨的文本的,并且能得到短语搭配的情感极性的判别短文本情感倾向性的方法。
[0014]本发明的目的是通过以下技术方案来实现的。
[0015]本发明的判别短文本情感倾向性的方法,包括:
A、直接从待分析文本中构建情感词典;
B、根据情感词典,基于局部依赖关系判断待分析文本的情感极性。
[0016]进一步的,所述步骤A还包括:
Al、收集情感种子词和种子表情,参照开放语义词典和输入法词典,将正极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;将负极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;
A2、用网络爬虫搜集包含上述的种子词、种子表情和种子话题的网络短文本,形成候选集;
A3、把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;
A4、得到了分词结果和词性标注序列之后,将停用词过滤掉(停用词包括但不局限于助
词);
A5、对处理过后的候选集里的短文本,逐一遍历其中是否含有会翻转语义的标识词和句式,若含有,则为其确定否定依存范围及反问依存范围;
A6、计算候选集内所有短文本的情感极性可信度,并按可信度排名。计算公式如下:
【权利要求】
1.一种判别短文本情感倾向性的方法,包括: A、直接从待分析文本中构建情感词典; B、根据情感词典,基于局部依赖关系判断待分析文本的情感极性。
2.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于,所述步骤A还包括: Al、收集情感种子词和种子表情,参照开放语义词典和输入法词典,将正极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;将负极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里; A2、用网络爬虫搜集包含上述的种子词、种子表情和种子话题的网络短文本,形成候选集; A3、把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词; A4、得到了分词结果和词性标注序列之后,将停用词过滤掉; A5、对处理过后的候选集里的短文本,逐一遍历其中是否含有会翻转语义的标识词和句式,若含有,则为其确定否定依存范围及反问依存范围; A6、计算候选集内所有短文本的情感极性可信度,并按可信度排名;计算公式如下:
3.如权利要求2所述的一种判别短文本情感倾向性的方法,其特征在于:所述步骤Α7还包括步骤: 用开放句法依存关系算法,计算与情感词典匹配上的情感标识词在短文本里的依存范围,并收录该范围的上一级依存范围内的词,进入候选词典; 计算候选词典里的高频词,选取词频排名次序高于预设的百分比的词填充到所述情感词典中; 如果局部依存关系明确,则在情感词典的该词条中,标记情感词修饰的对象,以此记录词语搭配关系。
4.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于,所述步骤B还包括: B1、数据预处理——把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词; B2、数据分流——对仅含有一种情感极性的待分析文本,加入训练数据集; 对含有超过一种情感极性的待分析文本,标记为极性冲突; 对含有未能判断出情感极性的待分析文本,向量化表示,作输入数据; 将构建好的情感词典,作为后置规则置入最大熵模型; B3、判断情感极性——用含有且仅含有一种情感极性的训练数据训练出的最大熵模型,判断未匹配到情感词的文本,通过带第一后置规则的最大熵模型计算文本情感倾向;对于模型给出的极性概率低于预定阈值的文本,标记其为中立;这样就给出了待分析集合中每个文本标记情感倾向,共有:正向、负向、中立、冲突。
5.如权利要求4所述的一种判别短文本情感倾向性的方法,其特征在于,所述第一后置规则包括词条,极性,词条归属这个极性的概率,计算将在此第一后置规则的约束下进行。
6.如权利要求5所述的一种判别短文本情感倾向性的方法,其特征在于,如果情感词条含有常与之搭配的评论对象被收录在所述的情感词典中,则在第一后置规则里再叠加一条包含评价对象和情感词的第二后置规则。
7.如权利要求6所述的一种判别短文本情感倾向性的方法,其特征在于,所述第二后置规则包括词条、该词条修饰的对象,以及该词条跟不同对象组合的短语的情感极性。
【文档编号】G06F17/27GK103955451SQ201410206702
【公开日】2014年7月30日 申请日期:2014年5月15日 优先权日:2014年5月15日
【发明者】陈里波, 胡子扬, 祁点点 申请人:北京优捷信达信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1