本发明属于文本分析领域,涉及一种跨领域情感分析方法,更为具体地是涉及一种情感文本共享词的选择以及基于共享词的情感语义增强方法。
背景技术:
情感文本指的是带有主观情感倾向的文本。对文本的情感倾向进行分析,是舆情监控、口碑分析、话题监控等应用的重要技术基础。跨领域情感分析,研究的是在情感带有主题相关性和领域相关性、以及目标领域样本稀疏的条件下,如何充分利用相关源领域样本进行分析的技术问题。
解决跨领域情感文本分析的关键是缩小源领域和目标领域之间的差异,将源领域的知识迁移到目标领域中,帮助目标领域建立预测模型,并尽可能地提高预测的性能。目前跨领域情感分析主要的技术方案可以分为三类,基于词典的方法,基于传统的机器学习方法以及基于深度学习的方法。基于词典的方法缺点是受词典的影响。基于传统的机器学习方法,不仅要求事先从情感文本中提取文本特征,而且这个分析的过程依赖经验和特定任务,例如谭松波等“一种跨领域的文本情感分类器的训练方法和分类方法”(2014年03月12日公布,授权公告号为cn101714135b的中国发明专利)。基于传统的机器学习方法,源领域和目标领域的共同词项(共享词)的选择主要依赖于词汇特征和句子特征,没有充分考虑情感语义。基于深度学习的跨领域情感分析,例如贾熹滨等提出“一种建立大规模跨领域文本情感倾向性分析框架的方法”(2016年11月9日公布,公布号为cn106096004a的中国发明专利申请),王勤勤等提出“基于word2vec的跨领域情感分类方法”(《计算机应用研究》,2018年第35卷第10期),余传明灯提出“基于深度表示学习的跨领域情感分析”(《数据分析与知识发现》,2017年第7期)。但是,这些方法即使考虑领域间共享词的桥梁作用,但仅采用共现、词频等单一且简单的度量指标选择共享词。
如何有效地选择共享词、充分发挥共享词的桥梁作用、以及针对跨领域情感分析任务有效地自动提取文本特征,提高目标领域的情感文本分类准确率,还有待进一步研究。
技术实现要素:
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种基于情感极性增强语义的跨领域情感分析方法,定量度量源领域和目标领域上情感语义的一致性,并结合情感极性值进行共享词的选择,基于共享词的极性增强情感语义,发挥共享词的桥梁作用并基于共享词提取文本情感特征,进一步提高目标领域情感文本分类的准确率。具体来说,本发明具体技术方案包括:
s1、提取源领域和目标领域中的情感文本的词项集ws和wt,并转化成词向量表vs和vt;
s2、在ws∩wt中对词频大于预设阀值的词项,计算词项的情感极性值,计算领域间词项的语义一致性因子,通过情感极性值筛选典型的正面情感词和负面情感词,再基于词项的语义一致性因子进一步筛选得到共享词;
s3、基于共享词的情感极性增强语义;
s4、基于卷积神经网络自动提取文本的情感特征,并完成目标领域情感文本分类;
其中所述的词向量表通过word2vec进行训练获得。
步骤s2中具体包括:
s2.1统计ws∩wt中每一个词在源领域和目标领域中的词频;选择词频大于预设阀值的词项;
s2.2基于正面种子词pwords和负面种子词nwords,计算w中每一个词wi的情感极性值:
其中,p(.)是词项出现的文本数与文本总数的比值;
s2.3计算每一个候选词项wi的语义一致性因子;
语义一致性因子通过基于wi的源领域词向量
s2.4根据情感极性值筛选情感强烈的候选共享词项集;根据
步骤s3具体包括
s3.1根据源领域特征ws和目标领域特征wt,将每一条情感文本表示为词项序列;对每一条积极情感文本
s3.2基于word2vec重新训练共享词扩展之后情感文本的词向量,用选择的共享词增强词向量的情感语义;
以上技术方案可以看出,本发明具有如下的有益效果:
从情感语义的基本点出发,选择兼顾词频和共现,以及领域间语义一致性的共享词,基于共享词的情感极性对样本进行扩展,增强情感词的情感语义,并自动提取领域情感文本的特征。因此,本发明更有效地和情感分析的目标相结合,更符合跨领域情感分析实际情形和特点;其次,减少人为设定文本特征,有效缩小领域间差异。与现有的分析方法相比,更能体现出情感语义在跨领域情感分析的本质和关键。
附图说明
图1本发明具体实施方式的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例:
图1为本发明实施例提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:提取词项并进行向量化:
本发明实施中,例如英文文本可以通过分词、词性还原、去除停用词,提取unigram和bigrams词,作为源领域词项ws和目标领域词项wt;基于word2vec将词项ws和wt向量化,记为
步骤102:提取共享词集;
首先,统计ws∩wt中每一个词在源领域和目标领域中的词频;选择词频大于预设阀值β的词,其中β为正整数,β可以优选2≤β≤10;
其次,本发明实施中,可以根据hownet极性词典,分别选择词频最高前n个正面词和n个负面词作为正面种子词pwords和负面种子词nwords;其中n可以优选大于15的整数;
基于正面种子词pwords和负面种子词nwords,计算w中每一个词
其中,p(.)是词项出现的文本数与文本总数的比值;
第三,通过情感极性值筛选典型的正面情感词和负面情感词;
可以通过预设阀值ε,选择情感极性值大于ε正面候选共享词,小于-ε的词项作为负面候选共享词,ε可以选择0<ε≤0.5;得到候选词项集w′={w′1,w′2,…,w′λ};
第四,对每一个候选词项w′i∈w′,计算w′i的语义一致性因子;
语义一致性因子通过基于源领域w′i的词向量
本实施例中,情感语义距离可以采用夹角余弦进行计算,例如
其中,n为词向量维数;
第五,根据
可以通过共享词数量阀值2α,在据
步骤103:基于共享词极性增强语义;
首先将带标签的每一条情感文本表示为词项序列;
接着,对每一条积极情感文本
第三,基于word2vec训练扩展之后情感文本的词向量;用选择的共享词增强词向量的情感语义;
步骤104:提取情感文本特征并进行预测
首先,构建卷积神经网络模型,包括(1)输入层:词向量由输入层输入;(2)卷积层:通过滤波器卷积核对词向量进行卷积,卷积后产生局部情感特征图;(3)globalmaxpooling层:对上层卷积层的情感特征图进行池化操作,选取最重要的情感文本特征;(4)隐藏层:这是一个全连接层,把池化后的情感特征适当地降维,作为输出层的输入;(5)输出层:输出每条测试样本的情感类别,选择概率最高的情感类别作为预测结果。
其次,用带标签的情感样本训练卷积神经网络,得到模型参数,训练的目标是最小化损失函数。损失函数可以选择
y(x)={y1,y2}表示所有x可能标签的集合,定义
其中
第三,对目标领域未知类别的情感文本的情感倾向进行预测,用得分最高的标签作为预测结果。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。