本发明属于文字信息处理领域,尤其涉及一种基于深度信念网络的短文本特征提取及情感分析方法。
背景技术:
情感分析的主要内容是发现文本所携带的主观性意见,包含信息主体的想法、爱好、情感表达等方面,是一个多学科融合的任务,涉及nlp(naturallanguageprocessing)、ir(informationretrieval)、ai(artificialintelligence)等众多领域。
短文本情感分析研究是伴随着国内外新型社交工具的出现而发展的新兴方向,相对于传统文本的观点和情感倾向分析,短文本由于内容简短,特征稀疏,语法表达随意,充斥着大量的表情元素等非标准表达词语及短句。传统文本情感分析方法可以借鉴但同时存在许多需要改进的方面,如何弥补现有方法的不足,提高短文本情感分类的准确度,是工业界及学术界研究的重点。
现有的特征提取算法主要有文档频率(documentfrequency,df)、卡方检验(chi-squarestatistic,chi)、信息增益(informationgain,ig)、tf*idf(termfrequency–inversedocumentfrequency)等算法。
文档频率:以某个特征项在某个类别中出现的文档数作为特征权值的标准,从而导致该方法的理论性不强,获得的结果与领域的关联性差。
卡方检验:在计算方法中只是关心词是否在文档中出现,而不关心出现的次数,因此该算法可能会夸大低频词的作用。
信息增益:信息增益考虑某个特征项对于整个语料库的信息量贡献,不能够针对某个类别进行特征选择,因此信息增益较为适合做全局的特征选择。
tf*idf:可能会夸大tf值计算时,较长文档中较高频率特征项的作用,因此使用时常将tf值归一化。
综上,基于规则的情感分析方法不能有效的利用文本潜在的语义信息,传统机器学习特征提取的方法主要基于概率统计的方法,存在固有的缺陷,为了弥补这些方法的不足,本发明在扩展重构短文本的基础上引入深度学习工具深度信念网络,对短文本特征进行深度自适应学习,经过实验证明,该方法能够较好的发现并提取更高质量的潜在语义特征,较大幅度的提高情感分类的性能。
技术实现要素:
本发明提供一种基于深度信念网络的短文本特征提取及情感分析方法,实现了基于深度学习算法-深度信念网络的短文本特征自适应抽取,并以此进行情感倾向判定,通过与传统特征提取方法进行对比发现,本方法能够更有效的发现潜在特征语义信息,提高了情感特征提取的质量,从而提高了情感分类的性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度学习的新型短文本特征提取及情感分析方法包括以下步骤:
步骤1、获取微博短文本语料集合、同义词典、语义递进关联词、微博表情词典、分词模型。
步骤2、对短文本进行扩展重构,包括:
(2.1)将微博语料按照转发评论关系构建上下文关联树;
(2.2)利用语义递进关联词典寻找上下文中与原始微博情感倾向相同的语料对原始文本进行扩展重构;
步骤3、短文本分词及预处理,包括:
(3.1)将获得表情符号词典加入到分词模型词库中,然后利用该优化的分词模型对扩展后的短文本语料进行分词;
(3.2)将分词后的语料进行停用词过滤,标点符号过滤;
步骤4,词语相似度计算模型构建,具体工作如下:
将收集整理的同义词典与分词预处理后的词语利用word2vec进行词语相似度训练,获得词语相似度计算模型;
步骤5、短文本特征向量扩展,包括:
(5.1)将分词预处理后的短文本分词集合利用特征提取算法进行大规模粗粒度特征抽取,获得候选特征集合;
(5.2)利用词语相似度计算模型对候选特征集合进行词语扩展,利用构建的语义相似度计算模型,依次对每个特征词计算出余弦相似度大于0.8的相似词集合,扩展到现有的特征词集合中;
步骤6、对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取;
步骤7、将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;
步骤8、利用分类预测模型将测试数据集进行情感标注。
作为优选,步骤8中具体过程如下:
(1)将测试训练集经过上述相同的步骤进行文本扩展、分词、特征扩展、深度信念网络特征提取;
(2)利用分类预测模型对未标注的测试数据进行情感倾向判定,将获得的情感分类结果输出给用户。
本发明具有以下技术效果:
能够缓解微博等短文本篇章简短、特征缺失等问题,利用评论转发等上下文信息,基于语义递进关联词对原文本进行扩展重构,该方法能够丰富情感语义表达,对特征提取及情感倾向判定具有积极意义。
深度信念网络由多层玻尔兹曼机构成,经过深度信念网络的预训练过程,各层玻尔兹曼机能够独立无监督的训练候选特征,确保特征向量能够映射到不同特征空间的同时,尽可能保留原有特征信息。
由于每一层玻尔兹曼机为独立无监督的训练,只能达到局部最优,为克服这一缺点,利用反向传播网络将错误信息由高到低传播至每一层玻尔兹曼机,能够对每一层玻尔兹曼机进行微调,力争达到整体最优。
引入深度信念网络对特征进行深度自适应学习,可以克服基于概率统计特征提取算法固有的缺陷,更好的挖掘文本所涵盖的潜在语义特征,发现更高质量的特征。为进一步丰富特征密度,利用分布式语义相似度算法对特征向量进行词语级别的扩展,该方法能够更深层次的利用文本潜在语义信息,提高情感特征提取的质量。
附图说明
图1基于深度信念网络的短文本特征提取及情感分类方法流程图;
图2基于上下文的短文本扩展重构的示意图;
图3深度信念网络预训练与微调示意图;
图4深度信念网络特征提取与情感倾向判定的示意图;
图5语义相似度模型举例的示意图;
图6特征向量扩展示意图。
具体实施方式
如图1所示,本发明提供一种基于深度信念网络的短文本特征提取及情感分析方法包括以下步骤:
步骤1、基础语料及工具收集整理,主要包括如下方面:
(1)收集微博短文本语料集合,并按照一定比例划分训练集与测试集,将训练集的数据进行人工标注。
(2)收集整理同义词典,包括哈工大同义词林、复旦大学中文同义词库等资料,为词语语义相似度模型构建鉴定基础。
(3)收集整理语义递进关联词,通过结合中文连词及微博短文本的特点,我们对微博中常用的语义递进关联词进行整理,该类连接词能够延伸原微博表达的情感倾向,为短文本扩展重构提供基础语料,语义递进关联词例如:“赞”“说得对”,“强烈支持”,“顶”等等。
(4)整理标注微博表情词典。微博涵盖大量表情符号,例如:“[高兴]”,“[大哭]”等,该类符号通常含有较为明确的情感倾向,我们认为该类符号在短文本情感分析中应该作为原子词来确定情感,但现有的分词模型词库并未涵盖该类词语,因此本文收集整理该类符号,将其加入分词模型词库,确保分词时将其划分为原子词。
(5)收集常用分词模型,常用机器学习分类算法,学习深度信念网络的原理及使用,为情感分析做好鉴定较为扎实的理论基础。
步骤2、对短文本进行扩展重构,主要工作如下:
(1)将原始微博语料按照转发评论关系构建上下文关联树,通过该关联树能够分析短文本上下之间的关联关系。
(2)利用构建语义递进关联词典寻找上下文中与原始微博情感倾向相同的语料对原始文本进行扩展重构,该方法能够扩展原始短文本的语义丰富度。上下文扩展示意图如图2所示。
步骤3、短文本分词及预处理,主要工作如下:
(1)将获得表情符号词典加入到分词模型词库中,然后利用该优化的分词模型对扩展后的短文本语料进行分词。
(2)将分词后的语料进行停用词过滤,标点符号过滤等。
步骤4,词语相似度计算模型构建,具体工作如下:
将收集整理的同义词典与分词预处理后的词语利用word2vec进行词语相似度训练,获得词语相似度计算模型。
步骤5、短文本特征向量扩展,主要工作如下:
(1)为了兼顾深度信念网络的学习效率与准确度,我们首先将分词预处理后的短文本分词集合利用传统特征提取算法进行大规模粗粒度特征抽取,获得候选特征集合。
(2)利用词语相似度计算模型对候选特征集合进行词语扩展,利用构建的语义相似度计算模型,依次对每个特征词计算出余弦相似度大于0.8的相似词集合,扩展到现有的特征词集合中,如图5所示。
首先特征词原始数据中的情感词“开心”,“梦寐以求”通过word2vec词语语义相似度计算模型得到语义相近词“高兴”、“渴望”,由此更新其在特征向量中的权值,该方法能够缓解短文本的特征稀疏问题。特征扩展的具体过程如图6所示。
步骤6、基于深度信念网络进行特征深度自适应学习,具体过程如下:
对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取,该方法能够克服传统基于概率统计的方法所固有的缺点,能够更好的发现特征潜在的信息,提高特征抽取的质量。
深度信念网络经过正向预训练过程,尽可能的将特征向量映射到不同的特征空间时保留更多的特征信息,并能利用反向网络传播将错误信息自上而下传播至每一层玻尔兹曼机,以此微调整个深度信念网络,深度信念网络训练与微调过程如图3所示。
经过深度信念网络预训练与微调过程能够获得较高质量的特征,通过将特征向量输入到分类算法中验证深度信念网络特征提取质量的高低。整体流程如图4所示。
步骤7、利用分类模型对特征进行分类训练,即,将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;
步骤8、将测试数据集进行情感标注,具体过程如下:
(1)将测试训练集经过上述相同的步骤进行文本扩展、分词、特征扩展、深度信念网络特征提取。
(2)利用分类预测模型对未标注的测试数据进行情感倾向判定,将获得的情感分类结果输出给用户。
实施例1:
传统提取特征的方法主要基于概率统计的方式,不能充分发现文本潜在的语义信息,从而不能更好的进行特征训练来确定短文本情感倾向;本发明实施例提供一种基于深度学习的新型短文本特征提取及情感分析方法包含如下具体步骤:
将所有的语料集合按照8:2的比例划分为训练集与测试集,利用训练集对本发明提取的方法进行模型训练,利用测试集测试本发明方法相比较于传统方法的优劣。
对训练语料集进行人工情感倾向标注,积极情感倾向标注为1,中性情感倾向标注为0,消极情感倾向标注为-1。
数据预处理,数据预处理能够更好的规范微博短文本文字表达,剔除文本乱码,进行分词、词性标注等,去除停用词。
构建短文本关联树,一条微博可能含有大量的评论、转发等上下文信息,以原始微博文本为基准,构建原始微博与转发评论的关联thread。
构建语义递进关联词典,通过语义递进关联词确定评论转发等上下文语料是否与原始微博内容具有相同的情感倾向,语义递进关联词典样例,如:“确实是”,“赞”,“非常认同”“说得对”等等。
由thread关联树及语义递进关联词典对原始微博内容进行扩展重构,丰富短文本的语义信息。
构建微博表情词典。微博等短文本充斥着大量表情符号等网络元素,通过收集微博表情将其加入分词词典,确保分词模型将其作为一个整体词切分,例如:“[给力]”、“[泪流满面]”等。
微博等短文本含有较多的网络流行语,为保证分词模型将这些流行语作为整体词,利用信息熵和点互信息实现新词自动发现,将其加入分词模型词典中。如:“我去”、“蓝瘦香菇”等等。
将表情词及新词加入ictclas分词模型后,利用分词模型对经过预处理及扩展的短文本进行分词,例如:“哎呦我去,本宝宝不开心[大哭]”,原始分词结果:“哎呦/我/去/,/本/宝宝/不开心/[/大哭/]”,经过优化后的结果:“哎呦/我去/,/本/宝宝/不开心/[大哭]”。
为保证深度信念网络学习的效率及准确度,首先利用传统特征提取算法tf*idf对特征词进行大规模初筛,构建较大规模的候选特征词集合。
引入分布式语义计算模型,对分词后的微博语料集进行词语语义相似度模型的训练构建。
对候选特征词集合利用语义相似度计算模型进行特征向量扩展,丰富特征表示密度。
按照深度信念网络输入层的格式要求,统计每个特征项出现频率构建输入向量。
指定深度信念网络玻尔兹曼机训练层数、输出特征维度等模型参数初始化深度信念网络。
将构造的输入向量经过多层玻尔兹曼机单独无监督的训练,确保特征向量映射到不同的特征空间时,能尽可能的保留原有特征信息。
利用反向传播网络将每一层的错误信息自顶向下传播到每一层玻尔兹曼机,微调整个深度信念网络。
经过预训练与微调过程,深度信念网络会将经过深度自适应学习获得的特征向量输出。
将输出的特征向量构造适合于不同机器学习分类算法的输入向量,以便验证特征抽取的质量高低。
分别利用不同的机器学习分类算法对获得的特征向量进行学习训练,获得训练模型。
将测试集合利用上述相同的步骤抽取特征向量,然后利用所获得的分类模型对其进行情感倾向标注。
利用大连理工大学、中国知网、台湾大学等情感词典资源合并汇总后构建情感词典库。
针对汉语语法规则构造通用情感判定规则,为基于规则的情感判定方法鉴定基础。
利用情感词典及规则方式对测试集合进行情感倾向计算,记录测试集合的准确率、召回率及f1值以便与本发明方法对比。
利用传统特征提取算法tf*idf、信息增益等方法提取特征向量,并采用与本发明相同的机器学习分类算法进行情感倾向训练标注,以便对比与本发明所采用方法的优劣。
统计本发明测试集上的准确率、召回率及f1值,对比与传统规则和机器学习方法分类的性能。
根据对比结果调整深度信念网络输出特征维度的大小,重复上述操作获得调整后的实验结果,通过对比不同的参数,获得较好效果的学习训练参数。
调整分类算法的参数及对比利用弱学习分类器增强算法等对特征进一步增强训练,提高分类算法的分类性能。
经过实验结果验证,本发明提出的方法能够发现更高质量的特征,能够更有效的挖掘特征的潜在语义,能够较好的提高短文本情感分类的性能。