一种基于迁移学习的情感极性分析方法

文档序号:26485740发布日期:2021-08-31 17:41阅读:127来源:国知局
一种基于迁移学习的情感极性分析方法

本发明涉及一种基于迁移学习的情感极性分析方法,属于互联网与自然语言处理领域。



背景技术:

随着移动互联网技术的不断发展与进步,各大新闻媒体、普通民众越来越倾向于在社交网络发布对现实事件的观点和态度。情感极性分析是用自然语言处理的相关理论自动化的获取文本情感倾向或者情感类别的方法,具有极大的利用价值。

目前国内外关于情感极性分析的研究已经取得了丰富的成果,对本发明的研究工作具有借鉴意义。现有的情感极性分析方法主要分为基于情感词典、基于机器学习、基于深度学习3种。基于情感词典的方法将专家知识引入到情感值的计算过程,适用于缺乏大规模预料的场景,但是存在需要不断扩充和移植性较差的缺点。基于机器学习的方法用监督学习的方式训练一个分类器,与基于情感词典的方法相比,机器学习方法建模简单,扩展性和移植性更好。但是机器学习方法需要高质量的标注数据集,会耗费一定的标注成本。基于深度学习的方法利用神经网络模型训练分类器。与基于情感词典和机器学习的方法相比,深度学习模型有更强的表达能力、取得了更好的分类指标。近年来,随着预训练语言模型的发展,基于深度学习的方式取得了更好的效果。然而考虑具体的应用场景,现有深度学习模型仍存在不足。首先,现有语言模型缺乏句子级预训练任务,导致模型的逻辑感知和语义表达能力仍有进步空间。另外,对于社交评论的情感分析而言,其内容往往具有简短、随意的特点,使得句子特征不密集、噪声多,导致情感极性分析模型的分类鲁棒性不够。

针对当前深度学习模型存在的逻辑感知和语义表达能力不足、分类鲁棒性不够问题,本发明提出一种基于迁移学习的情感极性分析方法。一方面,模型使用迁移学习的方法,首先在文本排序任务中训练模型的逻辑感知与语义表达能力,然后将相关模型参数迁移到情感极性分析模型中。通过迁移学习,模型可以获得领域先验知识,获取高质量的句子特征并提高模型的分类准确率。另一方面,情感极性分析模型抽取句子特征后,进一步结合注意力机制降低特征噪声,可以提高模型的分类鲁棒性。



技术实现要素:

针对现有情感极性分析技术中存在的问题与不足,本发明提出了一种基于迁移学习的情感极性分析方法,该方法基于迁移学习为情感极性分析模型引入领域先验知识,可以提高模型的分类准确率。同时,本发明基于注意力机制为情感极性分析模型降低噪声干扰,能够提高模型的分类鲁棒性。

为了实现上述目的,本发明的技术方案如下:一种基于迁移学习的情感极性分析方法,首先按照一定比例将评论文本中字或者词的位置扰乱。然后,构建文本排序模型,将扰乱的句子作为输入,正常语序的句子作为输出来训练模型。接着,构建情感极性分析模型,将文本排序模型中的相关参数迁移到情感极性分析模型中对应的位置。最后,对迁移后的情感极性分析模型继续训练。该方法通过迁移学习为情感极性分析模型引入先验知识,可以提高模型的领域适应性,有助于获取更高质量的句子特征,进而提高模型的分类准确率。

一种基于迁移学习的情感极性分析方法,该方法主要包括4个步骤,具体如下:

步骤1,构建句子对数据集。按照设定的比例(根据对比实验结果确定比例大小)将情感极性分析数据集中每个句子的词语位置扰乱,同时保留扰乱前的句子,每一组扰乱后的句子和正常语序的句子构成新数据集中的一条训练数据。

步骤2,训练文本排序模型。基于seq2seq的方式构建文本排序模型,首先将扰乱的句子作为模型输入,用编码器抽取出句子特征;然后逐字进行解码,根据当前时间步的解码特征预测输出文字;最后将模型输出与正常语序对应位置的文字作对比,基于交叉熵损失函数训练模型参数。

步骤3,参数迁移。首先构建情感极性分析模型,并使用与文本排序模型相同的编码结构,然后将文本排序模型的编码参数、词向量参数迁移到情感极性分析模型中。

步骤4,训练情感极性分析模型。基于情感极性分析数据集,首先输入评论文本,用编码器抽取句子特征,然后用卷积神经网络、循环神经网络、注意力机制进一步抽取句子的局部特征、整体特征、降噪后的最终特征;最后对特征分类。

相对于现有技术,本发明的技术效果如下:

1.该方法基于迁移学习,首先构建文本排序模型,然后将文本排序模型学到的参数迁移到情感极性分析模型中。有效弥补了当前语言模型缺乏句子级预训练任务的缺陷,可以提高模型的逻辑感知与语义表达能力,获得更高质量的句子特征表示。在实施例中,迁移学习后的模型在分类准确率指标上提高了3.7%,证实了方案的有效性。

2.情感极性分析模型首先用cnn(卷积神经网络)抽取句子局部特征,然后用bigru(双向门控循环单元)抽取句子整体特征,最后用注意力机制降低特征噪声,可以降低社交文本随意性对模型分类的干扰。对实施例的消融实验表明:相比于直接对整体特征分类,增加注意力机制获得了更高的分类鲁棒性。

附图说明

图1为本发明实施例的整体框架图。

图2为本发明实施例涉及的文本排序模型框架图。

图3为本发明实施例涉及的情感极性分析模型框架图。

具体实施方式

为了加深对本发明的认识和理解,下面结合具体实施例,进一步阐明本发明。

实施例1:一种基于迁移学习的情感极性分析方法,在具体实施时,其整体工作流程如图1所示。该方法首先构建文本排序模型如图2所示,该模型弥补了当前语言模型缺乏句子级预训练任务的缺陷,可以提高模型的逻辑感知与语义表达能力。然后,构建情感极性分析模型如图3所示,将文本排序模型训练得到的相关参数迁移到情感极性分析模型中对应的位置。最后,将迁移后的模型在情感极性分析数据集上继续训练。本方法具体实施步骤如下:

步骤1,构建句子对数据集。按照设定的比例(对比试验后,本实施例设置为25%)将情感极性分析数据集中的句子进行扰乱,同时保留扰乱前的句子,将扰乱后的句子和正常语序的句子构成的句子对作为新数据集中的一条训练数据。例如正常语序的句子为:所有医护人员辛苦了。扰乱后的句子为:辛医护人员苦了。其中“辛”和“苦”的上下文都发生了变化。

步骤2,训练文本排序模型。用seq2seq的方式构建文本排序模型,首先将扰乱的句子作为模型输入,用编码器抽取句子特征;然后逐字进行解码,根据当前时间步的解码特征预测应输出的文字;最后将模型输出与正常语序作对比,用对数损失函数训练模型参数。该步骤又可以分为3个子步骤,具体实施方式如下。

子步骤2-1,句子编码。本实施例用bert提取文本编码特征,为便于描述,将模型相关符号的含义汇总到表1中。首先输入长为m的文本序列x=(token1,token2,…,tokenm),根据token在vocab中的索引idi提取token的编码embi并计算出ei,用s表示整个句子构成的文本矩阵,ei和s的具体计算过程如公式(1)、(2)所示,其中position表示位置编码,segment表示段编码。

表1模型相关符号含义

ei=bert(embi+segmenti+postioni)(1)

s=(e1,e2,…,em)(2)

然后将s送入含有12层transformer序列的编码模型提取出最终的编码输出s。公式(3)中ln是层归一化操作,msa是多头自注意力操作。以第z层为例,首先用msa处理上一层的编码输出sz-1,然后经过残差和ln操作获得如公式(3)所示,最后用ffn对进行处理,并结合残差和ln获取层编码输出sz如公式(4)所示。ffn的计算过程如公式(5)所示,其中w1、b1、w2、b2均为模型可学习参数。

ffn(x)=max(0,xw1+b1)w2+b2(5)

子步骤2-2,句子解码。使用gru作为解码网络的基本单元。解码过程如公式(6)、(7)所示。公式(6)中,dt-1表示输入、ht-1表示上一步的隐层输出。d0对应cls(vocab中一个特殊字符,表示一句话的开始)作为输入。公式(7)表示解码过程的隐层初始化,即首先将编码输出s进行平均池化,然后用线性层处理后表示初始隐层输入h0,其中ws、bs均为模型可学习参数。

ht=gru(dt-1,ht-1)(6)

h0=wsavg(s)+bs(7)

子步骤2-3,输出预测,以每一步的解码隐层输出ht作为query,以编码输出s为key和value,用dot-productattention的方式计算语境向量context如公式(8)所示,然后拼接context和ht作为当前解码步的最终特征,并将拼接特征经过线性变换和softmax函数处理后,获得模型的预测概率分布p,过程如公式(9)所示,其中wp、bp均为模型可学习参数。最后,基于预测值p和实际值y计算模型对数损失loss如公式(10)所示,其中m表示词典vocab大小。

context=attention(ht,s,s)(8)

p=softmax(wp[context,ht]+bp)(9)

步骤3,参数迁移。文本排序模型训练完成后,使用与文本排序模型相同的编码结构去构建情感极性分析模型。然后将文本排序模型的编码模型参数、词向量参数迁移到情感极性分析模型中。

步骤4,训练情感极性分析模型。基于情感极性分析数据集,首先将文本输入模型,用编码器抽取句子特征,然后用卷积神经网络、循环神经网络、注意力机制抽取句子的局部特征、整体特征、降噪后的最终特征;最后对特征分类。该步骤又可以分为5个子步骤,具体实施方式如下。

子步骤4-1,句子编码。由于编码模型与文本排序模型完全一致,故情感极性模型的编码过程与子步骤2-1相同。用s表示编码输出。

子步骤4-2,抽取局部特征。使用一维卷积网络提取编码输出s的局部特征表示t,如公式(11)所示;每一步的具体计算结果ti如公式(12)所示,其中w和b为模型可学习参数;×表示卷积计算;i表示第i步;k表示卷积核宽度(本实施例使用宽度为2的卷积核)。

t=conv(s)(11)

ti=tanh(w×si:i+k-1+b)(12)

子步骤4-3,抽取整体特征。用bi-gru抽取句子整体特征c如公式(13)、(14)所示。双向gru包括一个正向gru从左到有的阅读t生成一个反向gru生成nt表示上一步卷积输出的长度。分别表示gru模型第j步时两个方向的隐层输出。将拼接后得到每一步的特征hj如公式(15)所示。

子步骤4-4,注意力降噪。实际评论文本可能有较多噪声,一般不希望把句子的所有部分无差的输入模型做最终预测。结合注意力机制,可以对文本特征c做进一步的优化。将hj通过感知机(mlp)得到vj如公式(16),其中wa和ba为模型可学习参数。通过vj和语境c的相似度衡量其重要性如公式(17)所示。通过加权求和的方式计算句子最终语义特征ca如公式(18)所示。

vj=tanh(wahj+ba)(16)

子步骤4-5,情感极性分类。首先将句子特征ca经过线性变化、softmax函数处理后,获得模型的分类概率分布p,过程如式(19)所示,其中wp和bp为模型可学习参数;然后基于p和实际标签y计算模型对数损失如式(20)所示,其中n表示类别数目。

p=softmax(wpca+bp)(19)

需要说明的是,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1