一种文本情感领域分类的方法及系统

文档序号:26229755发布日期:2021-08-10 16:29阅读:224来源:国知局
一种文本情感领域分类的方法及系统

本发明涉及文本分类,具体涉及一种文本情感领域分类的方法及系统。



背景技术:

作为nlp(自然语言处理)领域内基础性研究的文本情感分类任务,不仅其本身引起了大量研究人员的关注,而且也为其他nlp任务提供了足够技术支撑。例如,实体关系提取、机器翻译、推荐系统等等。传统文本情感分类方法,像svm,naivebayes,随机森林等,大多依赖于手工提取的特征。然而提取这些特征均需要昂贵的时间与金钱代价。同时,此类方法过多地依赖于大规模语料库的支持,其性能依赖语料库的优劣,易受数据稀疏和数据噪声的干扰。近些年,一些深度学习模型已经被提出并用于解决这些问题。这些模型大多围绕cnn,rnn和注意力机制等展开,并取得了优于传统分类方法的分类性能。例如,cnn能够提取局部的及相对位置不变的特征。然而,cnn会忽略文本本身存在的序列形式问题。同时,cnn又因为过度关心局部特征(如not,miss)导致分类任务的错误判定。rnn能对整个句子建模并捕获词汇间的长距离依赖。然而,rnn会因为过度关心文本的整体建模而可能忽略掉某些对文本分类任务重要的局部特征。为解决以上问题,注意力机制被提出并迅速获得大量研究人员的青睐。例如,transformer_xl模型同时结合了rnn序列建模和transformer自注意力机制的优点,获得远超transformer的性能。bert模型也通过注意力机制最大化的提取到文本的语义信息。

简而言之,基于输入文本,神经网络能通过大量训练便可生成其文本的特征表示。并且,这些特征表示直接影响这着分类性能。当前,情感分类技术的一大瓶颈就是如何精确地表现自然语言的语义,即用户的意图。故本发明将特征学习视作深度学习模型的关键一环。

在实现本发明过程中,申请人发现现有技术中至少存在如下问题:

在一段文本中,通常会存在一些对文本情感分类任务强相关的词汇,但同时也会存在很多弱相关和无关的词汇。例如,在情感分类中,文本中的“良好”和“不错”一般都表达出积极情感的意思,而“坏的”和“糟糕的”往往象征着消极的情感。然而,本发明研究发现,然而,研究发现,在文本中存在的所谓强相关的词汇会干扰深度学习模型的特征学习能力,造成分类任务的错误判定。在句子“mybrotherisanableseaman.”中,词汇“ableseaman”在军事领域中的意思是一等水兵,其情感倾向为中性,而由于able一词的存在,词汇“ableseaman”在生活领域就会很容易被误解为很有能力的水手,这时其情感倾向为正向。尽管注意力机制能通过赋予文本中强相关的词汇更多的权重和赋予弱相关与无关词汇较少及零权重的方式在一定程度上减轻这种问题。然而由于用词习惯等客观问题的存在,此类问题仍还未被解决。

近几年,深度神经网络能够迅速在应用市场开花结果得益于当前大数据时代带来的海量数据及其有效标签。也就是说,当前深度学习算法是以数据集及其对应标签为驱动的,数据集及其标签的数量和质量决定了深度学习算法的性能。然而,由于数据的保密性,大量数据集缺少对应标签,这使得很多性能良好的深度学习算法无法快速应用到市场上。



技术实现要素:

本发明实施例提供一种文本情感领域分类的方法及系统,基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。

为达上述目的,一方面,本发明实施例提供一种文本情感领域分类的方法,包括:

获取目标域数据和源域数据,通过双向长短期记忆网络bilstm和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;

基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;

通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;

在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;并通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;

根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;

当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。

另一方面,本发明实施例提供一种文本情感领域分类的系统,包括图域对抗模型训练单元和运用单元,其中图域对抗模型训练单元包括数据获取单元、梯度反转层、情感分类子模型构建单元、辅助任务单元、域分类子模型构建单元和结果单元,其中:

数据获取单元,用于获取目标域数据和源域数据,通过双向长短期记忆网络bilstm和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;

梯度反转层,基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;

情感分类子模型构建单元,用于通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;

辅助任务单元,用于在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;

域分类子模型构建单元,用于通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;

结果单元,用于根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;

运用单元,用于当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。

上述技术方案具有如下有益效果:本发明提出基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种文本情感领域分类的方法的流程图;

图2是本发明实施例的一种文本情感领域分类的系统的结构图;

图3是本发明实施例的gdam模型架构图;

图4是本发明实施例的投影机制图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,结合本发明的实施例提供一种文本情感领域分类的方法,包括:

s101:获取目标域数据和源域数据,通过双向长短期记忆网络bilstm和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;

s102:基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;

s103:通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;

s104:在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;并通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;

s105:根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;

s106:当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。

优选地,步骤101具体包括:

s1011:目标域数据和源域数据的文本分别以句子形式体现;通过word2vec实现对对目标域数据和源域数据的预训练处理,完成对文本的初始词嵌入操作,自完成的初始词嵌入操作的文本进一步获取目标域数据的文本特征矩阵和源域数据的文本特征矩阵;其中,word2vec为产生词向量的相关模型;

s1012:通过bilstm模型分别对目标域数据的文本特征矩阵和源域数据的文本特征矩阵进行训练,针对每个词嵌入向量获取其前向隐藏状态向量、反向隐藏状态向量,将各个词相应的前向隐藏状态向量、相应的反向隐藏状态向量进行拼接,得到各词的拼接向量;通过目标域数据的各词的拼接向量形成目标域数据的文本特征表示,通过源域数据的各词的拼接向量形成源域数据的文本特征表示;其中,所述文本特征表示带有上下文信息;

s1013:将目标域数据的文本特征表示和源域数据的文本特征表示分别输入到图注意力机制模型,基于图注意力网络编码直接邻居的信息、具有预设层数的注意力网络中的节点只能受到与预设层数相同步数内的相邻节点的影响,分别将目标域数据的文本特征表示和源域数据的文本特征前一层的每个节点特征更新得到其在下一层的节点特征,直至将每个节点特征更新到与预设层数相同步数后得到各节点的最终状态特征,将目标域数据所有节点的最终状态特征作为其文本初步特征表示;将源域数据所有节点的最终状态特征作为其文本初步特征表示。

优选地,步骤102具体包括:

将文本初步特征表示送入梯度反转层grl,通过grl训练文本初步特征表示;在文本初步特征表示反向传播过程中,在域分类器的域分类损失的梯度反向传播到特征提取器的参数之前自动取反,且在前向传播过程中恒等变化;通过在域分类的损失函数的域分类误差项前引入权重平衡参数表示前向传播与反向传播中梯度的相关变化,并通过域分类器训练引入权重平衡参数后的域分类的损失函数,得到模糊了文本领域性的文本通用特征表示。

优选地,在步骤104中,所述在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示,具体包括:

s1041:通过投影机制将文本特征表示投影到互相垂直的二维空间向量上,得到文本特征表示第一分向量和文本特征表示第二分向量,所述文本特征表示第一分向量的起点与所述文本特征表示的起点相交,以及文本特征表示第一分向量与所述文本通用特征平行;

s1042:取文本特征表示与文本特征表示第一分向量之差,将文本特征表示投影在文本特征表示与文本特征表示第一分向量之差上,得到文本领域性特征;所述文本领域性特征用于在域分类器中进行训练以预测情感分类标签。

优选地,步骤105具体包括:

s1051:在图域对抗模型的损失函数中,为设定域分类子模型的损失函数设定修订系数,当图域对抗模型的损失函数最小化时,对应于一固定的域分类子模型的损失函数设定修订系数;

s1052:将具有一固定的域分类子模型的损失函数设定修订系数的图域对抗模型的损失函数所对应的图域对抗模型最优图域对抗模型,采用最优图域对抗模型对文本进行文本情感领域分类。

如图2所示,结合本发明的实施例提供一种文本情感领域分类的系统,包括图域对抗模型训练单元和运用单元27,其中图域对抗模型训练单元包括数据获取单元21、梯度反转层22、情感分类子模型构建单元23、辅助任务单元24、域分类子模型构建单元25和结果单元26,其中:

数据获取单元21,用于获取目标域数据和源域数据,通过双向长短期记忆网络bilstm和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;

梯度反转层22,基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;

情感分类子模型构建单元23,用于通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;

辅助任务单元24,用于在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;

域分类子模型构建单元25,用于通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;

结果单元26,用于根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;

运用单元27,用于当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。

优选地,所述数据获取单元21具体用于:

目标域数据和源域数据的文本分别以句子形式体现;通过word2vec实现对对目标域数据和源域数据的预训练处理,完成对文本的初始词嵌入操作,自完成的初始词嵌入操作的文本进一步获取目标域数据的文本特征矩阵和源域数据的文本特征矩阵;其中,word2vec为产生词向量的相关模型;

通过bilstm模型分别对目标域数据的文本特征矩阵和源域数据的文本特征矩阵进行训练,针对每个词嵌入向量获取其前向隐藏状态向量、反向隐藏状态向量,将各个词相应的前向隐藏状态向量、相应的反向隐藏状态向量进行拼接,得到各词的拼接向量;通过目标域数据的各词的拼接向量形成目标域数据的文本特征表示,通过源域数据的各词的拼接向量形成源域数据的文本特征表示;其中,所述文本特征表示带有上下文信息;

将目标域数据的文本特征表示和源域数据的文本特征表示分别输入到图注意力机制模型,通过图注意力机制模型训练目标域数据的文本特征表示和源域数据的文本特征表示以获取各自的文本初步特征表示。

优选地,所述梯度反转层22具体用于:

将文本初步特征表示送入梯度反转层grl,通过grl训练文本初步特征表示;在文本初步特征表示反向传播过程中,在域分类器的域分类损失的梯度反向传播到特征提取器的参数之前自动取反,且在前向传播过程中恒等变化;通过在域分类的损失函数的域分类误差项前引入权重平衡参数表示前向传播与反向传播中梯度的相关变化,并通过域分类器训练引入权重平衡参数后的域分类的损失函数,得到模糊了文本领域性的文本通用特征表示。

优选地,所述辅助任务单元24具体用于:

通过投影机制将文本特征表示投影到互相垂直的二维空间向量上,得到文本特征表示第一分向量和文本特征表示第二分向量,所述文本特征表示第一分向量的起点与所述文本特征表示的起点相交,以及文本特征表示第一分向量与所述文本通用特征平行;

取文本特征表示与文本特征表示第一分向量之差,将文本特征表示投影在文本特征表示与文本特征表示第一分向量之差上,得到文本领域性特征;所述文本领域性特征用于在域分类器中进行训练以预测情感分类标签。

优选地,所述结果单元26具体用于:

在图域对抗模型的损失函数中,为设定域分类子模型的损失函数设定修订系数,当图域对抗模型的损失函数最小化时,对应于一固定的域分类子模型的损失函数设定修订系数;

将具有一固定的域分类子模型的损失函数设定修订系数的图域对抗模型的损失函数所对应的图域对抗模型最优图域对抗模型,采用最优图域对抗模型对文本进行文本情感领域分类。

本发明实施例所取得的有益效果如下:

基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。采用bilstm和图注意力网络进行特征提取,通过引入域分类器与grl实现文本通用特征表示的提取。在此基础上通过投影机制获取文本领域特征,实现跨域情感分类。该模型在sst和amazon数据集上的实验结果证明,与当前主流文本情感分类模型(也称为“情感分类子模型”)相比,图域对抗模型优于已有方法,泛化能力更强,具有较好的稳定性。

下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。

本发明为图域对抗模型应对文本情感领域性问题,在文本情感分类中,很多文本中均存在一些关键词汇表面上与分类无关,但对情感分类起到直接的影响。例如,在句子“我癌症晚期了”与“癌症是一种很常见的疾病”中,可以很明确的发现,词汇“癌症”在生活领域及医学领域的情感倾向是不同的。在生活领域中,“癌症”表现出极其负面的情感倾向,而在医学领域中,“癌症”一词却仅仅是简单的一个名词,其情感倾向相对中性化。尽管当前的深度学习模型已经可以通过其强大的特征学习能力取得不错的性能,但其处理以上问题存在严重不足。因此,本发明从一个全新的角度出发,提出一种基于对抗学习思想的情感分类模型(也称为“情感分类子模型”),旨在解决文本领域性问题并利用已知情感标签的源域数据对缺乏标记数据的目标域进行情感倾向性分析。图域对抗模型通过bilstm+图注意力网络进行特征提取,引入域分类器并通过梯度反转层捕获文本通用特征。此外,构造辅助任务以进一步捕获文本领域性特征应对文本领域性问题。在2个基准数据集上的大量实验结果表明,本发明提出的图域对抗模型的性能优于其他基准文本情感分类模型,在不同的跨领域对之间具有较好的稳定性。

本发明希望通过提高深度学习模型的特征表示能力以解决以上所提的文本情感分类问题,并在一定程度上解决文本情感分类标签严重缺失的问题。

本发明提出了一种新颖的方法用于提高深度学习模型的特征学习能力。本发明所提出的方法叫做图域对抗模型(graphdomainadversarialmodel,gdam)。图域对抗模型由两个子模型组成,分别是情感分类模型(情感分类子模型)和域分类模型(也称为“域分类子模型”)。两个子模型均通过bilstm+图注意力机制模型提取特征。提取特征后,情感分类模型采用grl来模糊文本的领域性以提取文本通用特征表示,提供更稳定的梯度,提供更有效的领域共享特征。域分类模型将学习到的文本通用特征表示通过构建投影机制进一步提取文本领域性特征表示,以完成文本情感分类。需要注意的是,尽管本发明所提方法中采用grl方法来提取通用特征,但本发明所提方法并不是生成对抗学习任务,只是采用对抗学习的思想。

在sst和amazon两个基准数据集上的实验结果表明,本发明所提图域对抗模型与当前的研究成果相比较具有较大的优越性,可有效解决当前文本情感分类中的文本领域性问题。

1.本发明通过引入域分类器与图域对抗模型grl方法,采用对抗学习的思想,充分学习文本领域间的通用特征,有效提高文本跨域情感分类。

2.本发明在学习到有效的文本通用特征后,通过构建辅助任务——投影机制,有效提取文本独有领域性特征,为解决文本领域性问题提供新思路。

3.大量的实验结果证明了本发明所提图域对抗模型在文本情感分类任务中的有效性,为不断发展的自然语言处理领域做出贡献。

一、形成模型

针对文本领域性问题,本发明通过对抗学习自动挖掘词汇间隐藏的关系以得到更好的领域间共享关系特征表达,从而提高模型的情感分类检测性能,并通过领域自适应的方法来缓解当前模型过度依赖领域监督的问题。首先,本发明使用bilstm+gat来作为基础模型,用于提取初步的文本特征表示。随后,本发明通过梯度反转层混淆目标域数据集与源域数据集来学习更加细粒度的领域共享的特征表达来进行序列的预测。具体而言,本发明通过为句子中的每个词提供一个领域判断器来判别该词所在的句子来自哪一个领域(源领域或者目标领域),并利用一个梯度反转层来对每一个词的关系向量进行领域的对抗学习,从而迷惑领域判断器来达到学习细粒度(词级别)的领域共享特征表示的目标以提高其分类能力,从而使得算法在不同数据集上具有更好的泛化能力,最终实现准确预测目标域输入文本的情感分类标签。

模型的整体架构如图3所示。整个模型分为两个部分。分别是常规的情感分类器和域分类器。如引言中所提到的一样,常规分类器的目标是提取带有领域偏移性的特征表示,域分类器的目标是提取混淆领域性之后的文本通用特征表示。此外,模型还可通过投影辅助任务获取文本领域性特征表示。

1.1模型基础假定

如图3所示,为混淆目标域数据集与源域数据集,实现在训练阶段取得域分类误差最大化的目标,本发明采用对抗学习的思想,构建基于bilstm+图注意力网络的跨域情感分类模型。该模型在训练过程中通过梯度反转层实现文本情感分类损失与域分类损失之间的相互平衡。

假定1:在模型中,文本输入x∈xd,其中xd代表文本输入空间;文本情感分类标签y∈yd,其中yd(yd={1,2,3,…,num_class})代表分类标签空间,num_class为文本情感分类类别数量。

假定2:假定两种数据分布:源域数据分布s(x,y)和目标域数据分布t(x,y)。假定训练样本为分别来自源域和目标域的边缘分布s(x)和t(x),n和m分别是源域与目标域样本数量。

假定3:定义di为第i个训练样本的域标签,其中di∈{0,1}。若di=0则xi~s(x),反之di=1则xi~t(x)。

1.2特征提取层

获取目标域数据和源域数据,通过双向长短期记忆网络bilstm和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据。

(1)通过bilstm模型分别对目标域数据的文本特征矩阵和源域数据的文本特征矩阵进行训练,针对每个词嵌入向量获取其前向隐藏状态向量、反向隐藏状态向量,将各个词相应的前向隐藏状态向量、相应的反向隐藏状态向量进行拼接,得到各词的拼接向量;通过目标域数据的各词的拼接向量形成目标域数据的文本特征表示,通过源域数据的各词的拼接向量形成源域数据的文本特征表示;其中,所述文本特征表示带有上下文信息。具体如下:

本发明采用bilstm+gat模型作为特征提取层。本发明将文本输入x在特征提取层的训练过程定义为gf(x;θf)。其中,θf代表特征提取层的相关参数。给定含k个词汇的语句x={w1,w2,···,wk-1,wk},其中,wk代表第k个词汇的词嵌入向量。每个词汇都可通过预训练word2vec词向量矩阵实现对输入文本的初始词嵌入处理,可得到文本特征表示矩阵m∈rk*dim,其中k是语句词汇量大小,而dim表示词嵌入维数。

通过bilstm模型对语句x进行有序训练,可得到带有上下文信息的文本特征表示h={h1,h2,…,hk}。其中表示词汇wk经过bilstm模型的拼接向量。注意,操作符||在这里表示拼接操作。

其中,分别是词汇wk经过前向lstmfw及反向lstmbw的隐藏状态向量。

(2)将目标域数据的文本特征表示和源域数据的文本特征表示分别输入到图注意力机制模型,通过图注意力机制模型训练目标域数据的文本特征表示和源域数据的文本特征表示以获取各自的文本初步特征表示。也就是:基于图注意力网络编码直接邻居的信息、具有预设层数的注意力网络中的节点只能受到与预设层数相同步数内的相邻节点的影响,分别将目标域数据的文本特征表示和源域数据的文本特征前一层的每个节点特征更新得到其在下一层的节点特征,直至将每个节点特征更新到与预设层数相同步数后得到各节点的最终状态特征,将目标域数据所有节点的最终状态特征作为其文本初步特征表示;将源域数据所有节点的最终状态特征作为其文本初步特征表示。具体如下:

文本特征表示h被送入gat训练。为了方便起见,本发明将节点i的第l层的输出表示为其中表示节点i的初始状态,l∈[1,2,...,l]。对于一个l层的图注意力网络gat来说,是节点i的最终状态。由于图注意力操作仅编码直接邻居的信息,因此一个l层图注意力网络gat其图中的节点只能受到l步内的相邻节点的影响。以下公式定义了如何对第l层第i个节点特征更新以其在得到第l+1层节点特征:

其中,wl是可训练线性变换权重矩阵,为线性变换后的节点i,为可学习权重向量,为节点i与节点j之间的原始注意力分数,为节点i在所有相邻节点n(i)上经过softmax操作后得到的注意力权重,σ是非线性激活函数,例如relu。

随后图域对抗模型分为两个分支:域分类网络gd(x;θd)和情感分类预测网络gy(x;θy),其中,θd代表域分类器的相关参数,θy代表情感分类预测网络的相关参数。不管是源域输入还是目标域输入的特征向量都会经过gd(x;θd)得到每个输入的域分类结果。同时,源域数据输入对应的特征向量则会经过gy(x;θy)的映射获得对应文本情感分类标签预测结果。

1.3梯度反转层

基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性。将文本初步特征表示送入梯度反转层grl,通过grl训练文本初步特征表示;在文本初步特征表示反向传播过程中,在域分类器的域分类损失的梯度反向传播到特征提取器的参数之前自动取反,且在前向传播过程中恒等变化;通过在域分类的损失函数的域分类误差项前引入权重平衡参数表示前向传播与反向传播中梯度的相关变化,并通过域分类器训练引入权重平衡参数后的域分类的损失函数,得到模糊了文本领域性的文本通用特征表示。

具体地,本发明在域分类器之前采用梯度反转层以实现真正意义上的端到端训练。训练过程定义为grld(gf(x;θf))。在反向传播过程中,域分类器的域分类损失的梯度反向传播到特征提取器的参数之前自动取反,同时在前向传播过程中实现恒等变换。所以在域分类误差项前且引入超参数λ作为权重平衡参数。其前向传播与反向传播中梯度的相关变化数学表示分别如公式(7)和公式(8)所示:

rλ(x)=x(7)

其中,i是一个单位矩阵;参数λ的值动态变化,并不是固定值。初步设定其变化表达式如公式(9)所示:

其中,p代表迭代进程相对值,即当前迭代次数与总迭代次数的比率;δ为10。

同时,在该模型中学习率也是随着迭代进程变换的,初步设定其变换公式如公式(10)所示:

其中,lr0为初始学习率,其值为0.001;α和β属于超参数,初始值分别为10和0.75。本发明将经过bilstm+gat网络训练后得到带有上下文信息的文本特征表示送入grl,随后被送入域分类器gd(x;θd)进行训练得到模糊了文本领域性的文本通用特征表示此训练过程定义为gd(grld(gf(x;θf));θd)。

1.4辅助任务

在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示,具体包括:

本发明在得到bilstm和gat网络训练后的文本特征表示hl和经过grl网络训练后的文本特征表示后,通过构建辅助任务——投影机制来获得为获得文本领域性特征表示

(1)通过投影机制将文本特征表示投影到互相垂直的二维空间向量上,得到文本特征表示第一分向量和文本特征表示第二分向量,所述文本特征表示第一分向量的起点与所述文本特征表示的起点相交,以及文本特征表示第一分向量与所述文本通用特征平行。

投影机制如图4所示,其中是二维空间的两个向量。分别是平行于和垂直于的两个分量。上投影。此训练过程定义为:gy(gp(gf(x;θf),gd(grld(gf(x;θf));θd));θy)。

本发明首先通过将hl投影到上:

其中,是投影机制。在本发明中,分别代表训练后的文本特征表示hl和经过grl网络训练后的文本特征表示

(2)取文本特征表示与文本特征表示第一分向量之差,将文本特征表示投影在文本特征表示与文本特征表示第一分向量之差上,得到文本领域性特征;所述文本领域性特征用于在域分类器中进行训练以预测情感分类标签,具体如下:

随后,本发明将hl投影在上得到文本领域性特征表示

1.5模型训练

本发明所构建的基于对抗学习的情感分类模型的目的是最小化源域分类误差项与最大化域分类误差项。由于本发明在域分类器中采用grl使得梯度在反向传播时取反,故域分类器的目标也变成了一个最小化问题,进而模型整体目标函数是最小化问题。

文本通用特征被送入域分类器(域分类子模型)训练以预测域标签:

文本领域性特征被送入情感分类器(情感分类子模型)训练以预测情感标签:

根据预测的域标签建立域分类子模型的损失函数;以及,根据预测的情感标签建立情感分类子模型的损失函数。此时,图域对抗模型的域分类损失lossd和源域情感分类损失lossy分别定义为:

其中,ld为域分类模型的损失函数,ly为情感分类子模型的损失函数。

根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类。

在图域对抗模型的损失函数中,为设定域分类子模型的损失函数设定修订系数,当图域对抗模型的损失函数最小化时,对应于一固定的域分类子模型的损失函数设定修订系数。

将具有一固定的域分类子模型的损失函数设定修订系数的图域对抗模型的损失函数所对应的图域对抗模型最优图域对抗模型,采用最优图域对抗模型对文本进行文本情感领域分类。

gdam模型的总损失函数可如公式(18)所示:

loss=lossy-λlossd(18)

其中,yi为第i个样本实际数据标签,di为第i个样本实际域分类数据标签。

二、实验对比

本节评估本发明提出的方法在2个基准数据集上的性能并在不同模型与本发明提出方法之间进行实验结果分析,以进一步验证本发明提出方法的有效性。随后,本发明通过消融研究进一步证明本发明所提出方法对文本情感分类任务带来的性能上的提高。最后,本发明提供一个案例分析以进一步揭示几个基准模型与本发明所提方法的差异。

表1数据集的统计信息

2.1数据集

本发明实验采用以下2个数据集(如表1所示):

1.thestanfordsentimenttreebank数据集:斯坦福大学发布的情感二分类数据集,由电影评论数据组成。包括6920条训练样本,872条验证样本,1821条测试样本。

2.amazon数据集,包括四个领域子集:books,dvd,electronics和kitchen。每个领域平均包含1000条正向评论和1000条负向评论,以及17668条未标记的评论。

2.2实验细节

本发明采用yelpchallenge数据集预训练的200维的word2vec向量矩阵来实现初始词嵌入。所有模型权重矩阵初始化采用均匀分布u(-0.25,0.25)。bilstm模型隐藏状态向量的维度设置为200。图注意力网络的层数l设置为2。批处理大小为64,源域和目标域各占一半。为减轻过拟合问题,本发明训练过程中应用dropout方法引入随机性并提高训练效率。此外,模型训练采用l2正则化来进一步减小过拟合。优化器应用自适应矩估计(adam)优化器。表2记录了实验所用全部参数。

本发明在amazon数据集上构建12个跨域对,而且还以amazon数据集的4个领域作为源域,增加b-sst2、d-sst2、e-sst2和k-sst2等4个领域对。第一部分实验将sst数据集训练集作为目标域的测试集,并将sst数据集测试集作为目标域的未标记数据集。第二部分实验测试集随机从目标域选取若干条。

表2实验参数设置

2.3基准模型

为全面评估gdam模型的性能,本发明选择准确率作为评估指标,并与以下基准模型进行对比分析:

1.scl模型。blitzer等提出的结构对应学习方法,使用互信息选取pivots,学习源域和目标域的低维特征表示。

2.dann模型。ganin等提出的对抗性表示学习方法,通过在领域分类器应用梯度反转层实现领域不可分并自动提取领域共享特征。

3.amn模型。li等提出的基于记忆网络和应用梯度反转层对抗性训练的方法。

4.hatn模型。li等在amn模型的基础上构建通过层次注意机制获取句子级别的特征融入到情感特征中,训练情感极性分类器,最后预测目标领域的情感极性。

5.haw模型。du等提出的基于wasserstein距离的分层注意力跨域模型,用于提取领域共享特征以实现跨越情感分类。

6.haw+模型。du等在haw的基础上,通过辅助任务提取领域独有特征,结合领域共享特征和领域独有特征,实现跨域情感分类。

2.4实验结果

在semeval和amazon两个数据集上的实验结果(如表3和表4所示)证明,本发明提出的gdam模型的性能要优于其他基准模型,进一步证明了gdam模型在文本情感分类任务上的有效性与鲁棒性。

从表3可看出,本发明提出的gdam模型在4个跨领域对上都达到最优性能。其平均准确率超过最好的基准模型hatn0.5%。gdam模型可通过bilstm和gat提取到足够的依赖关系。此外,本发明采用的域对抗学习策略能够提取文本领域性特征,通过蒸馏出一个更好的特征空间以提高情感分类模型的性能。同时,本发明采用域分类器估计两个领域的文本通用表示的操作也更好地实现领域共享的效果。

从表4可看出,本发明提出的gdam模型在amazon数据集上的12个跨领域对上都达到最优性能,这证明gdam模型有着较好的稳定性。本发明所采用的基准模型haw、haw+和hatn与其他3个基准模型相比,在12个跨领域对都达到不错的性能,其中hatn平均正确率达到0.855。本发明提出的gdam模型相比haw、haw+和hatn模型,平均正确率分别提高5.1%、4.1%、1.7%,主要原因在于本发明所采用的投影辅助任务可提取更有效的文本领域性特征。

对比haw模型,haw+模型在d-k和e-d两个跨域对上的准确率分别下降0.7%和0.2%,造成这一情况可能的原因是amazon数据集中的dvd子集中提取到的通用特征不多。同时,amn在e-k领域对的正确率达到0.868,出人意料地高于haw和haw+。

相比其它神经网络方法,传统方法scl由于过分依赖于核心特征的选择导致准确率较低。

表3不同模型在amazon与umich数据集上的实验结果

表4不同模型在amazon数据集上的实验结果

4.5消融研究

为了进一步检验gdam模型每个组件带来的收益水平,本发明通过比较gdam模型与三个变体模型进行消融研究:

basemodel:采用bilstm模型作为基准模型。

basemodel+gat:在bilstm模型上增加图注意力模型。

domainmodel:在bilstm+图注意力模型进行特征提取后,通过grl+域分类器提取文本通用特征。

fullmodel(gdam):在采用了域分类器的基础上增加辅助任务——映射机制。

实验结果(如表5所示)证明了本发明所采用的三个组件均对对igcn模型的性能具有一定的促进作用:

basemodel+gatv.s.basemodel:basemodel+gat的性能优于basemodel,准确率提升7.3%。这意味着仅通过双向机制并不足以学习到足够的上下文信息。同时,图结构上的注意力机制能更好的学习到有效的依赖关系。因此,图结构的引入为情感分类任务提供了不错的基础架构。

domainmodelv.s.basemodel+gat:basemodel+gat的正确率比domainmode低6.4%,这说明即使没有域适应方法减少领域间差异,仅基于本发明的特征提取网络结构也可达到较好效果。

fullmodelv.s.domainmodel:fullmodel的正确率比domainmodel高6.5%。这说明本发明所采用的映射机制能更大程度上有助于提取文本领域性特征,进一步提高模型在文本情感分类任务中的性能。

以bilstm模型的准确率为基准,以上实验结果均充分证明本发明所提模型在处理文本情感分类任务时的优越性。

表5消融研究结果

三、本发明所取得的有益效果:

针对现有方法在跨域情感分类任务中的不足,本发明提出基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。采用bilstm和图注意力网络进行特征提取,通过引入域分类器与grl实现文本通用特征表示的提取。在此基础上通过投影机制获取文本领域特征,实现跨域情感分类。该模型在sst和amazon数据集上的实验结果证明,与当前主流文本情感分类模型相比,图域对抗模型优于已有方法,泛化能力更强,具有较好的稳定性。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1