一种基于RoBERTa模型的情感分析方法及装置

文档序号:30754886发布日期:2022-07-13 10:30阅读:617来源:国知局
一种基于RoBERTa模型的情感分析方法及装置
一种基于roberta模型的情感分析方法及装置
技术领域
1.本发明属于自然语言处理领域,尤其涉及一种基于roberta模型的情感分 析方法及装置。


背景技术:

2.随着互联网的推广,用户更加倾向于针对社交媒体或评论网站中公共事件 发表意见,设计基于网络平台中文本评论的情感分析任务,有助于相关方面了 解舆论倾向,掌握与舆论相关的社会事件所带来的影响。情感分析是自然语言 处理中的重要分支,常见形式为基于文本的情感极性分类,属于监督学习任务, 其目的是将来源于实际场景的评论作为输入,预测出他们的情感倾向。情感分 析技术可以用于收集观点,作为反馈信息,具有促进服务社会的实际意义。
3.基于传统机器学习的情感分类方法如支持向量机、构建情感词典、朴素贝 叶斯等,需要复杂的特征工程,且模型的精度表现依赖于样本质量。前馈神经 网络模型通过加深隐藏层提升模型对于深层次抽象语义特征的理解能力,但是 仍需要大量人工特征工程。卷积神经网络可以通过卷积窗口提取信息,并经过 多层卷积处理映射成情感类别,循环神经网络可以将不定长度的文本序列映射 成固定长度的词表征。中文网络文本情感分析数据具有情感倾向不强烈,包含 有标签数据量少的特点。基于transformer编码器的自注意力机制的双向编码 器模型bert和更具有鲁棒性的预训练模型roberta,通过自监督预训练的域适 应方式、大规模的参数量和训练强度使模型获得强大的特征提取能力和上下文 理解能力,可以在使用此类数据集的情感分析任务取得优于传统深度学习模型 的分类效果。
4.依据上述内容,本发明提出进一步预训练roberta模型,迁移此模型作为 基础模型外接用于学习长距离依赖独立循环神经网络(indpendently recurrentneturl network),引入注意力机制提升计算速度和拟合效果。本发明可以针 对如微博、知乎等网民评论和留言,进行有效的情感极性分类。


技术实现要素:

5.本发明为了解决上述缺陷,提出一种基于roberta模型的情感分析方法及 装置。
6.为解决上述技术问题,本发明所采用的技术方案是:
7.一种基于roberta模型的情感分析方法,包括:
8.获取情感分析数据集并进行预处理,得到训练集、验证集和测试集;
9.提取训练集和验证集中的评论文本转换成无标签数据集;
10.构建roberta-wwm-ext模型,将无标签数据集中的评论文本进行随机掩码 处理,得到掩码标志位,再通过对掩码标志位进行词预测的方式训练 roberta-wwm-ext模型,得到训练好的roberta-wwm-ext模型;
11.构建双向独立循环神经网络并训练,将完成掩码预测训练任务的 roberta-wwm-ext模型的最后一层隐藏层外接双向独立循环神经网络,得到最终 的情感分析模型,其中,
双向独立循环神经网络需要对双向独立循环神经网络 输出的特征向量进行权重分配;
12.获得最终的情感分析模型,将测试集中的评论文本输入情感分析模型进行 情感极性预测,输出情感类别标签。
13.本方法的进一步改进在于:所述提取训练集和验证集的评论文本转换成无 标签数据集包括:
14.将无标签数据集的格式转换成设定的表格形式。
15.本方法的进一步改进在于:所述构建roberta-wwm-ext模型,将无标签文 本进行随机掩码处理,得到掩码标志位,再通过对掩码标志位进行词预测的方 式训练roberta-wwm-ext模型,得到训练好的roberta-wwm-ext模型包括:
16.通过掩码预测的预训练过程,更新roberta-wwm-ext模型的参数,为 roberta-wwm-ext模型做情感分析任务时获得更合理的初始化。
17.本方法的进一步改进在于:所述构建双向独立循环神经网络并训练,将完 成掩码预测训练任务的roberta-wwm-ext模型的最后一层隐藏层外接双向独立 循环神经网络,得到最终的情感分析模型,其中,双向独立循环神经网络需要 对双向独立循环神经网络输出的特征向量进行权重分配包括:
18.样本序列编码为包含词向量、位置向量、段向量的输入序列,将其输入 roberta-wwm-ext模型由多头自注意力机制组成的核心处理层进行特征提取。构 建双向独立循环神经网络,用于处理roberta-wwm-ext模型最后一层 transformer层输出的全部隐藏向量,结合正向序列和反向序列的特征向量,学 习句子中的长距离依赖信息。
19.本方法的进一步改进在于:所述双向独立循环神经网络的结构式为:
20.h
t
=σ(wx
t
+u
⊙ht-1
+b)
21.式中,σ为relu激活函数,w为权重矩阵,x
t
代表t时刻的输入,u代表 循环层的权重,h
t-1
表示t-1时刻的序列输出,b为偏置,运算符

代表矩阵u和 h
t-1
对应位置相乘。
22.本方法的进一步改进在于:所述权重分配公式为:
[0023][0024]
其中,ui为隐藏状态信息的非线性化,uw是随机初始化注意力矩阵,αi用来 计算隐藏层中第i项对于文本序列在情感分析任务的信息相关度。
[0025]
本方法的进一步改进在于:所述情感分析模型通过交叉熵函数进行训练, 得到优化后的情感分析模型。
[0026]
一种基于roberta模型的情感分析装置,包括:
[0027]
获取模块,用于获取评论文本并进行预处理,得到训练集、验证集和测试 集,并提取训练集和验证集的评论文本转换成无标签数据集;
[0028]
第一构建模块,用于构建roberta-wwm-ext模型,将无标签数据集中的评 论文本进行随机掩码处理,得到掩码标志位,再通过对掩码标志位进行词预测 的方式训练roberta-wwm-ext模型,得到训练好的roberta-wwm-ext模型;
[0029]
第二构建模块,用于构建双向独立循环神经网络并训练,将完成掩码预测 预训练任务的roberta-wwm-ext模型的最后一层隐藏层外接双向独立循环神经 网络,得到最终的
情感分析模型,其中,双向独立循环神经网络需要对双向独 立循环神经网络输出的特征向量进行权重分配;
[0030]
输出模块,将测试集中的评论文本输入最终的情感分析模型进行情感极性 预测,输出情感类别标签。
[0031]
由于采用了上述技术方案,本发明取得的技术进步是:本技术设计了自监 督掩码语言模型预训练任务,充分利用有限数据,将领域内的语义知识编码到 模型层面。迁移完成预训练的roberta-wwm-ext模型,保留了大型神经网络模 型的超强特征提取能力,roberta-wwm-ext模型最后一层全部隐藏状态信息作为 双向独立循环神经网络的输入,可以获得全局性的上下文结构知识。本技术提 出了设计注意力机制可以使模型更关注对于情感分析任务更有作用的特征信息, 加快计算过程。本发明可以针对情感分析任务中训练数据的低资源型,中文社 交平台评论以及留言的语义结构复杂,文本跨度大的特点设计模型,可以有效 提升文本情感分析的精度表现。
附图说明
[0032]
图1为本发明情感分析系统的模型图;
[0033]
图2为本发明双向独立循环神经网络结构简化图。
具体实施方式
[0034]
下面结合附图对本发明做进一步详细说明:
[0035]
如图1所示,本发明提出了一种基于roberta模型的情感分析方法及装置, 该方法包括以下步骤:
[0036]
获取情感分析数据集并进行预处理,得到训练集、验证集和测试集;
[0037]
提取训练集和验证集的评论文本转换成无标签数据集;
[0038]
构建roberta-wwm-ext模型,将无标签数据集中的评论文本进行随机掩码 处理,得到掩码标志位,再通过对掩码标志位进行词预测的方式训练 roberta-wwm-ext模型,得到训练好的roberta-wwm-ext模型
[0039]
构建双向独立循环神经网络并训练,将完成掩码预测训练任务的 roberta-wwm-ext模型的最后一层隐藏层外接双向独立循环神经网络,得到最终 的情感分析模型,其中,双向独立循环神经网络需要对双向独立循环神经网络 输出的特征向量进行权重分配;
[0040]
获得最终的情感分析模型,将测试集中的评论文本输入情感分析模型进行 情感极性预测,输出情感类别标签。
[0041]
基于上述的一种基于roberta模型的情感分析方法的装置,包括:获取模 块、第一构建模块、第二构建模块和输出模块。
[0042]
其中,获取模块用于获取情感分析数据集并进行预处理,得到训练集、验 证集和测试集,并提取训练集和验证集的评论文本转换成无标签数据;第一构 建模块用于构建roberta-wwm-ext模型,将无标签数据集中的评论文本进行随 机掩码处理,得到掩码标志位,再通过对掩码标志位进行词预测的方式训练 roberta-wwm-ext模型,得到训练好的roberta-wwm-ext模型;第二构建模块用 于构建双向独立循环神经网络并训练,将完成掩码预测训练任务的 roberta-wwm-ext模型的最后一层隐藏层外接双向独立循环神经网络,
得到最终 的情感分析模型,其中,双向独立循环神经网络需要对双向独立循环神经网络 输出的特征向量进行权重分配;输出模块用于通过最终的情感分析模型,对测 试集中的评论文本进行情感极性预测,输出情感类别标签。
[0043]
特别说明的是,评论文本可以来自网络,可以用b站、微博、快手等中的 评论文本。
[0044]
下面结合实施例如下:
[0045]
步骤1:情感分析数据集来自datafountain的开源数据集,样本来源于微 博中真实内容,包含90万无标签微博评论和10条人工标注的可用于监督学习 的数据。获取数据集后,首先筛除10万条有标签数据中的错误标注和评论文本 形式为乱码的样本数据。将初步过滤后的标注数据中,共包含情感类别为积极 的样本25365、中性样本数目为57277、消极样本数目为16896,随机地抽取有 标签数据并按照8:1:1比例划分情感分析任务训练集、验证集、测试集。
[0046]
步骤2:提取情感分析数据集的训练集和验证集,去掉情感极性标签作为无 标签数据。引入大规模无标注微博评论内容扩充无监督数据集,对每个评论样 本逐行保存整理为utf-8格式。
[0047]
步骤3:加载roberta-wwm-ext模型进行自监督掩码预测的进一步预训练, 针对中文任务的双向编码器模型优化研究中,采用全词掩码策略能降低词义不 确定性加快计算速度。以百分之十五的概率对完成步骤2中预处理的无监督数 据集进行随机掩码,通过预测还原[mask]位置原有词,训练roberta-wwm-ext模 型获取双向语义信息。如句子:“如果出现发热,一定要好好注意。”掩码处 理后得到“如果出现[mask][mask],一定要好好注意。”自监督掩码语言模型 (mask language model,mlm)的训练损失函数如下:
[0048][0049][0050]
其中x为输入预训练模型的token序列{[s],x1,...,xn[/s]},m(x)表示被 mask掉的token集合,x\
m(x)
是输入序列中未被替换的token,η是模型mlm训 练时学习率,λ是l2正则化参数用于稳定调整模型参数θ数值,避免过拟合。
[0051]
步骤4:迁移完成步骤3的roberta-wwm-ext模型获得比原始模型更合理的 初始化参数,使用非线性化、层正则化、全连接的方式搭建以indrnn为基础单 元的双向循环网络,其基础内部结构如图2,roberta-wwm-ext模型的最后一层 所有隐藏状态作为双向独立循环神经网络输出。indrnn基本单元能改善神经网 络中的梯度消失、梯度爆炸的问题更有利预处理序列化的长依赖关系,结构表 达式如下:
[0052]ht
=σ(wx
t
+u
⊙ht-1
+b)
[0053]
在式中σ表示relu激活函数,w是权重矩阵,x
t
代表t时刻的输入,u代 表循环层的权重,h
t-1
表示t-1时刻的序列输出,b为偏置,运算符

代表矩阵u 和h
t-1
对应位置相乘。使用双向网络结构学习全局语义特征,将indrnn正向输出 和反向输出进行拼接,其表达式如下:
[0054][0055]
步骤5:结合注意力机制为双向独立循环神经网络的输出向量分配权重,为 特征向量中重要词表征引入更多的关注,具体计算流程如下:
[0056]
ui=tanh(w
w hi+bw)
[0057][0058][0059]
将双向独立循环神经网络输出的隐藏状态hi进行非线性激活得到ui,ww是 权重矩阵参数bw是偏置参数。αi是权重参数,vi是经过分配权重处理后的特征向 量。
[0060]
步骤6:利用softmax分类器判别注意力机制输出的文本特征的类别属性, 公式为:
[0061][0062]
其中ww是权重参数,bi为偏置,vi是分类器的输入。使用梯度下降法训练模 型的参数,交叉熵损失函数表达式如下:
[0063][0064][0065]
k是情感分类的类别总数,yi是样本对应的真实情感类别标签,是模型预 测出的情感标签,λk是l2正则化系数,θ为模型参数集合,γ是当前层更新参数 的学习率。
[0066]
为了说明本发明的实用性和有效性,以下给出具体的实验方案,测试集评 估指标为准确率acc和宏f1。超参数设定如下:掩码语言学习阶段的训练轮次 为3,随机失活概率为0.1,学习率5e-5,批次大小为64,l2正则化系数为1e-5。 情感分析任务的训练轮次为4,学习率5e-5,批次大小32,正则化系数为1e-5 其中独立循环网络隐藏层维度为128维,随机失活概率设为0.5。预训练阶段和 情感分析任务微调阶段设置最大文本长度256,使用adam优化器多次迭代修正 参数。基于情感分析,使用测试集进行情感极性三分类{积极、中性、消极}, 精度表现为准确率74.49%,f1值为71.23%。
[0067]
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发 明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员 对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定 的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1