技术特征:
1.一种采用双向长短期记忆网络的方面级情感分析方法,其特征在于,包括以下步骤:步骤1:数据预处理,具体为:进行数据清洗并将其词向量化,采用word2vec模型来将数据转换成向量形式,该矩阵维度为n
×
d,其中n是数据所包含的单词数,d为单个词向量的维度;步骤2:建立带有方面感知的双向长短期记忆网络,具体为:将步骤1得到的词向量作为双向长短期记忆网络的序列化输入,使模型分别从两个方向上提取文本的语义特征,同时把方面向量合并到双向长短期记忆网络单元中,设计三个方面门来控制分别被导入到输入门、遗忘门和输出门中的方面向量数量,最终获得每个时间步上的隐藏层状态和带有方面感知的句子整体表示;步骤3:建立基于多重注意力模型的encoder-decoder模型,具体为:在encoder-decoder模型中引入注意力机制,将双向长短期记忆网络输出的隐藏层状态与方面信息相结合,并进行注意力操作,最终提取特征表示;步骤4:情感极性分析,具体为:所用数据集经过步骤3的模型的训练建立不同方面与其相应情感词之间的联系,针对不同方面的文本经过全连接层和softmax函数后,输出待分类样本在每个情感分类上的概率,即可得到与不同方面相对应的情感极性。2.根据权利要求1所述的一种采用双向长短期记忆网络的方面级情感分析方法,其特征在于:步骤2所述的双向长短期记忆网络具体为:a
i
=σ(w
ai
[a,h
t-1
]+b
ai
)i
t
=σ(w
i
[x
t
,h
t-1
]+a
i
⊙
a+b
i
)a
f
=σ(w
af
[a,h
t-1
]+b
af
)f
t
=σ(w
f
[x
t
,h
t-1
]+a
f
⊙
a+b
f
))a
o
=σ(w
ao
[a,h
t-1
]+b
ao
)o
t
=σ(w
o
[x
t
,h
t-1
]+a
o
⊙
a+b
o
)h
t
=o
t
*tanh(c
t
)其中,x
t
为时间步长t对应的上下文词的输入嵌入向量,a为方面向量,h
t-1
为前一隐藏状态,h
t
为该时间步长隐藏状态,σ和tanh为sigmoid和正切函数,
⊙
表示元素的乘法,w
ai
,w
af
,w
ao
∈r
da
×
(dc+da)
,w
i
,w
f
,w
c
,w
o
∈r
dc
×
2dc
为加权矩阵,b
ai
,b
af
,b
ao
∈r
da
,b
i
,b
f
,b
c
,b
o
∈r
dc
为偏置,da,dc为方面向量维数和隐藏单元数,i
t
,f
t
,o
t
∈r
dc
分别代表输入门、遗忘门和输出门,a
i
,a
f
,a
o
∈r
da
分别代表方面输入门、方面遗忘门和方面输出门。3.根据权利要求1或2所述的一种采用双向长短期记忆网络的方面级情感分析方法,其特征在于:步骤3所述encoder-decoder模型包括编码模型和解码模型,编码部分对于长度为n的句子,隐藏层输出矩阵为h=[h1,h2,
…
,h
n
],生成句子的整体表示v
s
,满足:解码部分由方面注意力模块组成,其中模块数量n与数据集的方面总个数相同,即一个
方面注意力模块对应一个特定的方面;当输入句子包含有多个方面时,编码得到的输出h将被分别送入对应的方面注意力模块中,在每个方面注意力模块中,各有一个对应的方面信息,即方面向量v
ai
,首先,方面向量v
ai
与输入矩阵h中的每个隐状态进行拼接,再进行注意力计算,最后通过加权平均,获得有关特定方面的文本表示,具体为:e
ti
=tanh(w
ai
[h
t
,v
ai
]+b
ai
))其中,i为第i个方面注意力模块,w
ai
∈r
d+m
为注意力的权重矩阵,b
ai
为注意力的偏置项,e
ti
是t
i
时刻注意力分数,e
ji
是ji时刻注意力分数,α
ti
是注意力权重值。