1.一种单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,包括:
s1、将获取的语料生成中文语句对;
s2、利用词向量模型将s1生成的中文语句对进行向量化,得到词向量;
s3、将s2得到的词向量输入lstm网络中得到语句对的上下文向量;
s4、利用选择门选取语句对上下文向量中的核心信息;
s5、将s4获取的核心信息输入匹配层完成信息匹配,通过信息匹配获取匹配向量;
s6、将匹配向量输入另外一个lstm网络中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过softmax函数得到语句对的相似度得分;
s7、计算经lstm网络输出所述语句对之间的类间损失,将原损失和类间损失进行加权融合,使得学习的特征类间间距更小。
2.根据权利要求1所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述步骤s2中,利用词向量模型将中文语句对进行向量化的具体为:构建词向量模型,所述词向量模型使用300维的glove初始化词向量,权重矩阵使用服从u(-0.01,0.01)的均匀分布随机初始化,偏移矩阵初始化为0;
将中文语句对经jieba分词后输入glove模型中,通过深度学习的方法不断改变网络的权重和偏置,得到每个词对应的向量;
语句p表示为p=[p1,p2,...,pi,...,pn],
语句q表示为q=[q1,q2,...,qi,...,qm],
其中,n表示句子p的词语长度,m代语句q的长度;
利用分布式词向量,将语句中的每个词映射为一个向量,
得到词表c∈r|v|×d,
其中,|v|表示词表的大小,d为词向量的维度;
将单词pi和qi分别映射为词向量wpi和wqi,
得到语句p的词向量矩阵
同理可得语句q词向量矩阵
3.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述步骤s3中将s2得到的词向量输入lstm网络中得到语句对的上下文向量的具体步骤为:
所述词向量矩阵wp和wq分别输入bi-lstm网络提取浅层语义;
为解决rnn网络梯度消失和爆炸问题,采用lstm网络,通过lstm网络捕获文本的长距离依赖关系;
具体为,lstm由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,其计算表达式如下所示:
ft=σ(wfwt+ufht-1+bf);
it=σ(wiwt+uiht-1+bi);
ot=σ(wowt+uoht-1+bo);
ht=ottanh(ct);
其中:ft为遗忘门的输出;it为输入门的输出;ot为输出门的输出;wf、wi、wo、wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;
4.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述s4中,利用选择门选取语句对上下文向量中的核心信息的具体步骤为:
通过lstm网络处理,得到p语句上下文的隐向量表达式矩阵:
和q语句的上下文向量表达式矩阵:
其中,
采用在文本摘要领域广泛应用的选择门提取语句对的核心特征,首先利用语句p和q的上下文隐向量构造其句向量,取语句p和q的隐藏层hn为句向量s,其计算表达式如下:
s=hn;
将句向量和hi作为输入去计算向量sgatei,首次挑选出句子中的关键信息,其计算表达式如下:
sgatei=σ(wshi+uss+b);
其中,ws和us是权重矩阵,b是偏置向量,σ是sigmoid激活函数,
其中,h′i为第i个语句的核心特征向量,i=1,2,…,l,l为文本中的语句数量。
5.根据权利要求2所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述s5将核心信息输入匹配层完成信息匹配的具体步骤为:
采用双向多视角匹配模型,将p或q的每一个时间步与q或p的所有时间步进行匹配;
首先定义一个多视角比较度量函数:
w=fw(v1,v2;w)∈rl;
其中,l是透视的数目,v1,v2∈rd,w∈rl×d是一个可训练的矩阵参数;每个分量wk∈w表示第k个视角的匹配值,它们通过两个加权矢量之间的余弦相似度进行计算:
z1=wk°v1;
z2=wk°v2;
其中,wk是的第k行,wk控制第k个透视图,并为不同维度的空间分配不同的权重;
基于上面定义的公式wk,采用全连接匹配、最大池化匹配、注意力匹配和最大注意力匹配四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
将上述四种匹配策略应用于句子p的每个时间步长,并将生成的八个向量连接为针对p的每个时间步的匹配向量:
6.根据权利要求1-5所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述s6将匹配向量输入另外一个lstm中得到语句对匹配信息的向量,将匹配向量经融合层变为一个固定长度的向量,通过softmax函数得到语句对的相似度得分,具体为:
将两个语句对序列得到的匹配向量分别通过bi-lstm网络,再将两个语句对序列输出的最后时间步长进行合并,得到固定长度的匹配向量,并送入两层前馈神经网络,在输出层中应用函数对整个通道的值进行归一化。最后,评估概率分布输出结果:
pr=(y|p,q)。
7.根据权利要求1-6所述的单选择门与类间度量的细粒度语义相似识别的方法,其特征在于,所述s7中,将匹配向量输入另外一个lstm中得到语句对匹配信息的向量进行类间损失计算具体为,将原损失和类间损失进行加权融合使得学习的特征类间间距更小;
类间损失的计算方法为:
其中v1和v2分别表示p和q语句。