技术特征:
1.一种基于多特征点的连续手语识别方法,其特征在于,包括以下操作步骤:(1)将连续手语视频分割为单帧图像并按照时间顺序进行排列;(2)将每个手语视频对应的句子标签,按照实际中手语的表达方式进行分词处理;(3)对于步骤(1)得到的图像序列,采用人体姿态估计方法提取图像中人物身体、左右手、脸部的特征点;按照人体的身体结构将特征点进行自然连接,构成特征点的一阶特征;(4)将相邻关节的坐标分别相减提取骨骼的长度与方向,构成身体、左右手和脸部特征点的特征点的二阶特征;同时提取手部中心到身体重心的二阶特征,从中获得手部相对于身体的方向;最后将所述二阶特征和在所述步骤(3)中得到的一阶特征进行特征融合,得到融合特征;(5)将在所述步骤(4)中得到的融合特征,输入到自适应图卷积网络中,经过多个自适应图卷积层与时间卷积层处理后,捕捉其中的空间与时间信息,得到每个视频帧对应的多特征点向量;(6)利用编码网络,对在所述步骤(5)中得到的多特征点向量进行编码,基于自注意力机制的解码网络,将在所述步骤(2)中得到的单词编码为词向量,并通过分类层,将每个视频帧的多特征点向量与词向量进行对应,输出每个词向量的分类概率;(7)利用在步骤(6)中得到的词向量的分类概率、输出的句子长度作为输入,经过集束搜索算法输出每一时刻预测的词向量,并映射为完整的句子,实现连续手语识别;(8)同时,利用在步骤(6)得到的词向量的分类概率、经过单词编码后的句子标签、输入的视频帧长度、输出的句子长度作为输入,经过连接时序分类算法进行损失函数的计算,不断迭代优化网络进行模型的训练,从而提高连续手语识别的准确性。2.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(3)包括以下步骤:(31)构造人体姿态估计网络,其中包含两个分支,第一分支是置信度图s,第二分支是亲和度向量l;(32)首先由vgg网络产生一组特征f,作为每个分支第一阶段的输入;在第一阶段,网络利用卷积层ρ产生一组检测置信度图s1=ρ1(f),并利用卷积层φ产生一组亲和度向量l1=φ1(f),之后的每一个阶段的输入都来自于前一个阶段的预测结果和原始图像特征f,以产生更加精确的预测结果;(33)利用所述步骤(31)和步骤(32)的方式提取图像中人物身体的25个关节点,左手的21个关节点,右手的21个关节点以及脸部的68个关键点,并按照人体结构将特征点进行自然连接,构建特征点的一阶特征。3.根据权利要求2所述基于多特征点的连续手语识别方法,其特征在于,在所述步骤(31)中,包含两个分支的人体姿态估计网络,第一分支是置信度图s=(s1,s2,...,s
j
),其中j表示需要检测的关节数目;第二分支是亲和度向量l=(l1,l2,...,l
c
),其中c表示需要检测的关节对数目。4.根据权利要求2所述基于多特征点的连续手语识别方法,其特征在于,在所述步骤(32)中,产生更加精确的预测结果,第t阶段的结果表示为:
其中s
t
表示t时刻的置信度图;l
t
表示t时刻的亲和度向量;ρ
t
和φ
t
表示t时刻的卷积层;f表示输入特征;s
t
‑1表示t
‑
1时刻的置信度图;l
t
‑1表示t
‑
1时刻的亲和度向量。5.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(4)包括以下步骤:(41)利用图像中人体点位的重心,即人体胸腔部分作为中心点,把靠近中心点的关节看做源关节v1=(x1,y1,z1),远离中心点的关节看做目标关节v2=(x2,y2,z2);则多特征点的二阶特征e表示为:(42)利用所述步骤(41)的方法,构建人物身体、双手和脸部三个部分的骨骼向量,其中包括手部中心到身体重心的二阶特征,并将步骤(3)和步骤(4)得到的特征进行融合。6.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(5)包括以下步骤:利用步骤(4)融合后的特征,使用自适应图卷积网络提取上述特征的时间与空间信息,相关公式如下:其中f
in
表示输入的特征;f
out
表示输出的特征向量;k
v
表示输出的特征向量空间维度的核大小;k表示特征维度;w
k
表示权重;a
k
表示邻接矩阵;b
k
表示一个n
×
n的邻接矩阵,用于表示两个节点之间是否存在联系,且能通过训练不断调整关节之间联系的强弱;c
k
表示高斯嵌入函数,对于每个样本学习一个独有的关系图,用于捕捉关节之间的相似程度。7.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(6)包括以下步骤:(61)利用编解码网络的词嵌入层将得到的词汇映射为词向量,并捕捉当前词汇与前后词汇的上下文关系,相关公式如下:p(w
t
)=p(w
t
‑
m
,...,w
t
‑1,w
t+1
,....,w
t+m
|w
t
)其中w
t
表示当前时刻的词向量,w
t
‑
m
,...,w
t
‑1,w
t+1
,....,w
t+m
表示其他不同时刻的词向量,t表示当前时刻,m表示其他时刻到当前时刻的距离;(62)编解码网络的中间层主要包括重置门与更新门,分别有利于捕捉时间序列中的短期和长期依赖关系,网络向前传播的公式如下:r
t
=σ(w
r
·
[h
t
‑1,x
t
])z
t
=σ(w
z
·
[h
t
‑1,x
t
])])y
t
=σ(w
o
·
h
t
)式中t表示当前时刻;x
t
表示当前时刻的输入;h
t
‑1表示上一时刻的输出;z表示更新门;r表示重置门;表示更新门的激活值;w
r
表示重置门对应的权重矩阵;w
z
表示更新门对应的
权重矩阵;表示更新门激活后对应的权重矩阵;w
o
表示输出门对应的权重矩阵;[]表示矩阵的连接;*表示矩阵元素相乘;σ表示sigmoid激活函数;tanh表示双曲正切函数;则z
t
表示当前更新门的输出;r
t
表示当前重置门的输出;表示当前更新门的激活值输出;h
t
表示当前重置门的激活值输出;y
t
表示向前传播的最终输出;(63)本文同时训练两个编解码网络,一个采用正向学习,一个采用反向学习,将两者连接后得到双向编解码网络,总体公式如下:其中表示t时刻后向网络的输出;表示t时刻前向网络的输出;表示拼接操作;h
i
表示双向编解码网络的输出;(64)在解码网络中引入注意力机制,得到基于词汇级别的注意力机制的句子表示,并在此基础上引入基于句子级别的注意力机制,最后通过softmax函数构造分类器输出词向量的分类概率,相关公式如下:其中y表示预测的标签;s表示词向量集合;表示计算得到的隐藏状态;w表示线性映射的权重矩阵;b表示偏置项。8.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(7)包括以下步骤:设定集束搜索算法的宽度为n,该算法在解码网络每个时间t的输出中寻找概率最高的n个输出作为下一时刻的输入,并依次进行迭代,最后输出概率最高的n个翻译结果,并将t个词向量进行映射,转变为完整的句子表示。9.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,所述步骤(8)包括以下步骤:(81)由步骤(6)得到的输入概率分布矩阵为y=(y1,y2,...,y
t
),其中t为序列长度,最后映射为完整句子l的总概率可表示为:其中b(π)代表通过步骤(7)集束搜索算法变换后得到完整句子l的所有路径集合;而π代表其中的一条路径;(82)连接时序分类算法利用词向量概率y到完整句子l的映射概率,计算概率的负最大似然函数l,公式如下:l=
‑
ln p(l|y)将l作为网络的损失函数训练网络使得这个概率最大化,从而提高输出句子的准确性。10.根据权利要求1所述基于多特征点的连续手语识别方法,其特征在于,在所述步骤(7)中,根据步骤(7)得到的结果,选择其中与真实句子最接近的结果,并将每个时刻的词向量进行映射,最终转变为完整的句子表示,由此完成手语的翻译。
技术总结
本发明公开了一种基于多特征点的连续手语识别方法,首先将手语视频分割为视频帧,通过人体姿态识别模型提取视频帧中人物身体、双手、脸部的特征点,利用自适应图卷积网络提取特征点的特征,将手语视频对应的句子标签编码为单独的词向量;然后将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络,获得每个视频帧所对应的单词概率分布矩阵,再通过集束搜索算法进行搜索得到翻译后的句子;最后利用连接主义时间分类算法训练模型,优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征,利用视频特征与句子之间的对齐算法,增强了手语翻译的准确性与流畅性,对聋哑人和外界沟通具有重要的价值。要的价值。要的价值。
技术研发人员:金彦亮 吴筱溦
受保护的技术使用者:上海大学
技术研发日:2021.07.24
技术公布日:2021/12/10