基于边缘设备的实时手语识别与翻译系统及方法

文档序号:36404893发布日期:2023-12-16 10:56阅读:76来源:国知局
基于边缘设备的实时手语识别与翻译系统及方法

本发明属于手语识别与翻译,具体涉及一种基于边缘设备的实时手语识别与翻译系统及方法。


背景技术:

1、手语是听力障碍人士的主要交流方式,目前的手语研究工作主要包含两个方面:连续手语识别(cslr)和手语翻译(slt);连续手语识别的目标是将一个手语视频序列识别为对应的手语单词(gloss)序列,然而由于手语具备与自然语言不同的语法规则,所以识别出的手语单词序列往往不符合自然语法规则,很难被大众理解。而手语翻译的目标是将一个手语序列识别翻译为自然语言,由于翻译结果符合自然语言语法规则,也容易被大众理解。

2、目前的手语工作(包括连续手语识别与手语翻译)聚焦在利用2d卷积、3d卷积从视频中提取有效特征。然而现有的工作很少关注计算开销,它们需要强大的图形处理器(gpu)来参与计算,很难在具备普通计算能力(即未配置图形处理器)的边缘设备上运行。

3、有鉴于此,本发明提出了基于视觉方法、不需要高性能图形处理器(gpu)、可以在边缘设备上实现实时手语识别与翻译的技术。此外,本发明也可以运用于新型的人机交互场景,通过用户手势分析,完成手势对智能设备的指令控制。


技术实现思路

1、针对于上述现有技术的不足,本发明的目的在于提供一种基于边缘设备的实时手语识别与翻译系统及方法,以解决现有的手语翻译与识别技术需高性能算力平台,无法实现实时翻译的问题。本发明能够方便听障人士与普通人的交流,使得手语识别模型与翻译模型可以更广泛的部署应用。

2、为达到上述目的,本发明采用的技术方案如下:

3、本发明的一种基于边缘设备的实时手语识别与翻译系统,包括:视频数据采集模块、视频预处理模块、手语模型模块及结构重参数化模块;其中,

4、视频数据采集模块,用于采集手语视频数据;

5、视频预处理模块,包括:视频帧尺寸调整模块、数据归一化模块及视频帧灰度化模块;

6、所述视频帧尺寸调整模块,用于将采集到的手语视频帧缩放到统一的尺寸;

7、所述数据归一化模块,用于将调整尺寸后的视频帧的像素值从0-255归一化到0-1范围;

8、所述视频帧灰度化模块,用于将手语视频帧由rgb三通道图像转化为灰度图;

9、手语模型模块,用于得到手语模型,手语模型包括:区域表示子模型、图卷积子模型、文本生成子模型;

10、所述区域表示子模型,用于获得关键区域的特征表示,包括:躯干网络(bodynet)、面部网络(facenet)、左手网络(lhandnet)及右手网络(rhandnet);

11、所述躯干网络,用于将一个手语视频帧提取出骨骼点(鼻子、左手手腕、右手手腕三个关键点),并将视频帧提取为256维向量,根据上述骨骼点将对应的关键区域(面部区域、左手区域、右手区域)裁剪下来;

12、所述面部网络,用于将裁剪所得面部区域提取为256维向量;

13、所述左手网络,用于将裁剪所得左手区域提取为256维向量;

14、所述右手网络,用于将裁剪所得右手区域提取为256维向量;

15、所述图卷积子模型,用于获得手语视频的特征表示,包括:区域感知时空图(region-aware temporal graph)和浅层图卷积网络(s-gcn);

16、所述区域感知时空图g由节点v和边e构成,g=(v;e),其中v为节点集合,v={vi,j,i∈[1,n],j∈[1,4]},其中vi,j表示第i帧第j个节点,n表示输入视频帧的个数;该区域感知时空图用于提供后续图网络的基本输入,表示手语局部特征与全局特征的时空关系,为后续图卷积网络提取手语特征提供信息传递关系;

17、所述浅层图卷积网络由4个图卷积模块和1个全连接层构成,图卷积模块由1个1*1的卷积模块、1个残差图卷积模块(resgraphconv)、1个3*1的卷积模块、1个残差图卷积模块(resgraphconv)组合而成;浅层图卷积模块根据提取的手部特征、面部特征、全局帧特征以及区域感知时空图提取手势相关的特征向量,输出维度为1024的特征向量;

18、所述文本生成子模型,用于将手语视频的特征表示识别为手语单词序列,及将手语单词序列翻译为自然语言文本,包括:联结主义时间分类解码器和翻译模型;

19、所述联结主义时间分类解码器,用于将浅层图卷积模块的输出特征解码为对应的手语单词序列;

20、所述翻译模型,用于将解码得到的手语单词序列翻译为自然语言文本;

21、所述结构重参数化模块,用于对手语模型模块得到的手语模型进行优化,得到优化后的手语模型;并保证优化后的模型输出不变。

22、进一步地,所述视频帧尺寸调整模块包括:中心裁剪并调整大小到统一尺寸,视频大小调整采用开源计算机视觉库(opencv)的尺寸调整(reshape)函数,将图像调整到统一的尺寸。

23、进一步地,所述数据归一化模块通过除255将所有视频帧的像素值归一化到0-1。

24、进一步地,所述视频帧灰度化模块利用开源计算机视觉库(opencv)的颜色变换(cvtcolor)函数将rgb图像转化为灰度图。

25、进一步地,所述区域表示子模型采用修改的repvgg模型构建躯干网络,将一个视频帧提取出骨骼点(鼻子、左手手腕、右手手腕三个关键点),并将视频帧提取为256维向量,同时根据上述骨骼点将对应的关键区域(面部区域、左手区域、右手区域)裁剪下来,再构建面部网络、左手网络、右手网络分别将面部区域、左手区域、右手区域提取为256维向量;具体为:修改的repvgg模型采用残差网络(resnet18)作为基本架构,将残差结构用repblock模块替换,并在网络的第三阶段(stage 3)和第四阶段(stage 4)加入骨骼提取分支网络得到躯干网络;面部网络、左手网络、右手网络采用与躯干网络同样的结构,但不包含躯干网络中的骨骼提取分支网络;其中,

26、repblock:采用三个并行的分支,第一个分支是一个n*n的卷积与批标准化(batchnormalization)层,公式表达如下:

27、y=bn(wn(x)+bn)

28、其中,x为输入向量,y为输出向量,wn为n*n卷积核的权重系数,bn为偏置值,bn为批标准化(batch normalization)层,公式表示如下:

29、

30、其中,γ、β为可学习参数,分别为输入x的均值与方差;

31、第二个分支是一个1*1的卷积与批标准化层,公式表达如下:

32、y=bn(w1(x)+b1)

33、第三个分支是一个单一的批标准化层;

34、骨骼提取分支网络:由两个并行的反卷积组成,公式表达如下:

35、y=p1(d1(x))+p2(d2(x))

36、其中,x为输入向量,y为输出向量,d1、d2为反卷积(deconvolutiona)层,p1、p2为逐点(pointwise)卷积;骨骼提取分支将x输入向量转化为y输出向量,获得对应的骨骼热力图,然后从骨骼热力图中提取骨骼点坐标,再以提取的骨骼点为中心,将关键区域裁剪下来,得到左手、右手、面部区域的关键图片。

37、其中,面部网络、左手网络以及右手网络的网络结构与躯干网络主体结构相似,均为修改的repvgg模型,采用残差网络(resnet18)作为基本架构,将残差结构用repblock模块替换,但不包含躯干网络中的骨骼提取分支网络。

38、进一步地,所述图卷积子模型包括区域感知时空图(region-aware temporalgraph)和浅层图卷积网络(s-gcn);其中区域感知时空图g由节点v和边e构成,g=(v;e),对于第i帧,构建4个节点,分别由全局帧、面部区域、左手区域以及右手区域对应的特征向量构成;边集合e由帧内边(inter-frame)集合ea和帧间(intra-frame)边集合ee构成,帧内边集合ea={vipviq|i∈[1,n],(p,q)∈s},vipviq表示同一帧不同关键区域的边,s={(1,2),(1,3),(1,4),(2,1),(3,1),(4,1)},其中节点1-4分别表示全局帧、面部区域、左手区域、右手区域特征;帧间边集合ee表示为ea={vipvjp|i,j∈[1,n],|i-j|=1,p∈[1,4]},vipvjp表示相邻帧对应节点的边。

39、其中,浅层图卷积网络由4个图卷积模块和1个全连接层构成,浅层图卷积模块的1*1的卷积模块由一个repblock模块组成,其中repblock的第一个分支由n*n卷积核被替换为1*1卷积核;3*1的卷积模块由一个repblock模块组成,其中repblock的第一个分支由n*n卷积核被替换为3*1卷积核;残差图卷积模块由一个图卷积加残差连接组成,公式表达如下:

40、

41、其中,xij为图的第i帧第j个节点的特征向量,xi′j为更新后的节点特征向量,gcn(*)为图卷积函数,θ1、θ2为图卷积参数,n(ij)表示节点ij的邻居节点。

42、进一步地,所述联结主义时间分类解码器采用开源的ctcdecode库实现,将图卷积子模型的输出作为输入,根据输入找到概率和最大的路径作为最终解码路径并获得解码的手语单词序列;

43、所述翻译模型将联结主义时间分类解码器解码得到的手语单词序列作为输入,再翻译得到对应的自然语言序列,其包含字符级编码器(char-level encoder)、单词级编码器(word-level encoder)与transformer解码器;所述字符级编码器与单词级别编码器将手语单词映射为高维向量,transformer解码器将该高维向量作为输入解码得到自然语言文本;

44、具体地,对于一个手语单词表示第j个字符,nt表示字符总个数,字符

45、级编码器将映射为初始嵌入向量再用1d卷积convc和最大值池化mp[*]获得固定长度的字符级词嵌入向量et,公式表达如下:

46、

47、单词级编码器将手语单词gt通过词嵌入方法获得原始词向量rt,再采用1d卷积convw融合字符级词嵌入向量et得到最终的单词向量公式表达如下:

48、

49、其中,[·]表示向量拼接操作;

50、transformer解码器由3层自注意力模型(transformer)构成,解码器将上述词向量作为输入,以字符[sos]为开始标志逐步预测出最终的自然语言序列,并以字符[eos]为截止符号。

51、进一步地,所述结构重参数化模块对手语模型模块得到的手语模型进行优化,得到优化后的手语模型,用于识别与翻译手语数据;具体地,所述结构重参数化模块对手语模型模块得到的手语模型分支结构进行归约,使得多分支网络合并为单一分支;对于第一类分支,其为网络中所有的n*m的卷积层和批标准化(bn)层的组合,结构重参数化模块将两层合并为一个新的单一的n*m的卷积层,具体公式如下:

52、

53、其中,wn,m为n*m卷积核的权重系数,b为偏置值,bn为批标准化层,conv为卷积层,γ、β为可学习参数,分别为输入x的均值与方差;

54、通过上述合并,原有的卷积层与批标准化层合并为了一个新的卷积层,新的卷积层的卷积核为新的卷积层偏置值为

55、对于第二类分支,其为网络中repblock模块的第一个分支和第二个分支,其中第一个分支是一个n*n的卷积层与一个批标准化层的组合,通过上式(1)将卷积层和批标准化层合并为一个新的n*n卷积层,第二个分支是一个1*1的卷积层和一个批标准化层的组合,通过上式(1)将卷积层合并为一个新的1*1的卷积层,并采用0将卷积核填充获得n*n的卷积层;对于第三类分支,其为网络中所有的单一的批标准化层,等价为一个值为1的1*1的卷积层和批标准化层的组合,然后采用前述方式合并并填充为一个新的n*n的卷积层;将repblock模块中三个分支结构合并为一个卷积层,具体公式如下:

56、y=bn(wn(x)+bn)+bn(w1(x)+b1)+bn(x)

57、=wn′(x)+w1′(x)+w0′(x)+bn′+b1′+b0′

58、=(wn′+w1′+w0′)(x)+(bn′+b1′+b0′)

59、其中,wn′、w1′、w0′为合并批标准化层后的卷积层参数,bn′、b1′、b0′为合并批标准化后的偏置值参数,合并分支后新的卷积参数为wn′+w1′+w0′,合并后的偏置值为bn′+b1′+b0′;

60、通过结构重参数化将残差图卷积模块合并为一个图卷积层,公式表达如下:

61、

62、其中,i为单位矩阵,xi为图的第i个节点的特征向量,xi′为更新后的节点特征向量,gcn(*)为图卷积函数,θ1、θ2为图卷积参数;gcn*(*)为合并后新的图卷积层,n(i)表示节点i的邻居节点。

63、本发明还提供一种基于边缘设备的实时手语识别与翻译方法,基于上述系统,步骤如下:

64、1)获取手语视频数据;

65、2)对手语视频数据的每一帧图像进行中心裁剪,调整视频帧大小到统一尺寸;

66、3)对统一尺寸的手语视频的每一帧图像进行归一化;

67、4)将归一化的视频帧由rgb三通道图像转化为灰度图;

68、5)将一系列视频帧通过躯干网络提取出大小为256维的特征向量,以及骨骼点(鼻子、左手手腕、右手手腕三个关键点)的坐标;

69、6)根据上述骨骼点将对应的关键区域(面部区域、左手区域、右手区域)进行裁剪;

70、7)将裁剪所得面部区域通过面部网络提取为256维向量;将裁剪所得左手区域通过左手网络提取为256维向量;将裁剪所得右手区域通过右手网络提取为256维向量;

71、8)将获得的全局帧向量、关键区域向量构建成图,并通过图卷积获得手语视频特征;

72、9)基于上述手语视频特征训练得到手语模型;

73、10)对训练得到的手语模型的分支结构进行归约,将模型结构中所有的多分支结构合并为单一分支,获得优化后的手语模型;

74、11)基于优化后的手语模型,进行手语识别,并根据识别的手语序列进行翻译,得到自然语言文本。

75、本发明的有益效果:

76、本发明通过提取手语关键区域特征与全局帧特征,并将这些特征构建为一个区域感知时空图,利用浅层图卷积网络提取手语特征,并基于所提取的特征训练手语模型,采用结构重参数化技术优化模型,再采用优化后的模型将手语视频识别为单词序列及翻译为自然语言文本。

77、本发明在保证手语识别与翻译的性能情况下,将模型所需要的算力大幅度降低,实现了可以不依赖于高计算性能的图形处理(gpu)计算机,可部署在轻算力的只具备中央处理器(cpu)的边缘设备中的手语模型。从而,能够实时本地翻译手语,便于听障人士的日常交流,给用户带来更为自然的智能设备交流体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1