多模态的手语识别方法及装置与流程

文档序号：39093836发布日期：2024-08-21 11:19阅读：52来源：国知局

本申请涉及计算机，具体涉及一种多模态的手语识别方法及装置。

背景技术：

1、世界上聋哑人口数量众多，他们主要通过手语进行交流，但与没有手语学习基础的人进行交流时存在严重障碍。目前出现了多种手语识别的方法，例如通过摄像机对聋哑人作出的手语进行拍摄，再对拍摄视频中的手语动作进行识别，得到手语识别结果，但是当用户的两只手同时进行手语表达时，可能由于拍摄光线以及拍摄角度的影响，导致无法准确识别出用户的手语动作，降低了手语识别的准确度，不能准确理解用户所要表达的含义。

技术实现思路

1、本申请实施例提供了一种多模态的手语识别方法及装置，通过可穿戴设备分别识别用户的第一手部的运动信息、第二手部的动作图像以及面部图像，共同确定手语识别结果，提高了手语识别的准确率，准确理解用户所要表达的含义。

2、第一方面，本申请实施例提供一种多模态的手语识别方法，所述方法应用于可穿戴设备，该方法包括：

3、获取用户的第一手部的动作信息和至少一组连续画面图像，其中，所述第一手部上佩戴有所述可穿戴设备，所述动作信息是用户在进行手语动作的过程中由所述可穿戴设备的至少一个加速度传感器采集的，所述至少一组连续画面图像是用户在进行手语动作的过程中由所述可穿戴设备的至少一个摄像头进行拍摄的，所述至少一个摄像头与所述至少一组连续画面图像一一对应；

4、对所述至少一组连续画面图像进行区域分割，得到面部区域对应的至少一组第一连续面部图像，以及第二手部区域对应的至少一组第一连续动作图像；

5、对所述动作信息进行滤波得到手语特征数据，其中，所述手语特征数据包括第一手部的至少一个通道的第一肌音信号，所述至少一个加速度传感器与所述至少一个通道的第一肌音信号一一对应；

6、基于所述至少一个通道的第一肌音信号、所述至少一组第一连续面部图像以及所述至少一组第一连续动作图像，得到手语识别结果。

7、第二方面，本申请实施例提供一种可穿戴设备，该可穿戴设备包括：收发单元和处理单元；

8、所述收发单元，用于获取用户的第一手部的动作信息和至少一组连续画面图像，其中，所述第一手部上佩戴有所述可穿戴设备，所述动作信息是用户在进行手语动作的过程中由所述可穿戴设备的至少一个加速度传感器采集的，所述至少一组连续画面图像是用户在进行手语动作的过程中由所述可穿戴设备的至少一个摄像头进行拍摄的，所述至少一个摄像头与所述至少一组连续画面图像一一对应；

9、所述处理单元，用于对所述至少一组连续画面图像进行区域分割，得到面部区域对应的至少一组第一连续面部图像，以及第二手部区域对应的至少一组第一连续动作图像；

10、所述处理单元，用于对所述动作信息进行滤波得到手语特征数据，其中，所述手语特征数据包括第一手部的至少一个通道的第一肌音信号，所述至少一个加速度传感器与所述至少一个通道的第一肌音信号一一对应；

11、所述处理单元，用于基于所述至少一个通道的第一肌音信号、所述至少一组第一连续面部图像以及所述至少一组第一连续动作图像，得到手语识别结果

12、第三方面，本申请实施例提供一种电子设备，包括：处理器和存储器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

13、第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

14、第五方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

15、实施本申请实施例，具有如下有益效果：

16、可以看出，在本申请实施例中，通过获取用户的第一手部的动作信息和至少一组连续画面图像，其中，所述第一手部上佩戴有所述可穿戴设备，所述动作信息是用户在进行手语动作的过程中由所述可穿戴设备的至少一个加速度传感器采集的，所述至少一组连续画面图像是用户在进行手语动作的过程中由所述可穿戴设备的至少一个摄像头进行拍摄的，所述至少一个摄像头与所述至少一组连续画面图像一一对应；对所述至少一组连续画面图像进行区域分割，得到面部区域对应的至少一组第一连续面部图像，以及第二手部区域对应的至少一组第一连续动作图像；对所述动作信息进行滤波得到手语特征数据，其中，所述手语特征数据包括第一手部的至少一个通道的第一肌音信号，所述至少一个加速度传感器与所述至少一个通道的第一肌音信号一一对应；基于所述至少一个通道的第一肌音信号、所述至少一组第一连续面部图像以及所述至少一组第一连续动作图像，得到手语识别结果。通过可穿戴设备分别识别出用户在进行手语动作过程中两只手的运动信息以及面部图像共同确定出手语识别结果，具体包括第一手部的至少一个通道的第一肌音信号、至少一组第一连续面部图像以及第二手部的至少一组第一连续动作图像，得到手语识别结果，融合多种数据信息，提高手语识别结果的准确性，准确理解用户所要表达的含义；进一步地，相比于传统的通过摄像机拍摄或者他人拍摄的方式，用户可以直接通过可穿戴设备进行手语动作拍摄，提高了用户使用进行手语识别的便捷性，从而提升用户体验。

技术特征：

1.一种多模态的手语识别方法，其特征在于，所述方法应用于可穿戴设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个通道的第一肌音信号、所述至少一组第一连续面部图像以及所述至少一组第一连续动作图像，得到手语识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个通道的第一肌音信号，得到至少一个手语动作描述，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个手语动作描述、所述第二连续面部图像以及所述第二连续动作图像，得到所述手语识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一文本特征、所述第一姿势特征以及所述第二连续面部图像，得到所述手语识别结果，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种可穿戴设备，其特征在于，所述可穿戴设备包括：收发单元和处理单元；

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。

技术总结
本申请公开了一种多模态的手语识别方法及装置。该方法包括：获取用户的第一手部的动作信息和至少一组连续画面图像；对所述至少一组连续画面图像进行区域分割，得到面部区域对应的至少一组第一连续面部图像，以及第二手部区域对应的至少一组第一连续动作图像；对所述动作信息进行滤波得到手语特征数据，其中，所述手语特征数据包括第一手部的至少一个通道的第一肌音信号；基于所述至少一个通道的第一肌音信号、所述至少一组第一连续面部图像以及所述至少一组第一连续动作图像，得到手语识别结果。

技术研发人员：周长军,王京辉,王建辉,石竹,苑润泽
受保护的技术使用者：深圳疆泰科技有限公司
技术研发日：
技术公布日：2024/8/20

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周长军,王京辉,王建辉,石竹,苑润泽
技术所有人：深圳疆泰科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。