一种基于声波感知的端到端连续手势输入方法

文档序号：34725182发布日期：2023-07-07 19:52阅读：39来源：国知局

本发明涉及手势识别，更具体地，涉及一种基于声波感知的端到端连续手势输入方法。

背景技术：

1、随着智能设备的多样化，如智能耳机，智能眼镜，智能手表，智能车载，智能音响，智能家具等，智能设备的尺寸，形态变得越来越丰富。智能设备本身也不再像以往，必须配置有键盘，甚至屏幕也不一定配备。面对这样的变化，人与智能设备的交互技术也迎来了新的挑战，即如何利用智能设备本身配备的传感器实现高效、自然的交互。当前，利用声波作为感知媒介的人机交互方案已经被广泛研究，但已有的工作只能够对离散的手势进行识别，即手势之间需要有明显的停顿，形成时间上的隔离。尽管此种方案对于一些简单的交互任务能够满足需求，但是对于文本输入这样的交互需求，却显得举步维艰。因为单词的长度是不同的，这就导致不同的单词的样本长度是不同的，且单词的数量非常庞大，所以无法如同以往的思路，将每一个单词作为一个离散的手势进行识别。

2、手势识别任务，首先需要预先设定手势集合，每个手势对应一个标签。其次，再选用一种或多种感知媒介对手势信息进行捕捉，常见的感知媒介如，视觉，wi-fi，射频信号，惯性传感器，声波等。其中，视觉、wi-fi和射频信号都需要额外的设备作为辅助，而惯性传感器若是应用于可穿戴设备上，则需额外的辅助设备，而声波则是例外，因为现在已有的智能设备基本都配备了至少一组声音收发器(如麦克风和扬声器)。传统的手势识别交互技术基本将任务设定为识别任务，在选择其中的一种或多种感知媒介采集完数据之后，通过识别模型(如深度神经网络)进行一对一的分类，即只能够针对单一离散手势的识别。

3、在现有技术中，手势识别分为离散型的手势识别技术和连续型手势识别技术。传统的离散型手势识别技术只针对离散的手势，这些方案主要利用感知媒介对不同手势的特异性反应，如超声波的多普勒效应(dopplereffect)对手势活动进行物理建模，由于不同的手势引起的声波频率的变化模式不同，从而能够区分出不同的手势。利用该特性构建离散的手势集合，将该特征作为深度神经网络的输入进行手势识别。同样的，还有基于wi-fi信号，视觉信号等技术方案。这种方式假设每一次交互都只使用一个手势信号，应用场景窄，不适应于连续的手势交互，并且对新用户和新环境的使用效果不佳。

4、如上所述，传统的手势识别任务只能够针对离散手势的识别，但是就文本输入这样的交互任务而言，传统的手势识别任务有很大的局限性。针对该问题，有学者创新性的将手势识别任务转化为手势翻译任务，将原本必须视为单一手势的输入转化为一个时序手势输入，不再拘束于一个样本内存在多少个手势。借助语音翻译领域的技术路线实现了对连续手势的识别。但是当前已有的工作的应用面窄，只能应用于智能手表这种设备，此外，需要采集大量的连续手势样本对模型进行训练，而且需要用户提供部分数据，导致用户有较高的使用成本。

5、综上，在现有技术中，传统的离散手势识别技术若应用到文本输入上，则不符合用户的自然书写规律。因为用户更习惯于以单词为基本单位进行书写，而不是以字符为单位进行书写。而最新的连续手势识别技术，首先是以惯性传感单元作为信息传递媒介，故而需要佩戴具有惯性传感单元的智能设备，也就是需要额外的设备来辅助输入，从而影响了用户体验。此外，已有的工作在多系统模型进行训练时，需要采集大量的单词级数据，同时为了提高新用户的使用效果，还需要用户提供一部分个人数据对系统进行定制，这将给系统的搭建和用户带来较高的使用代价。

技术实现思路

1、本发明的目的是克服上述现有技术的缺陷，提供一种基于声波感知的端到端连续手势输入方法。该方法包括以下步骤：

2、利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号；

3、从所述声波序列信号检测出独立的连续或离散的字符手势数据，并合成伪单词数据，进而形成等大小窗口的声波序列；

4、将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型，识别出每一个时间片对应的一个字符手势；

5、根据ctc的编码规则，将连续字符对应的时间片进行合并，得到用户连续文本手势。

6、与现有技术相比，本发明的优点在于，提出了基于声波感知的端到端连续文本输入方法，将连续文本手势识别转化为类翻译问题，并借助ctc(connectionisttemporalclassification)技术解决连续文本识别所带来的输入与输出序列长度不一，难以为数据标注标签的问题，从而实现了单词级的文本书写。

7、通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

技术特征：

1.一种基于声波感知的端到端连续手势输入方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，通过以下步骤训练所述连续文本手势识别模型：

3.根据权利要求2所述的方法，其特征在于，对所述数据集进行预处理以构建训练数据集包括：

4.根据权利要求3所述的方法，其特征在于，根据以下步骤检测出每个手势对应的时频图：

5.根据权利要求2所述的方法，其特征在于，所述伪连续字符手势数据集根据以下步骤合成：

6.根据权利要求2所述的方法，其特征在于，所述语言模型是双向长短时记忆网络。

7.根据权利要求1所述的方法，其特征在于，训练所述连续文本手势识别模型过程中，采用ctc损失作为损失函数，训练的优化目标是在给定的输入x下，最大化输出y对应x的后验概率p(y|x)。

8.根据权利要求1所述的方法，其特征在于，所述音频收发器是扬声器和麦克风，用户使用手指在扬声器和麦克风附近区域进行连续或离散的字符书写，书写过程中，手指对扬声器发送的声波信号产生与手指运动对应的影响，并反射声波信号，麦克风接收该反射声波信号，作为采集的声波序列信号。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本发明公开了一种基于声波感知的端到端连续手势输入方法。该方法包括：利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号；从所述声波序列信号检测出独立的连续或离散的字符手势数据，并合成伪单词数据，进而形成等大小窗口的声波序列；将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型，识别出每一个时间片对应的一个字符手势；根据CTC的编码规则，将连续字符对应的时间片进行合并，得到用户连续文本手势。本发明能够根据采集的声波信号，实现连续手势书写输入。

技术研发人员：邹永攀,郑灿林,陈威宇,伍楷舜
受保护的技术使用者：深圳大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹永攀郑灿林陈威宇伍楷舜
技术所有人：深圳大学
我是此专利的发明人

上一篇：一种高刚度高强度三维点阵结构的设计方法
上一篇：天花板底单元幕墙安装系统及其施工方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。