基于自适应编码VisionTransformer网络的毫米波雷达手势识别方法

文档序号:35872300发布日期:2023-10-28 07:38阅读:85来源:国知局
基于自适应编码VisionTransformer网络的毫米波雷达手势识别方法

本发明涉及毫米波雷达手势识别,尤其涉及一种基于自适应编码visiontransformer网络的毫米波雷达手势识别方法。


背景技术:

1、由于fmcw雷达从回波信号中提取物体运动时的微动多普勒特征和俯仰方位角的技术较为成熟,故其运用在手势识别领域中为手势识别提供了额外的可选方案。fmcw雷达的手势识别有着许多较为传统的方案,其需要在特征提取后手动的从数据中分离出依赖相关领域知识的特征集合,然后再通过适当的机器学习模型,譬如svm支持向量机、k邻近、随机森林等常见算法模型,将这些特征向量分类为不同的类别,实现对手势的识别。

2、但随着深度学习的快速发展,其衍生出的各类模型都为手势的分类提供了更多的方案。同时深度学习模型还降低了对于手势特征提取的复杂度。已有学者采用三通道合成的手势特征数据进行cnn手势分类,取得了非常良好的效果。但因手势本身也具有其复杂性,在面对部分特征相似的手势,或特征不明显的手势仅仅使用cnn模型是不行的,所以有学者提出使用融合了通道注意力和空间注意力的多通道手势特征识别,如du等人提出的基于通道和空间注意机制的cnn增强多通道合成手势特征识别(参见文献:chuan du et al,“enhanced multi-channel feature synthesis for hand gesture recognition basedon cnn with a channel and spatial attention mechanism”,ieee access,2020,8:144610)。但目前现行的各类cnn分类都存在以下问题,

3、一是,全图注意力的方式会损失图像的局部特征,在应对差别较为细小的图像时其表现并不理想。

4、二是,已出现的cnn算法算力要求过大不适用于低算力部署的情况。

5、三是,没有考虑到图像自身像素点之间的信息的关联性,直接采取卷积使得其对于像素点间的关系被忽视。


技术实现思路

1、为解决背景技术中存在的技术问题,本发明提出一种基于自适应编码visiontransformer网络的毫米波雷达手势识别方法。

2、本发明提出的一种基于自适应编码vision transformer网络的毫米波雷达手势识别方法,包括:

3、利用毫米波雷达对待分类手势进行采集;

4、对采集到的手势回波数据进行特征提取,得到微动多普勒特征和俯仰方位角特征,并将微动多普勒特征和俯仰方位角特征按三通道合成rgb手势特征图;

5、利用去噪扩散隐式模型对rgb手势特征图进行扩充,得到拟合图像;

6、将拟合图像和rgb手势特征图混合形成数据集,并将数据集划分为训练数据集和验证数据集;

7、构建自适应编码vision transformer网络模型;

8、利用训练数据集对自适应编码vision transformer网络模型进行训练;

9、将验证数据集输入训练好的自适应编码vision transformer网络模型进行分类,得到分类结果。

10、进一步地,利用去噪扩散隐式模型对rgb手势特征图进行扩充,具体包括:

11、建立rgb手势特征图的扩散过程和噪声预测模型;其中,噪声预测模型采用u-net神经网络结构;

12、将rgb手势特征图按照扩散过程输入噪声预测模型,按照扩散过程对噪声预测模型进行训练,从而获得训练好的去噪扩散隐式模型;

13、利用训练好的去噪扩散隐式模型对rgb手势特征图进行扩充。

14、进一步地,去噪扩散隐式模型包括前向扩散过程和逆向去噪生成过程;

15、前向扩散过程,通过不断对rgb手势特征图x0添加高斯噪声,将原始数据分布变为正态分布,得到纯噪声图像xt;

16、在逆向去噪生成过程中,使用噪声预测模型将纯噪声图像xt从正态分布快速恢复到原始数据分布,得到拟合图像。

17、进一步地,噪声预测模型包括生成器和判别器;其中,将rgb手势特征图按照扩散过程输入噪声预测模型,按照扩散过程对噪声预测模型进行训练,从而获得训练好的去噪扩散隐式模型,具体包括:

18、对rgb手势特征图进行扩散加噪,得到扩散加噪后的图像及其噪声分量的方差;

19、将扩散加噪后的图像及其噪声分量的方差输入生成器,得到预测结果图像;

20、将rgb手势特征图和预测结果图像输入判别器,得到预测结果图像的质量信息;

21、根据预测结果的图像质量信息,对生成器和判别器进行优化,得到训练好的生成器和判别器;

22、将训练完成的生成器和判别器更新至快速去噪声预测模型中,得到训练好的去噪扩散隐式模型。

23、进一步地,预测结果图像的质量信息包括预测结果图像与rgb手势特征图对应的特征图的内核起始距离kid。

24、进一步地,判别器包括含输入层、resize层和inceptionv3模块和计算模块。

25、进一步地,自适应编码vision transformer网络模型包括:图像划分模块、patch编码模块、transformer encoder特征提取模块和mlp分类模块;

26、图像划分模块用于将图像划分为多个图像patch块;patch编码模块用于对每个图像patch块进行编码;其中,每一个编码后的图像patch块包括该图像patch块的位置信息和该图像patch块中像素点之间关系的信息;transformer encoder特征提取模块用于提取编码后的图像patch块的特征向量,mlp分类模块用于根据提取的特征向量进行分类。

27、进一步地,mlp分类模块包括第三归一化层、dropout层和三层全连接层。

28、进一步地,transformer encoder特征提取模块包括8个首尾依次连接的编码器块,每个transformer编码器块包括第一层归一化层、第二层归一化层、多头注意力层和多层感知机;

29、第一层归一化层的输入作为编码器块的输入,第一层归一化层的输出与多头注意力层的输入连接,且第一层归一化层的输入与多头注意力层的输出跳跃连接,且连接至第二层归一化层的输入,第二层归一化层的输出与多层感知机的输入连接,且第二层归一化层的输出与多层感知机的输出跳跃连接以作为该编码器块的输入。

30、进一步地,将验证数据集输入训练好的自适应编码vision transformer网络模型进行分类,还包括:

31、采用t-sne算法显示分类效果。

32、本发明中,所提出的基于自适应编码vision transformer网络的毫米波雷达手势识别方法,利用毫米波雷达对待分类手势进行采集,并对采集到的手势回波数据进行特征提取得到微动多普勒特征和俯仰方位角特征,并将微动多普勒特征和俯仰方位角特征按三通道合成rgb手势特征图,然后通过去噪扩散隐式模型对rgb手势特征图进行扩充,在得到一部分数据基础上省去了后续费时较长且结果不稳定的数据采集流程。此外,相较于传统分类算法svm支持向量机、k邻近、随机森林以及卷积神经网络,本发明采用自适应编码vit网络模型,完全抛弃了卷积提取特征和手动提取特征向量的方式,增强了其对局部信息的感知能力使得本发明计算复杂度降低,识别精度提高,且易于低算力状态下的部署。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1