本发明属于无人机控制领域,涉及一种无人机群智能协同多模态数据感知方法。
背景技术:
1、与单个无人机相比,无人机集群系统能协作完成更加复杂的任务,因此在军用和民用领域上都有广阔的应用前景。然而随着反无人机集群技术的发展,现有绝大部分集群很难满足高动态下智能化作战的要求,同时,人类的思维对不确定问题有更优异的分析处理能力。
2、目前,国内外对人机交互和集群智能都提出了一系列规划:美国战略与预算评估中心把人工智能辅助作战决策与指挥控制以及人机智能协同和自主作战作为支撑新的制胜机理和作战概念的核心技术,我国在《新一代人工智能发展规划》中列出的8项基础理论中有多项与集群智能直接相关。因此,如何让人更加高效地指挥无人机集群协同作战是当前的研究热点,其中,人机自动感应交互操作对于实现集群快速反应具有重要的战略意义。
3、目前,越来越多的研究选择多模态人机交互方法提升交互效率:同时利用视觉、文字和动作等通道的信息,实现结合多个通道的人机交互。
技术实现思路
1、针对无人机群多模态人机交互问题,本发明提供了一种人与无人机群手势、手形、语音协同多模态交互感知方法。该方法可以准确并高效的通过语言和手势实现人与无人机群智能协同多模态感知,从而有效提高无人机群多模态人机交互能力。
2、本发明的目的是通过以下技术方案实现的:
3、一种人与无人机群手势、手形、语音协同多模态交互感知方法,包括如下步骤:
4、步骤1:构建人与无人机群交互的语音识别模型
5、步骤1.1:采集多名不同年龄段男女性语音指令,并按照统一格式构建语音指令数据集;
6、步骤1.2:对步骤1.1构建的语音指令数据集中音频时域信号段去噪,并提取出音频时域信号的梅尔倒谱系数特征;
7、步骤1.3:将步骤1.2提取的梅尔倒谱系数特征输入到基于keras的神经网络模型;
8、步骤2:构建人与无人机群交互的手势识别模型
9、步骤2.1:手势指令数据库的创建
10、在不同光线、不同背景、不同距离的条件下采集若干个(例如≥5个,样本越多数据越准确)实验者的数据;
11、步骤2.2:数据预处理
12、对采集的样本图像进行预处理,具体步骤如下:采用基于全局的二值化算法大津阈值分割法根据图像灰度特征自适应滤除无关特征,然后使用canny边缘检测算法提取图像中边缘信息;
13、步骤2.3:手势识别卷积神经网络模型的创建
14、手势识别卷积神经网络模型主要包括3个卷积层c1、c2、c3、3个池化层s1、s2、s3、1个batchnormalization批归一化层bn和2个全连接层fc1、fc2,前6层由c1、c2、c3与s1、s2、s3交替叠加,再接1层bn,再接2层fc1和fc2,最后接输出层softmax;
15、步骤3:构建基于语音和手势双模型自主识别集群编队协同控制的交互框架,输入主要为手形、姿态、语音3个交互通道信息,用于获取手势和语音命令动作,采用基于双通道切换的通道融合实现机制,实现交互框架中的多模态交互。
16、相比于现有技术,本发明具有如下优点:
17、本发明通过构建基于语音和手势双模型自主识别集群编队协同控制和基于双通道切换的通道融合的交互框架来实现人与无人机群机多模态交互,可以准确并高效的通过语言和手势实现人与无人机群智能协同多模态感知。
1.一种人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述方法包括如下步骤:
2.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述控制指令包括:三角型编队、一字型编队、起飞、降落、匀速前行、左转、右转7种指令。
3.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述步骤1.1的具体步骤如下:
4.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述基于keras的神经网络模型的网络输入层为(-1,128,128,1),-1表示batchsize,(128,128)表示梅尔倒谱系数特征的特征数,1表示通道数;基于keras的神经网络模型的网络输出层包含7个对应7种声音指令的神经元用于输出每一类音频识别概率。
5.根据权利要求1或4所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述基于keras的神经网络模型的损失函数如下:
6.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述大津阈值分割法的具体步骤如下:
7.根据权利要求6所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述t的选取方法如下:
8.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述canny边缘检测算法主要包括图像去噪、计算图像梯度、非极大值抑制、滞后阈值,具体步骤如下:
9.根据权利要求1所述的人与无人机群手势、手形、语音协同多模态交互感知方法,其特征在于所述交互框架中融合了语音和手势两个通道的感知系统,其属于多模态交互,将其视为多元组形式: