一种室内环境机器人导航自然语言指令生成方法

文档序号：30950192发布日期：2022-07-30 07:11阅读：来源：国知局

技术特征：
1.一种室内环境机器人导航自然语言指令生成方法，其特征在于，包括以下步骤：s1、利用深度卷积神经网络提取机器人摄像头采集到的全景图像的图像特征向量；s2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接，形成对应的动作特征向量和全景图像特征向量；s3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算，使机器人关注环境中更重要的视觉内容；s4、采用序列到序列的transformer框架编码机器人的视觉和动作信息，在解码器端与带有遮罩的语言嵌入编码进行跨模态注意力融合，输出预测的语言结果；s5、在解码器的输出部分添加额外的辅助监督任务，辅助机器人学习输出句子与输入动作的对应关系，提升网络模型对输入与输出关系的表达。2.根据权利要求1所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s1中，深度卷积神经网络模型采用在imagenet上预训练好的resnet-152网络，以将图像输入resnet-152网络后前向推理得到的分类前最后一层输出作为图像特征向量。3.根据权利要求2所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的机器人摄像头采集到的全景图像包括36张子图像，包括分别在俯视、平视、仰视三个视角下12张相隔30度的观察图像，每张观察图像对应一个图像特征向量。4.根据权利要求1所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s2中，机器人的偏移角度包括动作偏移角度与视角偏移角度，动作偏移角度为机器人当前所处位置与上一时刻所处位置的偏移角度，视角偏移角度为机器人观察的全景图像所包含的每张子图像基于中心的偏移角度，偏移角度的表达式为：其中，γ为偏移角度，θ为偏移的航向角，为偏移的俯仰角。5.根据权利要求4所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s2中，动作特征向量a具体由全景图像中机器人正前方的子图像对应的图像特征向量与扩充数据维度后的动作偏移角度向量拼接而成，全景图像特征向量e具体由全景图像的全部子图像对应的图像特征向量与扩充数据维度后的视角偏移角度向量拼接而成。6.根据权利要求1所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s3中，多头注意力进行对齐和降维计算后的输出x的表达式为：q＝aw
q
k＝ew
k
v＝ewv其中，q、k、v分别表示线性变换后注意力机制的查询矩阵、键矩阵和值矩阵，w
q
、w
k
、wv分别为对动作特征向量a与全景图像特征向量e做线性变化的可学习权重，为k的维度。
7.根据权利要求1所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s4中，在使用transformer进行预测时，添加位置序列编码强调在时序上输入对输出的不同影响，对使用多头注意力对齐和降维计算后的输出x进行位置编码，则有：对输出的不同影响，对使用多头注意力对齐和降维计算后的输出x进行位置编码，则有：其中，pe
(pos,2i)
为嵌入编码第2i维度的位置编码值，pe
(pos,2i+1)
为嵌入编码第2i+1维度的位置编码值，pos为元素在输入序列中的实际位置，d
model
为嵌入编码的维度。8.根据权利要求7所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的transformer包括编码器和解码器两个部分，所述的编码器由多个多头自注意力模块、前向连接网络与残差连接构成，所述的解码器的每个模块包括交叉注意力、自注意力、前向连接网络与残差连接。9.根据权利要求8所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，在解码器中，对真值文本采取向右偏移一位，并做对角遮盖的操作，以保证文本的输入仅依赖于之前的预测，随后通过一层线性变换将文本转化为嵌入表达，并与来自编码器的输出结果做交叉注意力。10.根据权利要求8所述的一种室内环境机器人导航自然语言指令生成方法，其特征在于，所述的步骤s5中，在解码器的输出部分添加额外的辅助监督任务后，最终的损失函数loss的表达式为：loss＝λl1+(1-λ)ωl
222
其中，l1为采用交叉熵损失函数得到的预测值和真值之间的差异，l2为采用均方差函数得到的预测值和真值之间的差异，θ为网络参数，f
θ
(
·
)为网络的预测概率，为输出指令的第p个真实值，为输出指令中第1个到第p个真实值，z
l
为网络输出的第l个词汇对应的预测进程值，l为词汇总数，p(i'
j
)为当前词汇所在子指令i'
j
的序号，k为子指令的总段数，λ为控制两个损失函数比重的数值，ω为统一两个损失函数量级的数值，为第l个词
汇所对应的真实进程值。

技术总结
本发明涉及一种室内环境机器人导航自然语言指令生成方法，包括以下步骤：S1、提取机器人摄像头采集到的全景图像的图像特征向量；S2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接，形成对应的动作特征向量和全景图像特征向量；S3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算；S4、采用Transformer框架编码机器人的视觉和动作信息，输出预测的语言结果；S5、在解码器的输出部分添加额外的辅助监督任务，辅助机器人学习输出句子与输入动作的对应关系。与现有技术相比，本发明具有提升特征信息的利用程度、提升生成模型的精确度和泛化能力等优点。生成模型的精确度和泛化能力等优点。生成模型的精确度和泛化能力等优点。

技术研发人员：陈启军王柳懿刘成菊何宗涛
受保护的技术使用者：同济大学
技术研发日：2022.03.09
技术公布日：2022/7/29

完整全部详细技术资料下载

当前第2页1 2