技术特征:
1.一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于,包括以下步骤:1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;其中,所述语言信息包括指示机器人目标位置的指令以及描述机器人所处环境的对话记录,所述对话记录包括当前位置即当前时刻产生的对话以及之前所有对话的集合,所述视觉信息包括机器人当前位置的全景图像信息;2)通过注意力机制对语言信息进行特征提取,获得语义特征;通过resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图像分类特征;通过faster
‑
rcnn和u
‑
net分别对视觉信息进行特征提取,获得目标检测特征以及语义分割特征;3)通过注意力机制将当前时刻和前一时刻的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征;4)将融合特征输入softmax分类器中进行当前时刻的移动方向预测,其中在每一时刻,机器人都通过融合特征预测移动方向,最后当预测结果为停止时,即到达目标位置。2.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于:在步骤1)中,所述机器人所处环境的对话记录是指两个人类用户在机器人所处环境中进行导航时产生的交流记录,其中,一个人类用户提取知道了整个室内环境的拓扑信息,通过与另一个人类用户的问答交流指示其行走;每一个对话记录用h
t
=d1,d2,...,d
i
,...,d
t
‑1表示,h
t
表示第t轮对话时的对话记录,d
i
表示第i轮对话;机器人所处环境的视觉信息对应的全景图像被表示为c,该全景图像被拆分为12个子图,分别表示12个方向,并表示为c=c1,c2,...,c
i
,...,c
12
,其中,c
i
表示第i个子图。3.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于:在步骤2)中,通过注意力机制对语言信息进行特征提取,获得语义特征,包括以下步骤:2.1)每个包含t轮对话的对话记录h以及每个包含l个单词的一轮对话记录d描述为:h={d1,d2,...,d
i
,...,d
t
}其中,d
i
表示第i轮对话,表示一轮对话中的第i个单词;2.2)将对话记录通过embedding层进行向量化,对应的向量化结果e描述为:e={g1,g2,...,g
i
,...,g
t
}g
i
={g1,g2,...,g
i
,...,g
l
}其中,g
i
表示语义地图中第i轮对话的embedding向量,一共t轮对话;g
i
表示一轮对话中第i个单词的embedding向量,一共l个单词;2.3)将对话记录的embedding向量通过lstm网络进行编码,获取特征向量,获取特征向量的过程描述为:{h
i,1
,h
i,2
,...,h
i,l
}=lstm({w
i,1
,w
i,2
,...,w
i,j
,...,w
i,l
})d
i
=h
i,l
其中,w
i,j
表示第i轮对话中的第j个单词的embedding向量,h
i,l
表示lstm网络的最后一个时刻的状态向量,用d
i
来表示h
i,l
,是由对话记录的前面t
‑
1个特征向量构成的特征矩阵;2.4)将对话记录的特征矩阵和当前对话的特征向量分别通过注意力机制进行融合,融合过程描述为:合过程描述为:合过程描述为:合过程描述为:其中,d
t
和d
i
分别表示状态向量h
t,l
和h
i,l
,a(d
t
,d
i
)表示向量d
t
对于d
i
的注意力,w
q
、w
k
、w
v
表示模型的参数,c表示向量d
t
和d
i
的维度;softmax表示softmax函数,concat表示向量的合并;是由注意力值和所有d
i
加权合并的结果,表示第t轮对话的对话历史对应的语义特征,由和d
t
合并得到;通过resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图像分类特征,通过faster
‑
rcnn和u
‑
net分别对视觉信息进行特征提取,获得目标检测特征以及语义分割特征:是指在每轮对话中,机器人来到新的位置,然后获取该位置下的全景视图,在t轮对话时的对应的全景视图表示为p
t
,将p
t
通过神经网络模型resnet152进行特征提取,得到的特征结果作为低阶视觉特征,表示为v
t
,得到的图像分类结果作为图像分类特征,表示为c
t
;将p
t
输入到faster
‑
rcnn网络中,得到的目标检测结果作为目标检测特征,表示为o
t
;将p
t
输入到u
‑
net网络中,得到的语义分割结果作为语义分割特征,表示为s
t
。4.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于:在步骤3)中,通过注意力机制将当前时刻以及前一时刻的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征,包括以下步骤:3.1)将低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与t
‑
1轮对话即t
‑
1时刻对应的融合特征进行融合,融合的过程描述为:征进行融合,融合的过程描述为:征进行融合,融合的过程描述为:征进行融合,融合的过程描述为:其中,v
t,i
、c
t,i
、o
t,i
、s
t,i
分别表示t轮对话的第i个子图的低阶视觉特征向量、图像分类
特征向量、目标检测特征向量、语义分割特征向量,它们分别是低阶视觉特征矩阵v
t
、图像分类特征矩阵c
t
、目标检测特征矩阵o
t
、语义分割特征矩阵s
t
的向量;表示t
‑
1时刻中获得的融合特征,f
v
和f
vlm
表示非线性映射函数,l表示的向量维度;融合后的低阶视觉特征向量、融合后的图像分类特征向量、融合后的目标检测特征向量、融合后的语义分割特征向量分别为向量分别为3.2)将融合的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与语义特征通过注意力机制进行进一步融合,其过程描述为:通过注意力机制进行进一步融合,其过程描述为:通过注意力机制进行进一步融合,其过程描述为:通过注意力机制进行进一步融合,其过程描述为:通过注意力机制进行进一步融合,其过程描述为:其中,v
tmem
、分别表示t轮对话时经过融合的低阶视觉特征矩阵、图像分类特征矩阵、目标检测特征矩阵、语义分割特征矩阵;表示t轮对话时的语义特征,经过和参数相乘,映射为h表示t轮对话时的语义特征的维度;softmax表示softmax函数;v
tattn
、分别表示经过注意力机制融合后的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征;3.3)将融合的特征经过lstm网络做进一步处理,并最终合并成最终编码特征,过程如下:下:下:下:下:其中,分别表示经过lstm网络处理的低阶视觉特征,图像分类特征、目标检测特征、语义分割特征;concat表示向量的合并;表示t轮对话对应的融合特征,即最终编码特征。5.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于:在步骤4)中,将融合特征输入softmax分类器中进行移动方向预测,包括以下
步骤:4.1)将最终编码特征用激活函数进行映射,其过程如下:其中,σ为sigmoid激活函数,f
m
为非线性映射函数,为激活结果;4.2)将激活结果经过softmax函数计算最后结果,过程如下:其中,softmax表示softmax函数,f
a
为非线性映射函数。
技术总结
本发明公开了一种基于自然语言和机器视觉实现机器人自主导航的方法,包括:1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;2)通过注意力机制对语言信息进行特征提取获得语义特征;通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征和图像分类特征;通过faster
技术研发人员:董敏 聂宏蓄 毕盛
受保护的技术使用者:华南理工大学
技术研发日:2021.05.31
技术公布日:2021/9/21