本发明涉及计算机领域,尤其涉及一种无监督多视角多模态智能眼镜图像配准方法及装置。
背景技术:
获取环境图像是避障的重要条件,目前有多种获取图像的设备,如rgb相机、结构光相机、tof相机等,每种相机各有其优缺点及适用场景,单独使用某一种相机无法适应实际场景,因此在避障场景下通常多种相机组合使用。而多种相机因为其摆放位置、成像时间、成像形式的不同,成像结果差异较大,因此将多视角多模态图像信息融合是避障任务中重要技术环节。
技术实现要素:
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的无监督多视角多模态智能眼镜图像配准方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种无监督多视角多模态智能眼镜图像配准方法,包括:交替训练辅助特征提取网络和高维特征相似度判别网络,利用辅助特征提取网络提取的相同模态图像和/或不同模态图像,相同视角和/或不同视角图像对对高维特征相似度判别网络进行训练;辅助特征提取网络的输入图像为模板图像和待配准图像,输出为高维特征向量;高维特征相似度判别网络采用卷积神经网络,输入数据为辅助特征提取网络输出的高维特征,输出为0至1的数值;固定高维特征相似度判别网络以及辅助特征提取网络,训练配准网络,其中,配准网络的输入为待配准图像和模板图像以及二者的差分图像,中间层插入辅助特征提取网络输出的高为特征向量,输出为稠密配准场;采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像。
其中,训练配准网络包括:计算配准后的图像与模板对象的相似度作为相似度损失函数,加入配准场的正则化损失函数,训练配准网络。
其中,高维特征相似度判别网络采用resnet分类网络架构,辅助特征提取网络采用resnet分类网络架构,配准网络采用unet结构。
其中,辅助特征提取网络将尺寸为h*w*l的两幅图像拼成大小为h*w*l*2的图像对;配准网络将尺寸为h*w*l的两幅图像及其二者的差分图像拼成大小为h*w*l*3的图像对。
其中,采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像包括:将尺寸相同均为h*w*l待配准图像和模板图像以及待配准图像和模板图像的差分图像组合形成尺寸为h*w*l*3的图像对输入到配准网络及辅助特征提取网络;经过下采样通路得到抽象特征,将抽象特征与辅助特征提取网络提取到的高维特征组合起来,共同进入上采样通路;输出尺寸为h*w*l*3的稠密配准场,利用配准场采样原图获得配准后的图像。
本发明另一方面提供了一种无监督多视角多模态智能眼镜图像配准装置,包括:第一训练模块,用于交替训练辅助特征提取网络和高维特征相似度判别网络,利用辅助特征提取网络提取的相同模态图像和/或不同模态图像,相同视角和/或不同视角图像对对高维特征相似度判别网络进行训练;辅助特征提取网络的输入图像为模板图像和待配准图像,输出为高维特征向量;高维特征相似度判别网络采用卷积神经网络,输入数据为辅助特征提取网络输出的高维特征,输出为0至1的数值;第二训练模块,用于固定高维特征相似度判别网络以及辅助特征提取网络,训练配准网络,其中,配准网络的输入为待配准图像和模板图像以及二者的差分图像,中间层插入辅助特征提取网络输出的高为特征向量,输出为稠密配准场;预测模块,用于采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像。
其中,第三训练模块通过如下方式训练配准网络:第三训练模块,具体用于计算配准后的图像与模板对象的相似度作为相似度损失函数,加入配准场的正则化损失函数,训练配准网络。
其中,高维特征相似度判别网络采用resnet分类网络架构,辅助特征提取网络采用resnet分类网络架构,配准网络采用unet结构。
其中,辅助特征提取网络将尺寸为h*w*l的两幅图像拼成大小为h*w*l*2的图像对;配准网络将尺寸为h*w*l的两幅图像及其二者的差分图像拼成大小为h*w*l*3的图像对。
其中,预测模块通过如下方式采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像:预测模块,具体用于将尺寸相同均为h*w*l待配准图像和模板图像以及待配准图像和模板图像的差分图像组合形成尺寸为h*w*l*3的图像对输入到配准网络及辅助特征提取网络;经过下采样通路得到抽象特征,将抽象特征与辅助特征提取网络提取到的高维特征组合起来,共同进入上采样通路;输出尺寸为h*w*l*3的稠密配准场,利用配准场采样原图获得配准后的图像。
由此可见,通过本发明提供的无监督多视角多模态智能眼镜图像配准方法及装置,可以配准多视角多模态图像,便于进行后续的深度估计、检测、分割等任务。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法的流程图;
图2为本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法中网络结构示意图;
图3为本发明实施例提供的无监督多视角多模态智能眼镜图像配准装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法的流程图,以下结合图1和图2对本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法进行说明,本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法包括:
s1,交替训练辅助特征提取网络和高维特征相似度判别网络,利用辅助特征提取网络提取的相同模态图像和/或不同模态图像,相同视角和/或不同视角图像对对高维特征相似度判别网络进行训练;辅助特征提取网络的输入图像为模板图像和待配准图像,输出为高维特征向量;高维特征相似度判别网络采用卷积神经网络,输入数据为辅助特征提取网络输出的高维特征,输出为0至1的数值。
具体地,本发明首先训练辅助特征提取网络和高维特征相似度判别网络。
在训练辅助特征提取网络后,对于不同模态不同视角的输入计算得到的输出,使用高维特征相似度判别网络来判断其相似度,训练目的使得对于不同模态不同视角的输入图像,辅助特征提取网络可以提取到相似的高维特征。
作为本发明实施例的一个可选实施方式,辅助特征提取网络的结构为resnet分类网络架构,其输入图像为模板图像和待配准图像,输出为高维特征向量。
本发明利用辅助特征提取网络提取出的相同模态图像/不同模态图像,相同视角/不同视角图像对训练高维特征相似度判别网络,使得高维特征相似度判别网络不同模态不同视角图像的输入,网络输出趋近于0,同模态同视角图像的输入,网络输出趋近于1。其中,0代表两幅图像不相似;1代表两幅图像相似。
作为本发明实施例的一个可选实施方式,高维特征相似度判别网络的基础结构为卷积神经网络,resnet分类网络架构;其输入数据为图像对,是尺寸为h*w*l的两幅图像拼成图像对,其大小为h*w*l*2;输入图像经过多层卷积运算做特征提取,最后输出为1个0-1的数,代表概率,1代表认为是相似,0代表不相似。
s2,固定高维特征相似度判别网络以及辅助特征提取网络,训练配准网络,其中,配准网络的输入为待配准图像和模板图像以及二者的差分图像,中间层插入辅助特征提取网络输出的高为特征向量,输出为稠密配准场。
具体地,固定高维特征相似度判别网络及辅助特征提取网络,训练配准网络,网络输入待配准图像和模板图像以及二者的差分图像。在网络的中间层插入辅助特征提取网络输出的高维特征,最后输出一个预测得到的配准场。其中模板图像为配准参考模板,差分图像用于描述待检测图像与模板图像之间的差异程度。
作为本发明实施例的一个可选实施方式,配准网络的网络结构为unet结构,包括一个下采样通路和一个上采样通路,中间层即为下采样通路的输出,上采样通路的输入;配准网络的输入为待配准图像和模板图像及二者的差分图像,尺寸相同均为h*w*l,组合起来尺寸为h*w*l*3输入到配准网络和辅助特征提取网络,首先经过一个下采样通路得到抽象特征,然后将与其与辅助特征提取网络提取到的高维特征组合起来,共同进入上采样通路,最后输出一个稠密配准场,尺寸为h*w*l*3。
s3,采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像。
作为本发明实施例的一个可选实施方式,配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像包括:将尺寸相同均为h*w*l待配准图像和模板图像以及待配准图像和模板图像的差分图像组合形成尺寸为h*w*l*3的图像对输入到配准网络及辅助特征提取网络;经过下采样通路得到抽象特征,将抽象特征与辅助特征提取网络提取到的高维特征组合起来,共同进入上采样通路;输出尺寸为h*w*l*3的稠密配准场,利用配准场采样原图获得配准后的图像。
作为本发明实施例的一个可选实施方式,训练配准网络包括:计算配准后的图像与模板对象的相似度作为相似度损失函数,加入配准场的正则化损失函数,训练配准网络。
具体地,计算配准后图像与模板对象的相似度作为相似度损失函数,同时加入配准场的正则化损失函数,二者共同指导配准网络训练。模板图像记为f,待配准图像记为m,网络获得的配准场记为
其中,添加了损失函数loss,包含:
相似度损失函数‖f-m‖2,用于统计模板图像与待检测图像的灰度差异作为相似度衡量。
正则化损失函数
由此可见,本发明实施例提供的无监督多视角多模态智能眼镜图像配准方法,相比现有技术中的方式,去掉cycle-gan模块,同时取消将高维抽象特征复原回3维图像。使用一个特征提取网络抽象出高维特征,并使用一个神经网络判断多视角多模态图像高维特征的相似度,监督特征提取网络将多视角多模态的图像提取出相似的特征,便于后面的配准。
本发明缩减算法复杂度,将训练过程缩减为三个步骤,即训练辅助特征提取网络、训练高维特征相似度判别网以及训练配准网络,其中高维特征作为配准网络的信息补充,耦合程度低。
基于本发明提供的无监督多视角多模态智能眼镜图像配准方法,提出一个端到端的深度学习配准方案,输入模版图像和待配准图像,即可输出配准结果,可以处理多模态图像,将来源于不同相机的图像(rgb相机,tof相机、结构光相机等)配准到一起,采用无监督算法,不需要对数据进行标注,极大节省了时间和价格成本,相对于现有方法取消了cycle-gan模块,提高了算法稳定性,模型没有过多的跳远结构,较为轻量,方便部署在小型设备上。
图3示出了本发明实施例提供的无监督多视角多模态智能眼镜图像配准装置的结构示意图,该无监督多视角多模态智能眼镜图像配准装置应用上述方法,以下仅对无监督多视角多模态智能眼镜图像配准装置的结构进行简单说明,其他未尽事宜,请参照上述无监督多视角多模态智能眼镜图像配准方法中的相关描述,参见图3,本发明实施例提供的无监督多视角多模态智能眼镜图像配准装置,包括:
第一训练模块,用于交替训练辅助特征提取网络和高维特征相似度判别网络,利用辅助特征提取网络提取的相同模态图像和/或不同模态图像,相同视角和/或不同视角图像对对高维特征相似度判别网络进行训练;辅助特征提取网络的输入图像为模板图像和待配准图像,输出为高维特征向量;高维特征相似度判别网络采用卷积神经网络,输入数据为辅助特征提取网络输出的高维特征,输出为0至1的数值;
第二训练模块,用于固定高维特征相似度判别网络以及辅助特征提取网络,训练配准网络,其中,配准网络的输入为待配准图像和模板图像以及二者的差分图像,中间层插入辅助特征提取网络输出的高为特征向量,输出为稠密配准场;
预测模块,用于采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像。
作为本发明实施例的一个可选实施方式,第三训练模块通过如下方式训练配准网络:第三训练模块,具体用于计算配准后的图像与模板对象的相似度作为相似度损失函数,加入配准场的正则化损失函数,训练配准网络。
作为本发明实施例的一个可选实施方式,高维特征相似度判别网络采用resnet分类网络架构,辅助特征提取网络采用resnet分类网络架构,配准网络采用unet结构。
作为本发明实施例的一个可选实施方式,辅助特征提取网络将尺寸为h*w*l的两幅图像拼成大小为h*w*l*2的图像对;配准网络将尺寸为h*w*l的两幅图像及其二者的差分图像拼成大小为h*w*l*3的图像对。
作为本发明实施例的一个可选实施方式,预测模块通过如下方式采用配准网络和辅助特征提取网络对待配准图像进行预测,得到配准后的图像:预测模块,具体用于将尺寸相同均为h*w*l待配准图像和模板图像以及待配准图像和模板图像的差分图像组合形成尺寸为h*w*l*3的图像对输入到配准网络及辅助特征提取网络;经过下采样通路得到抽象特征,将抽象特征与辅助特征提取网络提取到的高维特征组合起来,共同进入上采样通路;输出尺寸为h*w*l*3的稠密配准场,利用配准场采样原图获得配准后的图像
由此可见,本发明实施例提供的无监督多视角多模态智能眼镜图像配准装置,相比现有技术中的方式,去掉cycle-gan模块,同时取消将高维抽象特征复原回3维图像。使用一个特征提取网络抽象出高维特征,并使用一个神经网络判断多视角多模态图像高维特征的相似度,监督特征提取网络将多视角多模态的图像提取出相似的特征,便于后面的配准。
本发明缩减算法复杂度,将训练过程缩减为三个步骤,即训练辅助特征提取网络、训练高维特征相似度判别网以及训练配准网络,其中高维特征作为配准网络的信息补充,耦合程度低。
基于本发明提供的无监督多视角多模态智能眼镜图像配准装置,提出一个端到端的深度学习配准方案,输入模版图像和待配准图像,即可输出配准结果,可以处理多模态图像,将来源于不同相机的图像(rgb相机,tof相机、结构光相机等)配准到一起,采用无监督算法,不需要对数据进行标注,极大节省了时间和价格成本,相对于现有方法取消了cycle-gan模块,提高了算法稳定性,模型没有过多的跳远结构,较为轻量,方便部署在小型设备上。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。