本发明涉及影像处理技术,且特别涉及一种影像对应判断方法及装置。
背景技术
影像对应判断技术可在两个影像中辨识对应的区域。虽然现在的技术对于固定且具纹理的物体可具有良好的判断表现,但是对于影像中非固定以及较不具纹理的区域来说,则很难进行辨识。学习的特征描述子(featuredescriptor)对于例如,但不限于视角、亮度、变形或是较差的纹理来说,较不具有识别性。
因此,如何设计一个新的影像对应判断方法及装置,以解决上述的缺失,乃为此一业界亟待解决的问题。
技术实现要素:
本发明的目的在于通过影像对应判断方法及装置,达到简化神经网络系统的结构,并将全域信息纳入考量的技术效果。
因此,本发明的一实施方式是在提供一种影像对应(imagecorrespondence)判断方法,用以通过由影像对应判断装置实现的神经网络(neuralnetwork)系统执行影像对应判断,影像对应判断方法包括:由神经网络系统的第一串接(concatenating)单元串接第一影像以及第二影像,以产生具有全域信息的串接影像;由神经网络系统的卷积神经网络(convolutionalneuralnetwork;cnn)单元自串接影像获取多个特征,以产生多个特征图(featuremap)并将特征图分为多个第一特征图以及多个第二特征图;由神经网络系统的影像区块获取单元自第一特征图中获取对应第一区域的多个第一影像区块以及自第二特征图中获取对应第二区域的多个第二影像区块;由神经网络系统的第二串接单元串接第一影像区块以及第二影像区块,以产生多个串接影像区块;以及由神经网络系统的度量学习(metriclearning)网络单元根据串接影像区块计算相似度度量,以判断第一区域以及第二区域间的相似度。
在本发明的一实施例中,卷积神经网络单元包含多个卷积神经网络层,配置以根据多个学习权重运行。
在本发明的一实施例中,第一影像、第二影像、第一特征图以及第二特征图具有相同的宽度以及相同的高度。
在本发明的一实施例中,第一影像以及第二影像具有相同的深度,且串接影像的总深度相当于第一影像以及第二影像的深度的总和。
在本发明的一实施例中,第一特征图、第二特征图、第一影像区块以及所述多个第二影像区块具有相同的一深度,且所述多个串接影像区块的一总深度相当于所述多个第一影像区块以及所述多个第二影像区块的一深度的总和。
在本发明的一实施例中,全域信息包含跨越第一影像以及第二影像的信息。
本发明的另一实施方式是在提供一种影像对应判断装置,包括:存储单元以及处理单元。存储单元配置以存储多个电脑可执行指令。处理单元电性耦接于存储单元,并配置以获取并执行电脑可执行指令,以执行影像对应判断方法,影像对应判断方法用以通过由处理单元执行电脑可执行指令时实现的神经网络系统执行影像对应判断,影像对应判断方法包括:由神经网络系统的第一串接单元串接第一影像以及第二影像,以产生具有全域信息的串接影像;由神经网络系统的卷积神经网络单元自串接影像获取多个特征,以产生多个特征图并将特征图分为多个第一特征图以及多个第二特征图;由神经网络系统的影像区块获取单元自第一特征图中获取对应第一区域的多个第一影像区块以及自第二特征图中获取对应第二区域的多个第二影像区块;由神经网络系统的第二串接单元串接第一影像区块以及第二影像区块,以产生多个串接影像区块;以及由神经网络系统的度量学习网络单元根据串接影像区块计算相似度度量,以判断第一区域以及第二区域间的相似度。
在本发明的一实施例中,卷积神经网络单元包含多个卷积神经网络层,配置以根据多个学习权重运行。
在本发明的一实施例中,第一影像、第二影像、第一特征图以及第二特征图具有相同的宽度以及相同的高度。
在本发明的一实施例中,第一影像以及第二影像具有相同的深度,且串接影像的总深度相当于第一影像以及第二影像的深度的总和。
在本发明的一实施例中,第一特征图、第二特征图、第一影像区块以及所述多个第二影像区块具有相同的一深度,且所述多个串接影像区块的一总深度相当于所述多个第一影像区块以及所述多个第二影像区块的一深度的总和。
在本发明的一实施例中,全域信息包含跨越第一影像以及第二影像的信息。
本发明的影像对应判断装及影像对应判断方法可通过串接第一影像及第二影像进行影像对应判断。不仅因为仅使用一个卷积神经网络单元而简化影像对应判断装置所实现的神经网络系统的结构,达到降低存储器的成本以及较快的推论时间,并且亦能将全域信息,例如跨越第一影像和第二影像的信息纳入考量。
附图说明
图1为本发明一实施例中,一种影像对应判断装置的方框图;
图2为本发明一实施例中,影像对应判断方法的流程图;以及
图3为本发明一实施例中,由影像对应判断装置实现的神经网络系统的方框图。
附图标记说明:
1:影像对应判断装置
10:存储单元
12:处理单元
100:电脑可执行指令
200:影像切割方法
201-205:步骤
3:神经网络
300:第一串接单元
302:卷积神经网络单元
304:影像区块获取单元
306:第二串接单元
308:度量学习网络单元
a:第一影像
b:第二影像
c:串接影像
fa:第一特征图
fb:第二特征图
pa:第一影像区块
pb:第二影像区块
pc:串接影像区块
sm:相似度度量
具体实施方式
请参照图1。图1为本发明一实施例中,一种影像对应判断装置1的方框图。影像对应判断装置1包含存储单元10以及处理单元12。
于一实施例中,存储单元10可为例如,但不限于光盘、随机存取存储器(randomaccessmemory;ram)、只读存储器(readonlymemory;rom)、软盘、硬盘或光学磁盘片。存储单元10配置以存储多个电脑可执行指令100。
处理单元12电性耦接于存储单元10。于一实施例中,处理单元12配置以获取并执行电脑可执行指令100,并据以执行影像对应判断装置1的功能。更详细地说,处理单元12接收第一影像a及第二影像b,以进行影像对应判断,从而辨识第一影像a的第一区块及第二影像b的第二区块间的相似度。在不同的实施例中,第一区块及第二区块可为相同或不同。
于一实施例中,处理单元12接收存储于存储单元10中的第一影像a及第二影像b,如图1所示。于其他实施例中,处理单元12可利用例如,但不限于通信单元(未示出),通过有线或是无线的方式自远端服务器(未示出)接收第一影像a及第二影像b。
请同时参照图2及图3。影像对应判断装置1的详细功能将在后续段落搭配图2及图3进行说明。
图2为本发明一实施例中,影像对应判断方法200的流程图。影像对应判断方法200可应用于图1的影像对应判断装置1中。
图3为本发明一实施例中,由影像对应判断装置1实现的神经网络系统3的方框图。其中当电脑可执行指令100由处理单元12执行时,将运行为神经网络系统3以执行影像对应判断方法200。于一实施例中,神经网络系统3包含第一串接单元300、卷积神经网络单元302、影像区块获取单元304、第二串接单元306以及度量学习网络单元308。
影像对应判断方法200包含下列步骤(应了解到,在本实施方式中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行)。
于步骤201,由第一串接单元300串接第一影像a以及第二影像b,以产生具有全域信息的串接影像c。
于一实施例中,第一影像a以及第二影像b均具有相同的宽度w、相同的高度h以及相同的深度d1。因此,各第一影像a及第二影像b的尺寸可表示为x×h×d1。于一实施例中,各第一影像a及第二影像b的深度d1可为影像的通道数目(例如r、g及b),意即3。
第一串接单元300串接第一影像a以及第二影像b,以产生具有全域信息的串接影像c。全域信息包含跨越第一影像a以及第二影像b的信息。串接影像c与第一影像a以及第二影像b具有相同的深度及高度,且其总深度相当于第一影像a以及第二影像b的深度的总和。更详细的说,串接影像c具有宽度w、高度h以及深度2×d1。因此,串接影像c的尺寸可表示为w×h×(2×d1)。
于一实施例中,当第一影像a以及第二影像b的深度分别为3时,串接影像c的总深度为6。
于步骤202,由神经网络系统的卷积神经网络单元自串接影像c获取多个特征,以产生多个特征图并将特征图分为多个第一特征图fa以及多个第二特征图fb。
于一实施例中,卷积神经网络单元302包含多个卷积神经网络层(未示出)。举例而言,卷积神经网络层可包含输入层、至少一隐藏层以及输出层。输入层可包括与串接影像c的通道数目(例如6)相符合的输入端,配置以接收串接影像c。隐藏层对串接影像c进行运算,以使输出层产生第一特征图fa以及第二特征图fb。
于一实施例中,卷积神经网络层配置以根据多个学习权重运行。由于卷积神经网络单元302对包括第一影像a以及第二影像b的全域信息的串接影像c进行运算,卷积神经网络单元302可运行为特征获取器,以获取密集且可分辨的特征。
于一实施例中,卷积神经网络单元302可利用标签来识别输入是否来自于相同的类别,以学习特征的表现形式,其中相同类别的物件被聚集起来,并与其他类别的物件分开。
于一实施例中,各个第一特征图fa及第二特征图fb与串接影像c具有相同的宽度w及高度h。第一特征图fa及第二特征图fb具有相同的深度d2。于一实施例中,当深度d2的值设定的愈大(亦即愈深),则影像对应的判断的精确度愈高,但处理速度将较慢。相反地,当深度d2的值设定的愈小,则影像对应的判断的精确度愈低,但处理速度将较快。因此,根据实际的应用,深度d可预设为一个适当的数值,例如30或100,以达到较高的精确度以及较合理的处理速度。
于步骤203,由影像区块获取单元304自第一特征图fa中获取对应第一区域的多个第一影像区块pa以及自第二特征图fb中获取对应第二区域的多个第二影像区块pb。
于一实施例中,第一区域及第二区域为第一影像a及第二影像b中,欲进行影像对应的比对的区域。更详细地说,当要进行第一影像a的第一区域及第二影像b的第二区域间的比对时,将从第一特征图fa及第二特征图fb中,获取坐标和第一区域及第二区域分别相对应的第一影像区块pa及第二影像区块pb来进行比对,而非从第一影像a及第二影像b获取第一区域及第二区域。
各个第一影像区块pa及第二影像区块pb可具有宽度w’以及高度h’。举例而言,各个第一影像区块pa及第二影像区块pb的宽度w’以及高度h’可分别为10像素。由于第一影像区块pa及第二影像区块pb是从第一特征图fa及第二特征图fb所获取,第一影像区块pa及第二影像区块pb具有相同的深度d2。
于步骤204,由第二串接单元306串接第一影像区块pa以及第二影像区块pb,以产生多个串接影像区块pc。
第二串接单元306将第一影像区块pa以及第二影像区块pb串接,以产生具有宽度w’、高度h’以及深度2×d2的串接影像区块pc。因此,串接影像区块pc的尺寸可表示为x’×h’×(2×d2)。
于步骤205,由度量学习网络单元308根据串接影像区块pc计算相似度度量sm,以判断第一区域以及第二区域间的相似度。
于一实施例中,度量学习网络单元308亦为类似卷积神经网络单元302的卷积神经网络,包含多个根据学习权重运行的运算层。通过对串接影像区块pc进行运算,度量学习网络单元308可产生相似度度量sm,其中相似度度量sm表示第一区域以及第二区域间的度量。
影像对应判断装置1以及影像对应判断方法200可通过串接第一影像a及第二影像b进行影像对应判断。不仅因为仅使用一个卷积神经网络单元302而简化影像对应判断装置1所实现的神经网络系统3的结构,达到降低存储器的成本以及较快的推论时间(inferencetime),并且亦能将全域信息,例如跨越第一影像和第二影像的信息纳入考量。
更进一步地,学习的相似度度量sm可用以判断第一影像和第二影像的相似度。由于使用了影像的全域信息和学习相似度度量,可具有不受不同环境如不同视角、亮度、变形和纹理影响的较佳抵抗力。
以上所述仅为本发明的优选实施例而已,并不用以限制本发明,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。