一种面向应用端的多视图三维物体识别方法

文档序号:32941205发布日期:2023-01-14 09:07阅读:35来源:国知局
一种面向应用端的多视图三维物体识别方法

1.本发明涉及三维物体识别的技术领域,更具体地,涉及一种面向应用端的多视图三维物体识别方法。


背景技术:

2.近年来,随着智能机器人、自动驾驶、虚拟现实、医疗图像等领域的蓬勃发展,三维物体识别成为了新的研究热点。在深度学习时代,各类深度神经网络被广泛应用于三维物体识别领域,在各类方法之中,基于多视图的方法由于其数据易获得且便于处理,获得了更多的关注。其中,imagenet等大规模数据集用于cnn模型预训练后,基于多视图的三维物体识别方法在识别精度上取得了领先地位,成为目前的主流方法。
3.mvccn(multi-view cnn)是卷积神经网络(convolutional neural network,cnn)以端到端可训练的方式学习的多个二维投影特征的组合,该方法已成为三维形状识别的里程碑,并实现了当前的最优性能。自mvcnn(multi-view cnn)方法诞生以来,多视图三维识别方法层出不穷,这类研究主要集中于如何进行高效的特征融合或减少信息冗余以提高物体三维识别精度,然而,一个影响三维识别效果的重要因素往往被研究人员忽略——数据集的可靠性。目前,多视图数据集的获取主要根据已知的三维物体,然后对三维物体按照一定规律从多个预设视角依次渲染单视图,但在现实场景中,由于遮挡、视角位置信息不确定等因素的影响,取得的多视图数据往往与理想状况相去甚远。在应用端,由于设备和特定场景应用需求的限制,多视图数据往往存在视图数量少、视图角度不确定等问题,这些情况都可能严重影响物体的三维识别精度。
4.目前许多方法都为解决上述难题做出过尝试,虽然取得了一定效果,但它们依然有着各自的缺陷,例如:mvcnn使用最大池化法可融合任意多视图特征,如现有技术中公开了一种基于视觉显著性共享的用于三维模型识别的方法,该方法中提出首先获取待检索三维模型,然后根据待检索三维模型获取二维视图序列,再获取二维视图序列的视觉特征向量;接着,将视觉特征输入至mvcnn分支与视觉显著性分支,将mvcnn分支中的复杂特征与视觉显著性分支中的视觉显著性特征融合从而形成融合特征;最后,通过融合特征对所述待检索三维模型进行检索或分类,却因丢失大量信息导致效果不佳;而rotationet方法需要视图的摄像机视角信息才能完成三维识别,严重脱离了现实需求。由此可见,目前的三维识别方法走向实际应用还需要完成两个需求:1.使用任意多视图数据均可取得良好效果2,除视图数据外不需要使用其他信息。在应用端,这两个需求必须同时满足。


技术实现要素:

5.为解决在三维物体识别的实际应用场景中,待识别物体的视图数量少、输入视图视角不确定的问题,本发明提出了一种面向应用端的多视图三维物体识别方法,在面向实际应用时,改善实际场景数据输入差异导致的机器学习训练效果差的问题,仅需要视图信息,具有轻量化的特点。
6.为了达到上述技术效果,本发明的技术方案如下:
7.一种面向应用端的多视图三维物体识别方法,包括以下步骤:
8.s1.对于每一个三维物体,提取多视图数据集的所有视图特征,并基于特征差异距离度量,从多视图特征中选择若干个特征作为组代表特征;
9.s2.将除组代表特征之外的其余特征分入与组代表特征距离最近的组代表特征所在组,对各组内部的所有特征进行特征融合,得到多个组融合特征;
10.s3.将组融合特征输入图卷积网络,进行局部信息的全局传递,得到带有全局信息的图卷积特征,将所有图卷积特征融合为三维特征描述符;
11.s4.构建具备步骤s1~s3功能的教师模型与学生模型,利用完整多视图数据集训练教师模型,使用缺陷多视图数据集且利用完成训练的教师模型指导训练学生模型,得到训练好的学生模型;
12.s5.将应用端的实际待识别三维物体的任意多视图数据输入至训练好的学生模型,得到三维识别结果。
13.本技术方案利用多视图特征的特征差异进行分组,从而将可能来自相似视角的特征分入一组并融合为多个组特征,把存在差异的多视图数据转化为相似的中间层特征,改善数据输入差异导致的机器学习训练效果差问题;最后通过图卷积网络进行组特征的特征融合形成物体描述符进行三维识别;为解决视图数量少、信息不足导致的三维识别效果差问题,本方案使用知识蒸馏的方法让以完整多视图数据训练的教师模型指导学生模型训练,而学生模型模仿真实任务,在任务中使用任意多视图数据进行训练。最终在任意多视图数据输入时,学生模型均可取得良好三维识别效果,模型仅需视图信息,且具有轻量化的特点。
14.优选地,在步骤s1中,所有三维物体的全部角度的视图组成多视图数据集,将每一个三维物体的全部角度的视图输入至预训练特征提取网络,得到多视图数据集的所有单视图图像特征。
15.优选地,对于每一个三维物体,其所有单视图图像特征组合成多视图特征f,表达为:f={f1,f2,...,fn},其中,n代表该三维物体含有的单视图图像特征数目,fi表示多视图特征f中的第i个单视图图像特征,i=1,2,

,n。
16.优选地,在步骤s2中,对于每一个三维物体,计算其多视图特征f中单视图图像特征之间的特征差异度量计算表达式为:
[0017][0018]fg
=argmax(max(v(f;θi))
[0019]
其中,θi代表各单视图图像特征参数,代表特征差异度量,通过计算对应特征平方差之和得到,v(
·
)表示以特征差异度量为基础的递归代表性视图抽取方法,首先随机抽取特征fi,再抽取与前面已抽取特征中特征差异度量总和最大的特征fj,最后不断重复该步骤,直至抽取m个特征fg={f
g1
,f
g2
,...f
gm
},作为各组的组代表特征,m为设置的分组数,不大于n,
[0020]
优选地,在步骤s3中,计算组代表特征与其余特征的距离,表达式为:
[0021]
d(f
gi-fj)=||f
gi-fj||2[0022]
将其余特征分入与其距离最小的组代表特征所在组,即满足:
[0023]gl
=argmin(min(d(fg;fj)),l=0,1,2...m-1,j=0,1,2,..n-1
[0024]
其中,最终得到特征组g
l
,g
l
为m组包含多个特征的特征组;对各组内部的所有特征进行最大池化操作,实现局部特征融合,得到多个组融合特征,表达式为:其中,maxpool表示最大池化操作,n
l
表示各组分别含有的特征数量,g
l,i
表示第l的第i个特征,融合后得到的特征fn={f1,f2,...fm}包含m个融合后的组特征。
[0025]
在此,利用多视图特征的特征差异进行分组,可将剧烈变化的多视图数据转化为相似的中间层特征,避免因数据变化导致训练效果不佳,对在实际应用中提取高分辨性的三维物体描述符具有一定积极作用。
[0026]
优选地,在计算组代表特征与其余特征的距离时,若出现与多个组代表特征距离相同的情况,则该特征同时分入多个组代表特征所在的组。
[0027]
优选地,将组融合特征输入图卷积网络进行局部信息的全局传递的过程为:
[0028]
s41.将组特征fn中的组融合特征fi作为图结构的节点,并通过包含多层mlp的中间层获得表示图节点邻居关系的邻接矩阵s
i,j
:s
i,j
=φ(d
ij
;θs)
[0029]
其中,d
ij
=[fi,fj,f
i-fj,||f
i-fj||2]∈r
10
表示两个组融合特征之间的空间关系,φ(

)表示包含多层mlp,且对组特征中的元素进行矢量化融合,θs表示两组特征之间对应关系的表示参数;
[0030]
s42.通过knn算法,确定每一个组特征的最近邻范围内的组特征,仅保留与k个最近邻组特征的相关边,得到稀疏连接矩阵a
i,j

[0031]ai,j
=s
i,j
·
c{f
ni
∈k(f
nj
)};
[0032]
其中,c(
·
)表示判断组特征是否属于另一组特征的最近邻操作,相乘表示对原始邻接矩阵进行稀疏化;
[0033]
s43.对图结构进行图卷积,得到该等级的图卷积结构特征
[0034][0035]
其中,a
l
代表第l层图的邻接矩阵,f
gl
为该等级图的原始组特征,w
l
为该层图的可学习权重矩阵,θ
l
为线性激活函数的参数,ψ是一个非线性变换函数,当输入原始组特征f
gl
,先通过邻接矩阵a
l
进行传播,然后通过对可学习权重矩阵的线性变换对组特征节点进行更新,每得到一个等级的本地图卷积特征都要将其进行全局的消息传递:
[0036]
其中,i,j=0,1,2,...m-1,为两个节点之间的空间关系,σ代表它们之间的关系函数,实际含义为通过多层mlp输出的节点对内容消息集合,每层mlp都包含多个卷积单元与非线性激活;
[0037]
s44.根据新得到的所有节点对的空间关系,融合至本地图卷积特征,得到带有全局信息的新本地图卷积特征
[0038][0039]
其中,ω是单层mlp,通过批量归一化融合特征,输出全局节点对信息与图内原始组特征融合后的新本地图卷积特征;
[0040]
s45.各等级图结构均通过相同方式获取本地图卷积并进行全局信息传递,基于特征差异距离度量,每个等级图结构逐步剔除综合距离度量最小的组特征,最终,得到m个图卷积特征m个级别的本地图卷积特征通过最大池化方法融合在一起形成代表三维物体的全局描述符f
gcn

[0041]
在此,将邻接矩阵稀疏化,可以提升图结构的运算效率。
[0042]
优选地,在步骤s5中,构造的教师模型与学生模型均包括图像特征提取模块、特征分组融合模块及图卷积模块;
[0043]
所述图像特征提取模块用于提取三维物体多视图数据集的所有单视图图像特征,组合成多视图特征;所述特征分组融合模块对于对于每一个三维物体,基于特征差异距离度量,从多视图特征中选择若干个特征作为组代表特征,将除组代表特征之外的其余特征分入与组代表特征距离最近的组代表特征所在组,对各组内部的所有特征进行特征融合,得到多个组融合特征;所述图卷积模块用于局部信息的全局传递,得到带有全局信息的图卷积特征,将所有图卷积特征融合为三维特征描述符。
[0044]
优选地,步骤s5所述的完整多视图数据集为标准的公共数据集,所述的缺陷多视图数据集是对完整多视图数据集的视图数量减少及顺序打乱处理后的数据集。
[0045]
优选地,利用完整多视图数据集训练教师模型,使用缺陷多视图数据集且利用教师模型指导训练学生模型的过程为:分别提取教师模型和学生模型的logits层用xi和yi表示,利用mse均方误差衡量它们的特征差异,通过交叉熵函数分别表示师生网络中预测结果和真实标签的差异:和真实标签的差异:
[0046]
其中,n表示全部视图数,r表示分组数,ni表示某组的视图特征数,表示样本修正方差,p和q分别表示预测结果和正式标签;
[0047][0048]
将损失函数相加,衡量教师模型和学生模型输出层的相似度和预测准确性,并对其优化,使学生模型学习教师模型输出层的泛化能力,表达式为:
[0049][0050]
通过教师模型和学生模型对应中间层特征的mse距离作为损失函数的一部分,最小化该部分损失函数使得二者中间层的功能和构造接近:
[0051][0052]
其中,和分别为某一层图结构在教师模型和学生模型中分别对应的中间层
特征,n为总的batchsize个数,m为图结构特征的总级别数,结合两个部分形成知识蒸馏需要的总损失函数
[0053][0054]
教师模型和学生模型差异过大的情况下,教师模型输入的知识量过大不利于取得好的训练效果,引入温度超参数t,温度超参数t调节中间层特征差异大小,决定知识蒸馏包含知识的多少,设置其大小,平衡教师模型、学生模型差异和迁移知识量的关系,平滑训练曲线,提升训练效果;设置超参数λ使logis层损失和隐藏层损失量数量级接近,通过优化总损失函数,使损失函数收敛,得到训练好的学生模型。
[0055]
在此,将知识蒸馏引入多视图三维识别领域,把教师模型训练后的完整信息蒸馏至学生模型,使学生模型在视图数较少时也能获得接近使用完备视图集的三维识别效果,在任意多视图数据输入时均可取得高精度的三维识别模型,模型无需视图以外的任何信息,且具有轻量化的特点。
[0056]
与现有技术相比,本发明技术方案的有益效果是:
[0057]
本发明提出一种面向应用端的多视图三维物体识别方法,该方法利用多视图特征的特征差异进行分组,将可能来自相似视角的特征分入一组并融合为多个组特征,把存在差异的多视图数据转化为相似的中间层特征,基于这种思想构建基本的能实现这些功能的教师模型、与教师模型结构相同的学生模型,为解决视图数量少、信息不足导致的三维识别效果差的问题,使用知识蒸馏的方式让以完备多视图数据集训练的教师模型指导学生模型训练,而学生模型模仿真实任务,在实际应用任务中,在任意多视图数据输入时,学生模型可取得良好的三维识别效果,仅需视图信息,且具有轻量化的特点。
附图说明
[0058]
图1表示本发明实施例1中提出的面向应用端的多视图三维物体识别方法的流程示意图;
[0059]
图2表示本发明实施例2中提出的教师模型或学生模型的结构图;
[0060]
图3表示本发明实施例2中提出的教师模型、学生模型对多视图数据进行处理的过程图;
[0061]
图4表示本发明实施例3中提出的利用本技术方法与其它方法对比,在视图视角不确定的情况下,对modelnet40数据集的分类准确率对比曲线图。
具体实施方式
[0062]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0063]
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
[0064]
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
[0065]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0066]
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
[0067]
实施例1
[0068]
如图1所示,本实施例提出了一种面向应用端的多视图三维物体识别方法,参见图1,该方法包括以下步骤:
[0069]
s1.对于每一个三维物体,提取多视图数据集的所有视图特征,并基于特征差异距离度量,从多视图特征中选择若干个特征作为组代表特征;
[0070]
s2.将除组代表特征之外的其余特征分入与组代表特征距离最近的组代表特征所在组,对各组内部的所有特征进行特征融合,得到多个组融合特征;
[0071]
s3.将组融合特征输入图卷积网络,进行局部信息的全局传递,得到带有全局信息的图卷积特征,将所有图卷积特征融合为三维特征描述符;
[0072]
s4.构建具备步骤s1~s3功能的教师模型与学生模型,利用完整多视图数据集训练教师模型,使用缺陷多视图数据集且利用完成训练的教师模型指导训练学生模型,得到训练好的学生模型;
[0073]
s5.将应用端的实际待识别三维物体的任意多视图数据输入至训练好的学生模型,得到三维识别结果。
[0074]
本实施例提出的方法是利用多视图特征的特征差异进行分组,从而将可能来自相似视角的特征分入一组并融合为多个组特征,把存在差异的多视图数据转化为相似的中间层特征,最后通过图卷积网络进行组特征的特征融合形成物体描述符进行三维识别的思想,构建能实现以上功能思想的教师模型以及与教师模型结构相同的学生模型,然后为解决视图数量少、信息不足导致的三维识别效果差问题,使用知识蒸馏的方法以完备多视图数据集训练教师模型,并利用教师模型指导学生模型训练,而学生模型模仿真实任务,在任务中使用任意多视图数据进行训练。最终在任意多视图数据输入时,学生模型均可取得良好三维识别效果。
[0075]
在步骤s1中,所有三维物体的全部角度的视图组成多视图数据集,将每一个三维物体的全部角度的视图输入至预训练特征提取网络,得到多视图数据集的所有单视图图像特征,在本实施例中,预训练特征提取网络可以选用resnet-18,包括但不限于这种网络。
[0076]
对于每一个三维物体,其所有单视图图像特征组合成多视图特征f,表达为:f={f1,f2,...,fn},其中,n代表该三维物体含有的单视图图像特征数目,fi表示多视图特征f中的第i个单视图图像特征,i=1,2,

,n。
[0077]
在步骤s2中,对于每一个三维物体,计算其多视图特征f中单视图图像特征之间的特征差异度量计算表达式为:
[0078][0079]fg
=argmax(max(v(f;θi))
[0080]
其中,θi代表各单视图图像特征参数,代表特征差异度量,通过计算对应特征平方差之和得到,v(
·
)表示以特征差异度量为基础的递归代表性视图抽取方法,首先随机抽取特征fi,再抽取与前面已抽取特征中特征差异度量总和最大的特征fj,最后不断重复该步骤,直至抽取m个特征fg={f
g1
,f
g2
,...f
gm
},作为各组的组代表特征,m为设置的分组数,不大于n,
[0081]
在步骤s3中,计算组代表特征与其余特征的距离,表达式为:
[0082]
d(f
gi-fj)=||f
gi-fj||2[0083]
将其余特征分入与其距离最小的组代表特征所在组,即满足:
[0084]gl
=argmin(min(d(fg;fj)),l=0,1,2...m-1,j=0,1,2,..n-1
[0085]
其中,最终得到特征组g
l
,g
l
为m组包含多个特征的特征组,通过计算特征之间距离,将视图特征f分入m个组;对各组内部的所有特征进行最大池化操作,实现局部特征融合,得到多个组融合特征,表达式为:其中,maxpool表示最大池化操作,n
l
表示各组分别含有的特征数量,g
l,i
表示第l的第i个特征,融合后得到的特征fn={f1,f2,...fm}包含m个融合后的组特征,在计算组代表特征与其余特征的距离时,若出现与多个组代表特征距离相同的情况,则该特征同时分入多个组代表特征所在的组。这里利用多视图特征的特征差异进行分组,可将剧烈变化的多视图数据转化为相似的中间层特征,避免因数据变化导致训练效果不佳,对在实际应用中提取高分辨性的三维物体描述符具有一定积极作用。
[0086]
将组融合特征输入图卷积网络进行局部信息的全局传递的过程为:
[0087]
s41.将组特征fn中的组融合特征fi作为图结构的节点,并通过包含多层mlp的中间层获得表示图节点邻居关系的邻接矩阵s
i,j
:s
i,j
=φ(d
ij
;θs)
[0088]
其中,d
ij
=[fi,fj,f
i-fj,||f
i-fj||2]∈r
10
表示两个组融合特征之间的空间关系,φ(

)表示包含多层mlp,且对组特征中的元素进行矢量化融合,θs表示两组特征之间对应关系的表示参数;
[0089]
s42.通过knn算法,确定每一个组特征的最近邻范围内的组特征,仅保留与k个最近邻组特征的相关边,得到稀疏连接矩阵a
i,j

[0090]ai,j
=s
i,j
·
c{f
ni
∈k(f
nj
)};
[0091]
其中,c(
·
)表示判断组特征是否属于另一组特征的最近邻操作,相乘表示对原始邻接矩阵进行稀疏化;
[0092]
s43.对图结构进行图卷积,得到该等级的图卷积结构特征
[0093][0094]
其中,a
l
代表第l层图的邻接矩阵,f
gl
为该等级图的原始组特征,w
l
为该层图的可学习权重矩阵,θ
l
为线性激活函数的参数,ψ是一个非线性变换函数,当输入原始组特征f
gl
,先通过邻接矩阵a
l
进行传播,然后通过对可学习权重矩阵的线性变换对组特征节点进行更新,每得到一个等级的本地图卷积特征都要将其进行全局的消息传递:
[0095]
其中,i,j=0,1,2,...m-1,为两个节点之间的空间关系,σ代表它们之间的关系函数,实际含义为通过多层mlp输出的节点对内容消息集合,每层mlp都包含多个卷积单元与非线性激活;
[0096]
s44.根据新得到的所有节点对的空间关系,融合至本地图卷积特征,得到带有全局信息的新本地图卷积特征
[0097][0098]
其中,ω是单层mlp,通过批量归一化融合特征,输出全局节点对信息与图内原始组特征融合后的新本地图卷积特征;
[0099]
s45.各等级图结构均通过相同方式获取本地图卷积并进行全局信息传递,基于特征差异距离度量,每个等级图结构逐步剔除综合距离度量最小的组特征,最终,得到m个图卷积特征m个级别的本地图卷积特征通过最大池化方法融合在一起形成代表三维物体的全局描述符f
gcn
:将邻接矩阵稀疏化,可以提升图结构的运算效率。此处,模型使用选择组代表特征时设计的距离度量,每个等级逐步剔除综合距离度量最小的组特征,在此可称为“减一采样法”(第一级m个,第二级m-1个等,以此类推),通过特征采样和本地图卷积处理方法,可得到m个图卷积特征
[0100]
实施例2
[0101]
本实施例中,教师模型和学生模型的结构示意图如图2所示,参见图2,构造的教师模型与学生模型均包括图像特征提取模块、特征分组融合模块及图卷积模块;
[0102]
具体的,图像特征提取模块用于提取三维物体多视图数据集的所有单视图图像特征,组合成多视图特征;特征分组融合模块对于对于每一个三维物体,基于特征差异距离度量,从多视图特征中选择若干个特征作为组代表特征,将除组代表特征之外的其余特征分入与组代表特征距离最近的组代表特征所在组,对各组内部的所有特征进行特征融合,得到多个组融合特征;图卷积模块用于局部信息的全局传递,得到带有全局信息的图卷积特征,将所有图卷积特征融合为三维特征描述符,即教师模型和学生模型是能够实现步骤s1~s4的功能,处理过程可参见图3,此外,在训练教师模型和学生模型时,教师模型所使用的完整多视图数据集为标准的公共数据集,缺陷多视图数据集是对完整多视图数据集的视图数量减少及顺序打乱处理后的数据集。
[0103]
利用完整多视图数据集训练教师模型,使用缺陷多视图数据集且利用教师模型指导训练学生模型的过程为:分别提取教师模型和学生模型的logits层用xi和yi表示,利用mse均方误差衡量它们的特征差异,通过交叉熵函数分别表示师生网络中预测结果和真实标签的差异:
[0104]
其中,n表示全部视图数,r表示分组数,ni表示某组的视图特征数,表示样本修正方差,p和q分别表示预测结果和正式标签;
[0105][0106]
将损失函数相加,衡量教师模型和学生模型输出层的相似度和预测准确性,并对其优化,使学生模型学习教师模型输出层的泛化能力,表达式为:
[0107][0108]
通过教师模型和学生模型对应中间层特征的mse距离作为损失函数的一部分,最
小化该部分损失函数使得二者中间层的功能和构造接近:
[0109][0110]
其中,和分别为某一层图结构在教师模型和学生模型中分别对应的中间层特征,n为总的batchsize个数,m为图结构特征的总级别数,结合两个部分形成知识蒸馏需要的总损失函数
[0111][0112]
教师模型和学生模型差异过大的情况下,教师模型输入的知识量过大不利于取得好的训练效果,引入温度超参数t,温度超参数t调节中间层特征差异大小,决定知识蒸馏包含知识的多少,设置其大小,平衡教师模型、学生模型差异和迁移知识量的关系,平滑训练曲线,提升训练效果;设置超参数λ使logis层损失和隐藏层损失量数量级接近,通过优化总损失函数,使损失函数收敛,得到训练好的学生模型。即将知识蒸馏引入多视图三维识别领域,把教师模型训练后的完整信息蒸馏至学生模型,使学生模型在视图数较少时也能获得接近使用完备视图集的三维识别效果,在任意多视图数据输入时均可取得高精度的三维识别模型,模型无需视图以外的任何信息,且具有轻量化的特点。
[0113]
实施例3
[0114]
本实施例使用modelnet40和modelnet10数据集对本发明所提出的方法进行评估,效果通过以下仿真实验做进一步说明。
[0115]
实验中使用的modelnet40和modelnet10数据集是三维物体的多视图数据集。modelnet40多视图数据集拥有来自40个类别、12311个三维物体(12视图或20视图)的多视图数据,对modelnet40数据集的分割遵循以下操作:将数据集中9843个物体划分为训练集,2468个物体划为测试集,在测试modelnet40数据集时,分别测试了20视图和12视图的三维识别结果。与modelnet40数据集对比起来,modelnet10数据集则要小很多。modelnet10多视图数据集拥有来自10个类别、4899个三维物体(12视图或20视图)的多视图数据,其中3991个物体作为训练集,908个物体作为测试集,本发明同样对它测试了20视图和12视图的三维识别效果。
[0116]
涉及的对比方法有:mvcnn、gvcnn、mhbn、mlvcnn、rotationet、view-gcn、car-net等多视图三维识别方法。主要的对比指标为三维识别中的分类和检索准确率。分类准确率为类别预测正确样本数和总样本数的比率,map通过对特征之间计算l2距离进行排序,取距离最小的三维物体作为预测结果,最后计算平均检索准确率。对比结果如表1所示。
[0117]
表1
[0118][0119]
从表1可以见,本方法在完备多视图数据输入时三维识别效果良好。表2为本技术与mvcnn方法、view-gcn的模型大小设置。
[0120]
表2
[0121]
方法本发明所提方法mvcnnview—gcn模型大小63.76mb491.84mb129.48mb
[0122]
假设训练图像按顺序依次编号为1-20,在乱序输入的情况下,则输入的多视图数据可能为以下形式,结合图4,图4中横坐标为视图数,纵坐标表示分类准确率,例如:8视图(视图顺序与来源可能为:13,7,2,14,3,6,7,9)。由图4可知,在乱序和视图数量少的情况下,模型仍能取得良好的三维物体识别效果,验证了本发明所提方法的有效性。
[0123]
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1