一种基于深度集成及细节感知的细粒度三维模型分类方法

文档序号:31704333发布日期:2022-10-01 10:09阅读:140来源:国知局
一种基于深度集成及细节感知的细粒度三维模型分类方法

1.本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于深度集成及细节感知的细粒度三维模型分类方法。


背景技术:

2.细粒度三维模型分类任务是计算机视觉领域中一个极具挑战性的问题,其主要用于仅存在局部差异的子类三维模型的区分。当前来看,一个理想的细粒度三维模型分类网络不仅仅需要捕捉三维模型的全局形状特征,还需要进一步提取子类间具有判别性的局部区域,这导致通用三维模型分类网络应用于细粒度识别时分类能力较差。现有的通用三维模型分类工作无法满足当前这些需求。


技术实现要素:

3.本发明的目的在于克服现有技术缺点与不足,针对通用三维模型分类方法应用于细粒度识别时分类能力较差的问题,提出了一种基于深度集成及细节感知的细粒度三维模型分类方法,可有效捕捉三维模型多视图下整体形状的特征及其视图中包含的细节感知特征。即在主干网络和辅助网络中,分别利用深度集成学习器和上下文细节感知模块提取三维模型的全局结构信息,以及各个视图中包含的细粒度判别性信息,实现细粒度三维模型的高效识别。
4.为实现上述目的,本发明所提供的技术方案如下:一种基于深度集成及细节感知的细粒度三维模型分类方法,该方法是基于一个三维模型细分类网络实现三维模型多视图的细粒度分类,其中,所述三维模型细分类网络由主干网络和辅助网络组成,所述主干网络由初始特征提取层、一组基学习器以及一个深度集成学习器构成,用于学习多视图中包含的三维模型全局结构特征,所述辅助网络由上下文细节感知模块、视图最大池化层以及全连接层构成,用于捕捉视图中包含的细节特征;
5.该细粒度三维模型分类方法的具体实施以下步骤:
6.s1、将三维模型多视图序列输入主干网络中,通过初始特征提取层提取出各个视图中包含的特征信息,生成三维模型的初始特征图选择初始特征提取层的浅层特征图作为辅助网络的输入,其中k表示特征图来自于初始特征提取层的第k层,vi表示三维模型的第i张视图,一个三维模型共有v张视图;
7.s2、将初始特征图分别送入对应的基学习器中,计算出每张视图的初始分类决策;初始决策信息进行拼接操作后,通过集成学习器得到主干网络的最终分类决策;
8.s3、浅层特征图送入上下文细节感知模块,计算得到上下文细节感知特征图cf
mn
;通过平均池化操作进行降维后,将所有cf
mn
进行拼接,得到对应视图的细节感知特征dfi;最后利用视图最大池化层将细节感知特征进行整合,并通过全连接层计算出辅助网络的分类决策;
9.s4、将主干网络与辅助网络的分类决策相结合,形成整体三维模型细分类网络的分类综合决策,并以此构建联合损失函数,使得三维模型细分类网络能将细粒度三维模型进行准确分类,完成三维模型多视图的细粒度分类。
10.进一步,在步骤s1中,初始特征提取层采用由卷积、池化的设计模式构建的残差神经网络,提取出视图序列中的初始特征信息;其中,所述残差神经网络共包含四个不同阶段,每个阶段由不同数量残差块构成,第一个阶段共包含一个7*7卷积层、一个最大池化层和三个残差块,旨在对视图进行初始预处理并对其进行浅层特征提取,第二个阶段是四个残差块,旨在对视图中信息和特征进行进一步抽象,第三个阶段是六个残差块,旨在对视图中包含的高级语义信息进行学习,第四个阶段是三个残差块,旨在对提取视图的高度抽象的语义特征;初始特征提取层将输入的视图序列均抽象为w
×h×
c的初始特征图其中w代表特征图的宽度,h代表特征图的高度,c代表特征图的通道数;初始特征图包含了抽象的高级语义信息,有利于网络对三维模型的全局结构进行学习,并将其作为基学习器的输入特征图;而初始特征提取层的浅层特征图具备更加丰富的细节特征信息,对区分细粒度三维模型有利,因此选择部分浅层特征图作为辅助网络的输入。
11.进一步,在步骤s2中,所述基学习器由一个全局平均池化层和两个全连接层构成;全局平均池化将每个视图得到高度抽象的语义特征进行进一步的抽象和下采样;初始特征图通过全局平均池化后被降维压缩,信息被进一步抽象,再通过一个(c,256)和(256,l)的全连接层,计算出各个视图对应的初始分类决策;其中,c表示特征图的通道数,l代表数据集中类别数量;所述集成学习器由concat拼接层和一个全连接层构成;初始分类决策送入集成学习器后,先利用concat拼接操作将所有初始分类决策进行整合拼接,再利用一个(v
×
l,l)的全连接层得到三维模型的全局结构的最终分类决策,其中,v表示三维模型视图数量;
12.为提升深度集成学习器分类初始预测结果的正确性,定义了基学习器的分类损失函数lossm和集成学习器分类损失函数losss,分别由如下公式求解:
[0013][0014][0015]
式中,n表示样本数目;χ{
·
}表示指示函数,如果第i个样本的真实标签为j,函数取值为1,否则取值为0,其中,表示三维模型第i个视图的真实标签;t
ij
表示第i个样本属于第j类的预测值;δ{
·
}表示指示函数,如果第i个样本的真实标签为j,函数取值为1,否则函数取值为-1,其中,表示第i个三维模型的真实标签;p表示l1正则化范式;
[0016]
则主干网络的分类损失loss
main
由如下公式求解:
[0017][0018]
式中,lossm表示第m个视图对应的基学习器对应的分类预测损失,α和β表示基学
习器损失和集成学习器损失的权重分配。
[0019]
进一步,在步骤s3中,所述上下文细节感知模块通过建立不同卷积层特征间的信息交互,提取出视图中包含的细节特征信息;首先对视图的卷积层特征对应位置进行点乘操作,获得第i个视图的上下文细节感知特征图cf
mn
;再利用拼接操作对不同层级间的上下文细节感知特征进行融合,形成对应视图的细节感知特征图dfi,最后通过全局平均池化层,将得到的细节特征进行降维,计算公式如下:
[0020][0021]
dfi=concat(g(cf
12
),g(cf
13
),g(cf
23
))
[0022]
式中,m和n分别为初始特征提取层第四阶段的第m个和第n个残差块,和则表示从第m个和第n个残差块取出的浅层特征图,γ为矩阵变换操作,将输入的c
×h×
w大小的矩阵变换为c
×
n,而n=h
×
w,c表示特征图的通道数,h表示特征图的高度,w表示特征的宽度,

为矩阵间的点乘操作;cf
mn
表示第m个和第n个残差块的浅层特征图的信息交互后的上下文细节感知特征图;cf
12
表示第1个和第2个残差块的浅层特征信息交互后的上下文细节感知特征图,cf
13
表示第1个和第3个残差块的浅层特征信息交互后的上下文细节感知特征图,cf
23
表示第2个和第3个残差块的浅层特征信息交互后的上下文细节感知特征图;g(
·
)为全局平均池化,concat表示拼接操作。
[0023]
进一步,在步骤s3中,所述辅助网络通过上下文细节感知模块捕捉到视图中的细粒度判别性信息后,视图最大池化层将视图中细节特征的信息进行整合,旨在找到视图中最显著的细节特征,使其具备类别代表性,然后通过一个(2048
×
3,l)的全连接层,得到细粒度特征对应的分类决策,其中l表示类别数目;
[0024]
为保证网络捕捉的细节特征具备判别性,则辅助网络的损失函数loss
auxi
由如下公式求解:
[0025][0026]
式中,n表示样本数目;表示指示函数,若第i个样本的真实标签为j,函数取值为1,否则函数取值为0,其中li表示第i个样本的真实标签;t
ij
表示第i个样本属于第j类的预测值。
[0027]
进一步,在步骤s4中,所述主干网络与辅助网络的分类决策进行融合形成综合分类决策,旨在将两个网络的分类结果进行融合,得到对三维模型分类的最终结果;其中,将主干网络的分类决策与辅助网络的分类决策进行加权和计算,其融合比例设置为1:1,得到三维模型所属的正确类别预测值;为保证方法的分类准确性,整体三维模型细分类网络的分类损失函数loss由如下公式求解:
[0028]
loss=λ1loss
main
+λ2loss
auxi
[0029]
式中,λ1和λ2表示主干网络和辅助网络损失的权重分配,loss
main
表示主干网络的分类损失函数,loss
auxi
表示辅助网络的分类损失函数。
[0030]
本发明与现有技术相比,具有如下优点与有益效果:
[0031]
1、本发明方法实现了基于深度集成及细节感知的细粒度三维模型分类。
[0032]
2、提出了主干网络与辅助网络结合的方式进行细粒度三维模型分类;通过主干网络学习到三维模型的全局结构信息,为细节特征提供全局结构的保障;通过辅助网络对视图中的细节特征信息进行学习,学习三维模型中的细节特征。
[0033]
3、提出了包含上下文细节感知模块的辅助网络,充分利用上下文特征信息提取出具有细粒度判别能力的局部特征,使得上下文信息被有效利用,为分类保留了更加丰富的细节特征。
[0034]
4、在不同类别上的实验表明,与最先进的方法相比,本发明方法具有良好的普适性,并且具有良好的分类性能。
附图说明
[0035]
图1为本发明的整体架构图。
[0036]
图2为本发明的主干网络结构图;图中,resnet为残差神经网络,fc为全连接层,lossi表示对应第i个视图的分类损失,concat为张量拼接,loss
main
为主干网络的整体分类损失。
[0037]
图3为resnet残差神经网络的结构图。
[0038]
图4为本发明的辅助网络结构图;图中,view-maxpool为视图最大池化,cdam为上下文细节感知模块,reshape为维度变换,gap为全局平均池化,concat为张量拼接。
具体实施方式
[0039]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0040]
本实施例提供了一种基于深度集成及细节感知的细粒度三维模型分类方法,该方法是基于一个三维模型细分类网络实现三维模型多视图的细粒度分类,其中,所述三维模型细分类网络由主干网络和辅助网络组成。如图1所示,展示了整个网络框架,多视图序列通过主干网络和辅助网络学习视图的全局特征和细节感知特征。主干网络提取三维模型的全局特征,并形成全局结构的初始决策。辅助网络捕捉三维模型的细节感知特征,并形成具有细节判别性特征的初始决策。综合两个网络的初始决策形成整个三维模型细分类网络的最终决策,完成对三维模型细粒度判别性特征的学习,实现对细粒度三维模型的分类。其包括以下步骤:
[0041]
1)输入一组v个三维模型多视图序列,它们来自于三维模型不同角度下的二维投影;
[0042]
2)将输入的多视图序列传入到主干网络的初始特征提取层,通过初始特征提取层提取出各个视图中包含的特征信息,生成三维模型的初始特征图选择初始特征提取层的浅层特征图作为辅助网络的输入,其中k表示特征图来自于初始特征提取层的第k层,vi表示三维模型的第i张视图,一个三维模型共有v张视图;
[0043]
主干网络架构如图2所示,由初始特征提取层、一组基学习器和一个深度集成学习器构成。初始特征提取层采用由卷积、池化的设计模式构建的残差神经网络,提取出视图序列中的初始特征信息;其中,所述残差神经网络共包含四个不同阶段,如图3所示,每个阶段
由不同数量残差块构成,第一个阶段共包含一个7*7卷积层、一个最大池化层和三个残差块,旨在对视图进行初始预处理并对其进行浅层特征提取,第二个阶段是四个残差块,旨在对视图中信息和特征进行进一步抽象,第三个阶段是六个残差块,旨在对视图中包含的高级语义信息进行学习,第四个阶段是三个残差块,旨在对提取视图的高度抽象的语义特征;初始特征提取层将输入的视图序列均抽象为w
×h×
c的初始特征图其中w代表特征图的宽度,h代表特征图的高度,c代表特征图的通道数,vi表示三维模型的第i张视图;初始特征图包含了抽象的高级语义信息,有利于网络对三维模型的全局结构进行学习,并将其作为基学习器的输入特征图;而初始特征提取层的浅层特征图具备更加丰富的细节特征信息,对区分细粒度三维模型有利,因此选择部分浅层特征图作为辅助网络的输入。
[0044]
主干网络自动提取三维模型的全局结构特征。每个视图经过各自基学习器得到的样本与真实样本标签进行对比。而三维模型的分类映射信息经过深度集成学习器得到预测值与真实标签进行对比。为保证网络对细粒度三维模型的分类性能,则基学习器分类损失函数lossm和集成学习器分类损失函数losss,分别由如下公式求解:
[0045][0046][0047]
式中,n表示样本数目;l表示类别数目;χ{
·
}表示指示函数,如果第i个样本的真实标签为j,函数取值为1,否则取值为0,其中,表示三维模型第i个视图的真实标签;t
ij
表示第i个样本属于第j类的预测值;δ{
·
}表示指示函数,如果第i个样本的真实标签为j,函数取值为1,否则函数取值为-1,其中,表示第i个三维模型的真实标签;p表示l1正则化范式;
[0048]
主干网络的整体分类损失loss
main
可由如下公式求解:
[0049][0050]
式中,lossm表示第m个视图对应的基学习器对应的分类预测损失,v表示三维模型共有v张视图,α和β表示基学习器损失和集成学习器损失的权重分配。
[0051]
3)各个视图的初始特征图通过基学习器计算出初始分类决策,再利用深度集成学习器将所有视图的初始分类决策进行信息的集成,得到主干网络的最终分类决策;
[0052]
如图2所示,基学习器由一个全局平均池化层和两个全连接层构成,在基学习器中,视图通过初始特征提取层后得到具备高级语义信息的初始特征图通过全局平均池化层对其进行降维,利用(c,256)和(256,l)的全连接层产生各个视图的分类决策信息;其中,c表示特征图的通道数,l代表数据集中类别数量;而集成学习器由concat拼接层和一个全连接层构成;初始分类决策送入集成学习器后,先利用concat拼接操作将所有初始分类决策进行整合拼接,再利用一个(v
×
l,l)的全连接层得到三维模型的全局结构的最终分类决策,其中,v表示三维模型视图数量。
[0053]
4)将初始特征提取层的浅层特征图送入到辅助网络中,通过上下文细节感知模块捕捉三维模型的细节感知特征,并得出对应的初始特征;
[0054]
将初始特征提取层的特定三层浅层特征送入辅助网络,辅助网络结构如图4中(a)所示,由上下文细节感知模块、视图最大池化层以及全连接层构成,用于捕捉视图中包含的细节特征。上下文细节感知模块结构如图4中(b)所示,通过建立不同卷积层特征间的信息交互,提取出视图中包含的细节特征信息;首先对视图的浅层特征对应位置进行点乘操作,获得第i个视图的上下文细节感知特征图cf
mn
。再利用拼接操作对不同层级间的上下文细节感知特征进行融合,形成对应视图的细节感知特征图dfi,最后再送入全局平均池化层,将得到的细节特征进行降维。计算公式如下:
[0055][0056]
dfi=concat(g(cf
12
),g(cf
13
),g(cf
23
))
[0057]
式中,m和n分别为初始特征提取层第四阶段的第m个和第n个残差块,和则表示从第m个和第n个残差块取出的浅层特征图,γ为矩阵变换操作,将输入的c
×h×
w大小的矩阵变换为c
×
n,而n=h
×
w,c表示特征图的通道数,h表示特征图的高度,w表示特征的宽度,

为矩阵间的点乘操作;cf
mn
表示第m个和第n个残差块的浅层特征图的信息交互后的上下文细节感知特征图;cf
12
表示第1个和第2个残差块的浅层特征信息交互后的上下文细节感知特征图,cf
13
表示第1个和第3个残差块的浅层特征信息交互后的上下文细节感知特征图,cf
23
表示第2个和第3个残差块的浅层特征信息交互后的上下文细节感知特征图;g(
·
)为全局平均池化,concat表示拼接操作。
[0058]
辅助网络通过上下文细节感知模块捕捉到视图中的细粒度判别性信息后,视图最大池化层将视图中细节特征的信息进行整合,旨在找到视图中最显著的细节特征,使其具备类别代表性,然后通过一个(2048
×
3,l)的全连接层,得到细粒度特征对应的分类决策。
[0059]
为保证网络捕捉的细节特征具备判别性,则辅助网络的损失函数loss
auxi
可由如下公式求解:
[0060][0061]
式中,n表示样本数目;表示指示函数,若第i个样本的真实标签为j,函数取值为1,否则函数取值为0,其中li表示第i个样本;t
ij
表示第i个样本属于第j类的预测值。
[0062]
5)将主干网络与辅助网络的分类决策相结合,形成整体三维模型细分类网络的分类综合决策;并以此构建联合损失函数,使得三维模型细分类网络能将细粒度三维模型进行准确分类,完成三维模型多视图的细粒度分类。
[0063]
主干网络与辅助网络的分类决策进行融合形成综合分类决策,旨在将两个网络的分类结果进行融合,得到对三维模型分类的最终结果;其中,将主干网络的分类决策与辅助网络的分类决策进行加权和计算,其融合比例设置为1:1,得到三维模型所属的正确类别预测值。
[0064]
为保证方法的分类准确性,整体三维模型细分类网络的分类损失函数loss由如下
公式求解:
[0065]
loss=λ1loss
main
+λ2loss
auxi
[0066]
式中,λ1和λ2表示主干网络和辅助网络损失的权重分配,loss
main
表示主干网络的分类损失函数,loss
auxi
表示辅助网络的分类损失函数。
[0067]
试验配置:本文试验的硬件环境为intel xeon silver 4214+tesla v100 32gb+128g ram,软件环境为linux x64+cuda 10.0+cudnn 7.4+pytorch+python。
[0068]
数据集:本文试验所用数据集为细粒度三维模型数据集fg3d(fine-grained 3d datasets)。该数据集共包含3个子类别,分别为airplane(飞机),car(汽车)以及chair(椅子)。其中airplane子数据集中包含13个子类4174个模型,car子数据集包含20个子类8235个模型,chair子数据集包含33个子类13054个模型。fg3d中的视图均来自三维模型上斜30度后12个不同的视角下的二维表示。表1给出了本文选用数据集的基本信息。
[0069]
表1数据集的基本信息
[0070]
子数据集子类别数模型总数训练集测试集airplane(飞机)1341733441732car(汽车)20823570101315chair(椅子)3313054111241930
[0071]
表2细粒度三维模型分类准确率
[0072][0073][0074]
与通用三维模型分类方法相比,无法在该数据集上取得较好的效果。现有方法均仅聚焦于对三维模型视图中整体结构的学习和捕捉。而本发明的方法利用深度集成学习加强对三维模型的整体结构学习,设计辅助网络的上下文细节感知模块对视图中细粒度判别信息进行捕捉,以此学习到三维模型的细粒度特征,有效提升了细粒度三维模型分类方法的性能,且计算量和参数量适中。
[0075]
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1