基于视图的三维模型检索的图嵌入无监督特征学习方法

文档序号:26349712发布日期:2021-08-20 20:22阅读:148来源:国知局
基于视图的三维模型检索的图嵌入无监督特征学习方法

本发明涉及三维模型检索技术领域,具体涉及一种基于视图的三维模型检索的图嵌入无监督特征学习方法以及基于视图的三维模型检索的图嵌入无监督特征学习装置。



背景技术:

随着三维模型获取和打印技术的发展,三维模型呈爆炸性增长。由于三维数据的庞大和不断增长,先进的模式识别技术已成为处理这些数据以解决许多实际问题的基础,例如,数字娱乐,cad,医学诊断和三维场景理解。由于2d图像/视频检索任务的成功,三维模型检索引起了人们更多的关注,并为此提出了多种方法。

给定一个查询模型,三维模型检索目标是从三维模型数据集中找到相关的模型。现有的三维模型检索工作大致可分为两种:基于模型的方法和基于视图的方法。在基于模型的方法中,每个三维模型都由体积或点集表示。这些特征主要提取图形特征,例如表面分布、基于体素的特征、形状描述和傅里叶描述来表示三维模型,从而保留三维模型的空间结构和几何信息。这些方法的局限性在于模型质量低、计算量大。此外,当只有模型的视觉外观可用时,用这些方法表示模型是非常困难的。

近年来,基于视图的三维模型检索已经做了大量的工作。许多文献利用深度神经网络来描述三维模型的多视图特征。特别地,多视图卷积神经网络对多个视图采用最大池运算来生成模型级描述符。为了探索多个观点之间的相关性,冯等人利用基于组的模块来利用组级描述符。王等人根据视图的相似性,将视图周期性地聚集成不同的集合并将集合中的特征集中起来学习模型表示。这些方法高度依赖于大量标记样本,以确保模型能够学习有用的模式,而不是过度拟合数据。然而,对于大多数实际应用来说,大规模的三维标记数据总是很难获得。

三维模型分类和检索目前面临的主要挑战为:

1)由于三维模型质量低,计算量大,现有的方法表示模型非常困难;

2)基于视图的三维模型检索的方法高度依赖于大量标记样本,对于大多数实际应用来说,莫得三维标记数据总是很难获得。

因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述难点。



技术实现要素:

本发明的目的在于提供一种基于视图的三维模型检索的图嵌入无监督特征学习方法,来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面,提供一种基于视图的三维模型检索的图嵌入无监督特征学习方法,所述基于视图的三维模型检索的图嵌入无监督特征学习方法包括:

获取待检索三维模型;

获取三维数据库,所述三维数据库中包括多个预设三维模型;

获取待检索三维模型的视图特征以及各个预设三维模型的视图特征;

根据所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取第一模型排序图,所述第一模型排序图包括待检索三维模型分别与各个三维模型的第一距离信息;

对所述第一模型排序图进行修正,从而生成第二模型排序图,所述第二模型排序图包括待检索三维模型分别与各个三维模型的第二距离信息;

根据所述第二模型排序图获取正标签估计信息以及负标签估计信息;

根据所述正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型;

根据所述度量模型生成检索图,所述检索图包括待检索三维模型分别与各个三维模型的第三距离信息;

根据所述待检索三维模型的视图特征以及所述检索图,获取最终标签。

可选地,所述根据所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取第一模型排序图包括:

根据所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第一距离信息;

将所述待检索三维模型分别与各个三维模型的第一距离信息进行排序,从而得到所述第一模型排序图。

可选地,所述对所述第一模型排序图进行修正,从而生成第二模型排序图包括:

根据所述第一模型排序图获取第一近邻样本;

根据所述第一近邻样本获取第二近邻样本;

根据所述第二近邻样本获取第二模型排序图。

可选地,所述根据所述第二近邻样本获取第二模型排序图包括:

根据所述第二近邻样本以及所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第二距离信息;

将所述待检索三维模型分别与各个三维模型的第二距离信息进行排序,从而得到所述第二模型排序图。

可选地,所述根据所述第二模型排序图获取正标签估计信息以及负标签估计信息包括:

根据所述排序领域样本集以及所述第二模型排序图获取正标签估计信息;

根据所述第二模型排序图获取正标签估计信息。

可选地,根据所述正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型包括:

生成损失函数;

根据所述损失函数以及所述正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型。

可选地,根据所述度量模型生成检索图包括:

根据所述度量模型以及所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第三距离信息;

将所述待检索三维模型分别与各个三维模型的第三距离信息进行排序,从而得到所述检索图。

本申请还提供了一种基于视图的三维模型检索的图嵌入无监督特征学习装置,所述基于视图的三维模型检索的图嵌入无监督特征学习装置包括:

待检索三维模型获取模块,所述待检索三维模型获取模块用于获取待检索三维模型;

三维数据库获取模块,所述三维数据库获取模块用于获取三维数据库,所述三维数据库中包括多个预设三维模型;

视图特征获取模块,所述视图特征获取模块用于获取待检索三维模型的视图特征以及各个预设三维模型的视图特征;

第一模型排序图获取模块,所述第一模型排序图获取模块用于根据所述待检索三维模型的视图特征以及所述预设三维模型的视图特征获取第一模型排序图,所述第一模型排序图包括待检索三维模型分别与各个三维模型的第一距离信息;

修正模块,所述修正模块用于对所述第一模型排序图进行修正,从而生成第二模型排序图,所述第二模型排序图包括待检索三维模型分别与各个三维模型的第二距离信息;

标签估计模块,所述标签估计模块用于根据所述第二模型排序图获取正标签估计信息以及负标签估计信息;

度量学习模块,所述度量学习模块用于根据所述正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型;

检索图生成模块,所述检索图生成模块用于根据所述度量模型生成检索图,所述检索图包括待检索三维模型分别与各个三维模型的第三距离信息;

最重标签获取模块,所述最重标签获取模块用于根据所述待检索三维模型的视图特征以及所述检索图,获取最终标签。

本申请还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于视图的三维模型检索的图嵌入无监督特征学习方法。

本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的基于视图的三维模型检索的图嵌入无监督特征学习方法。

有益效果

采用本申请的基于视图的三维模型检索的图嵌入无监督特征学习方法可以得到稳定的检索图和判别距离度量,相对于现有技术,结果更为稳定,最重标签更为准确。

附图说明

图1为本发明第一实施例的基于视图的三维模型检索的图嵌入无监督特征学习方法的流程示意图。

图2是现有技术的相似性度量结果的示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制。

图1为本发明第一实施例的基于视图的三维模型检索的图嵌入无监督特征学习方法的流程示意图。

如图1所示的基于视图的三维模型检索的图嵌入无监督特征学习方法包括:

步骤1:获取待检索三维模型;

步骤2:获取三维数据库,三维数据库中包括多个预设三维模型;

步骤3:获取待检索三维模型的视图特征以及各个预设三维模型的视图特征;

步骤4:根据待检索三维模型的视图特征以及预设三维模型的视图特征获取第一模型排序图,第一模型排序图包括待检索三维模型分别与各个三维模型的第一距离信息;

步骤5:对第一模型排序图进行修正,从而生成第二模型排序图,第二模型排序图包括待检索三维模型分别与各个三维模型的第二距离信息;

步骤6:根据第二模型排序图获取正标签估计信息以及负标签估计信息;

步骤7:根据正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型;

步骤8:根据度量模型生成检索图,检索图包括待检索三维模型分别与各个三维模型的第三距离信息;

步骤9:根据待检索三维模型的视图特征以及所述检索图,获取最终标签。

采用本申请的基于视图的三维模型检索的图嵌入无监督特征学习方法可以得到稳定的检索图和判别距离度量,相对于现有技术,结果更为稳定,最重标签更为准确。

在本实施例中,根据待检索三维模型的视图特征以及预设三维模型的视图特征获取第一模型排序图包括:

根据待检索三维模型的视图特征以及预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第一距离信息;

将待检索三维模型分别与各个三维模型的第一距离信息进行排序,从而得到第一模型排序图。

对于任意两个三维模型vi和vj(可以是待检索三维模型也可以是预设三维模型),利用集对集距离度量配对模型的相似度,并利用相似度构造第一模型排序图。与那些对每个模型的所有视图都一视同仁的方法不同,我们采用正则化仿射壳(rah)来减少噪声视图的影响,并抑制最终模型表示中不必要的成分。对于模型,其rah表示定义如下:

其中,

j∈{1,2,...,s},s是视图数,是l2范数。式(1)将原始的一组视图级特征转换为具有所学系数的单个特征向量。此特征空间下两个模型之间的距离为vi模型和vj模型之间的最终距离以对数逻辑形式表示:

随后,根据式2,我们可以根据待检索三维模型的视图特征以及预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第一距离信息;将所述待检索三维模型分别与各个三维模型的第一距离信息进行排序,从而得到所述第一模型排序图,其表示为r0(p,g)={g1,g2,...,gn},其中dm(p,gi)<dm(p,gi+1)。

在本实施例中,所述对所述第一模型排序图进行修正,从而生成第二模型排序图包括:

根据第一模型排序图获取第一近邻样本;

根据第一近邻样本获取第二近邻样本;

根据第二近邻样本获取第二模型排序图。

仅使用视觉特征进行图形处理可能会限制整体性能,因为每个3d模型甚至与属于同一类的其他模型都可能有显著差异,邻域的上下文信息可以增强相似度测量。在这一部分中,我们利用k-倒数最近邻的信息对第一模型排序图进行了改进。

具体地,在本实施例中,根据排序领域样本集获取第一近邻样本,即:

r1(p,k1)={gi|(gi∈r0(p,k1))∧(p∈r0(gi,k1))}(3)

其中,r1为第一近邻样本,r0为第一模型排序图。

由于k-倒数邻域来自k-近邻,并且由于姿态和视角的变化,正样本可能来自k-近邻。为了增强邻域,我们将r1(p,k1)中每个候选者的k1附加邻域增量地添加到更健壮的集r2(p,k1)中:

其中,

r1为第一近邻样本,r2为第二近邻样本。

然后,我们考虑r2(p,k1)作为上下文知识来重新计算p和gi之间的距离。如果两个模型相似,则它们的k倒数近邻集相互重叠,即集合中存在一些共享样本。共享的样本越多,两个模型就越相似。p和gi之间新的距离可以通过它们的k倒数集的jaccard度量计算为其中||表示集合中的候选数目,我们采用jaccard距离重新计算p和gi之间的相似性。随后,我们使用dj(,)得到第二模型排序图r*

在本实施例中,根据第二近邻样本获取第二模型排序图包括:

根据第二近邻样本以及待检索三维模型的视图特征以及所述预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第二距离信息;

将待检索三维模型分别与各个三维模型的第二距离信息进行排序,从而得到所述第二模型排序图。

在本实施例中,根据第二模型排序图获取正标签估计信息以及负标签估计信息包括:

根据排序领域样本集以及第二模型排序图获取正标签估计信息;

根据第二模型排序图获取正标签估计信息。

在本实施例中,根据正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型包括:

生成损失函数;

根据损失函数以及正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型。

具体地,在本实施例中,我们利用查询模型的kreciprol信息发现查询模型与其秩图之间的对标签信息。我们将表示为顶部k个邻居,表示为底部k个样本。为了简化参数设置,我们定义了

1)正标签估计信息:在这一部分中,我们利用查询模型的邻居信息来估计成对模型是否属于同一类。一般来说,如果每个查询模型的邻居都是准确的,也就是说顶部邻居来自相同的类别,我们可以直接使用查询的顶部k个邻居作为阳性样本:

或者定义一个阈值θ来选择置信正样本:

实际上,在查询模型的顶部k个邻居中总是存在几个错误的阳性结果。如果只选择前k个样本作为阳性样本,会导致k较大的错误阳性样本太多,k较小的阳性样本太少;同时,如果使用阈值θ来选择样本,很难定义一个合适的全局阈值来满足所有的查询样本。为了同时抑制具有顶部k个邻域和阈值的负样本,我们引入了一种数据驱动机制来自动定义阈值来选择顶部k个邻域中的正样本。(正负与阴阳),我们同时使用第一模型排序图r0和第二模型排序图r*来估计正面标签,而且,如果我们对所有正面标签一视同仁,即y+(p,q)=1,这是不合理的。因此,我们设计一个带有高斯核的软标签作为正标签。具体来说,我们将公式5和公式6修改如下:

其中,此设置旨在尽可能多地选择正样本,并使用自适应阈值限制硬负样本。

2)负标签估计:根据前面的描述,相似的模型有相似的top-k邻居。直观地说,如果p与q相似,q的bottom-k样本与p不同,如果只使用查询模型的bottom-k样本作为负样本,则由于它们离查询样本较远,对度量学习区分硬负样本的贡献较小,容易产生负标签。根据这一假设,我们利用查询本身的bottom-k信息和类似查询模型gi的bottom-k样本来估计负标签,定义为:

其中

在本实施例中,根据度量模型生成检索图包括:

根据度量模型以及待检索三维模型的视图特征以及预设三维模型的视图特征获取待检索三维模型分别与各个三维模型的第三距离信息;

将待检索三维模型分别与各个三维模型的第三距离信息进行排序,从而得到检索图。

具体地,在给定上述分段中估计的正对和负对的情况下,我们可以设计损失函数来学习判别度量,并像许多有监督的工作那样增强检索任务。具体来说,损失函数可设计如下:

其中,μ是恒定的正偏压,并且是所有样本对之间的平均距离,以考虑dm的下限为零。在矩阵m下,dm表示vi和vj之间的距离,用表示。模型vi的一阶统计量和模型vj的表示样本集在高维空间中的平均位置,用来表示每个视图集,并用于度量学习。

logistic函数提供了一个软边界来分离这两个类,我们可以通过以下方法获得概率度量学习问题:

其中ωij是处理不平衡正负对的参数,如果y(i,j)>0,由定义,如果y(i,j)<0,定义为npos是正样本对的数目、nneg是负样本对的数目。随后,我们可以使用现有的加速近端梯度算法来求解方程(10),并得到最优的m。我们可以将m分解为m=ppt。p是一个投影度量(映射矩阵)。这样,可以将模型p和模型gi之间的马氏距离转换为欧氏距离,如下所示,

在学习p之后,我们可以使用公式11重新计算两个模型之间的相似性度量,并更新图结构以选择高置信度对。随后,我们可以利用这些对学习新的p来更新图。通过迭代重复整个过程,更新后的图可以产生更可靠的结果,并且可以进一步改进之前学习到的度量。最后,经过几次迭代,可以得到稳定的秩图和判别距离度量。

下面以举例的方式对本申请进行进一步详细阐述,可以理解的是,该举例并不构成对本申请的任何限制。

1、数据集

三个常用的三维模型数据集被用于评估,包括ntu、mv-red和eth。ntu数据集包含来自万维网页面的549个模型,这些模型有47个类别,所有这些模型都可以通过internet免费下载。所有模型都转换为wavefront文件格式,并保存为obj文档格式,每个对象包括60个不同的视图样本。mv-red由60个类别的505个对象组成。每一个对象同时被三个方向的三台摄像机记录下来。对于数据采集,camera-45和camera-60分别通过步进电机控制的表均匀旋转,每10度采集36个rgb图像。自顶向下视图中的一个rgb图像由camera-90捕捉。因此,每个对象拥有73个图像。eth数据集包含8个类别和80个对象。每个对象有41个不同的视图,这些视图均匀地分布在上视图半球上,相机的所有位置都是通过将八面体的面细分到第三个递归级别来确定的。

2、评估标准

为了对每个数据集进行评估,将每个三维模型选择一次作为检索查询。为了评估三维模型检索的性能,我们采用了七种常用的标准,包括auc、nn、ft、st、f-measure、dcg和anmrr。精确召回曲线能够全面展示检索性能,它通过改变模型检索中区分相关性和不相关性的阈值来说明精确性和召回措施。计算pr曲线下面积(auc)可用于定量评估。最近邻(nn)定义为评估最近邻返回结果的检索精度。第一层(ft)用于计算前κ个结果的召回率,其中κ是查询最相关对象的数量。第二层(st)被定义为对前2κ结果的召回率。f度量(f)联合评估最高相关结果的精确度和召回率,它考虑每个查询的前20个返回结果。贴现累积收益(dcg)根据排名位置对相关结果的价值进行贴现,由于用户认为较低的结果较少,因此将相关结果分配给权重较高的排名最高的位置。平均归一化检索秩(anmrr)通过考虑排序顺序来评估排序性能,并使用检索对象中相关对象的排序信息来度量检索结果。anmrr值越低表示性能越好。

3、实验设置与竞争方法

对于单视图图像的特征表示,我们采用了在imagenet数据集上预先训练的alexnet模型来提取视觉特征。所有视图图像首先调整为256x256。我们使用第二个最后完全连接的层的输出作为视觉表示,它为每个视图生成4096维向量。共采用7种基线方法(包括两种基于距离的方法,最近邻(nn)和hausdorff距离(haus),两种基于统计的方法自适应视图聚类(avc)和无摄像机约束视图(ccfv),三种基于图的方法,加权二部图匹配(wbgm)、多模态团图比较了匹配(mcg)和层次图结构学习(hgs))进行比较。相关工作部分讨论了相竞争的方法。

4、实验结果与讨论

在ntu、mvred和eth上进行了大量实验来评估该方法的有效性。

实施例1

与现有技术比较:与现有方法的比较显示在图2中。一般来说,本申请的方法在三个数据集上都优于基于距离和统计的方法,这说明本申请的方法利用图结构和图匹配来学习三维模型的模型空间特征,从而有利于相似性度量。与三种方法相比,我们的方法在所有被评估数据集上都取得了竞争性的性能。具体来说,我们可以得到几个观察结果:

1)与基于距离的方法相比,该方法在所有三个数据集上均优于nn和huas。具体而言,

在ntu数据集上,我们的方法在基于nn,ft,st,f-measure,dcg和dc的增益方面分别比基于距离的方法提高了4.8%-21.2%,19.6%-28.8%,17.4%-21.8%,15.9%-24.5%。anmrr下降了15.8%-28.4%(图2(a))。在mvred(图2(b))上,我们观察到了5.2%-47.7%,14.8%-87.3%,14.6%-75.0%,14.8%-67.1%,10.6%-72.9%的增益。anmrr下降13.7%-37.6%。在eth(图2(c))上,我们可以实现3.9%-21.5%,9.6%-51.1%,5.2%-23.6%,3.5%-18.6%,7.1%-39.0%的增长并实现anmrr下降32.4%-66.7%。

与基于统计的方法相比,本申请的方法在ntu上基于nn,ft,st,f-measure,dcg的增益分别为9.2%-100.3%、20.6%-97.3%、17.8%-74.4%、18.1%-75.3%、17.8%-104.9%,anmrr下降16.1%-35.9%。在mvred上,增益可以达到5.2%-47.7%,14.8%-87.3%,14.6%-75.0%,14.8%-67.1%,10.6%-72.9%,anmrr下降13.7%-37.6%。在eth上,增益分别为3.9%-21.5%、9.6%-51.1%、5.2%-23.6%、3.5%-18.6%、7.1%-39.0%,anmrr下降32.4%-66.7%。

3)与基于图的方法相比,本申请的方法在ntu上基于nn,ft,st,f-measure,dcg的增益分别为0.1%-6.6%,2.0%-16.6%,1.9%-16.6%,2.8%-14.8%,0.9%-13.3%,anmrr下降2.2%-13.6%。在图2(b)中,在mvred上的增益改善分别为0.3%-1.1%,16.0%-1.9%,14.0%-2.3%,14.5%-2.1%,10.9%-0.7%,anmrr下降14.5%-2.1%。在eth上,由图2(c)所示,我们可以观测到基于nn,ft,st,f-measure,dcg增益为1.3%-5.3%,1.3%-11.2%,2.2%-4.4%,1.7%-3.7%,1.2%-8.8%。anmrr下降6.9%-36.3%。

实施例2

邻居数敏感性分析:在mvred数据集上评估邻居数和的影响。结果如图2所示。我们把和从5调到30。当我们改变时,根据经验将设置为20,然后通过将固定为最佳值来调整。通过增加来改善性能,并且当κ1=10时获得最佳结果。我们观察到,在峰值到达后分配给κ1一个大值时,性能降低。由于邻域集合中的负样本较多,过多的邻域会对相似性度量产生负面影响.可以找到k2的类似观测。根据上述观察,设置κ1=10和κ2=20可以得到最佳结果。在所有的实验中,我们使用10作为邻域大小来构造秩图,使用20作为邻域大小来预测正负标签。

实施例3

视图数敏感性分析:对于大多数实际应用,人们总是希望在尽可能少的视图图像的情况下进行三维模型检索。因此,我们通过改变mvred上使用的视图数来评估检索性能,mvred是实际应用中最具挑战性的三维数据集。为了进一步验证该方法的稳健性,我们将其与其他有代表性的方法进行了比较,特别是将视图数从10调整到70,步长为10。并对特定视点数平均10次随机试验。根据比较结果,我们有以下观察结果:

1)所有的方法都可以通过增加视图数目得到一致的改进,这是合理的,因为更多的视图可以传达三维模型更多的的外观和结构特征。

2)我们的方法在所有的评价标准上都能持续地优于竞争方法。当视图数从10增加到70时,我们的方法可以获得基于auc,ft,st,f-measure的12.1%,6.1%,14.8%,6.7%,4.9%的增益,且anmrr下降4.6%。特别是,我们的40个视图的方法优于次优的方法,在auc、ft、st、f-measure、dcg可以获得6.0%、5.5%、3.8%、4.4%、3.6%的增益,anmrr下降5.7%。

实施例4

迭代次数的灵敏度分析:学习投影度量后,可以用更新初始图,迭代学习投影度量。我们将迭代次数从1变为5。在ntu、mvred和eth上进行比较。从结果可以看出,迭代法可以提高系统的性能。具体来说,就nn而言,我们可以在eth上得到98.8%,在mvred上得到83.0%,在ntu上得到77.0%。而且,只有经过几次迭代才能得到稳定的结果。因此,该方法具有很强的鲁棒性,可以获得较高的性能。考虑到性能和计算成本,我们在实验中使用了t=3。

表1不同的数据集的速度比较(s/query)

实施例5

特征可视化:我们使用来自eth的8个类别中的3280个样本(一个3d模型的每个视图都被视为一个样本)和来自mvred和ntu的8个类别中的其他3280个样本,通过t-sne[46]对我们的方法前后的视觉特征进行可视化。我们有以下观测:(1)原始特征没有被很好区分,来自不同类别的样本在eth上碰撞成一团混乱,而我们的方法显然可以很好地分离来自不同类别的样本。(2)属于同一类的原始特征是分散的,并且不同类的原始特征是混淆的。然而,我们的方法仍然可以成功地将样本从不同的类别中分离出来,并将它们与相应的簇对齐,从而可以压缩属于同一类别的样本。这些深入的结果显示了我们的图形信息嵌入特征空间策略的有效性。

实施例6

速度分析:对于实际应用,速度是评价检索性能的重要因素。为了证明我们的方法的有效性,我们在表一中的三个数据集上演示了不同方法的速度。为了公平比较,所有方法都在单核windows7旗舰x64上进行了测试(cpu:3.3ghz;ram:8gb)。实验结果表明,我们的方法比其他方法快得多。具体来说,我们提出的方法查询一次ntu数据集只需0.25s,而在ntu上取得次优结果的hgs则需要31.63s。考虑到速度,次优的方法是nn(5.04s),而其性能远低于我们的方法。

实施例7

现有方法的标签估计:我们在三个数据集上通过使用现有的方法初始化等级图来评估所提出的方法。结果分别列在表2、3和4。从结果来看,我们有以下观察结果:

1)在三个数据集上,我们的方法在所有的评价标准上都优于所有基于距离、基于统计和基于图的方法。例如,就nn,ft,st,f-measure,dcg,auc和ann而言,我们的方法提高了最优方法hgs的性能,分别提高了1.7%,6.6%,2.7%,3.6%,3.7%,4.9%。就ntu的anmrr而言,下降了6.7%,如表2所示。在mvred上,我们的方法提高了hgs的性能,nn、ft、st、f-measure、dcg、auc分别提高了0.7%、7.0%、3.0%、4.2%、4.4%、4.5%,anmrr下降了7.7%,如表3所示。在eth上,如表4所示,我们的方法提高了hgs的性能,nn、ft、st、f-measure、dcg、auc分别提高了2.6%、0.3%、1.4%、0.3%、0.6%、0.1%,anmrr下降4.7%。

2)即使使用性能较低的方法初始化秩图,我们的方法仍然可以提高性能。特别是对于基于距离的nn,我们可以得到在eth数据集基于nn,ft,st,f-measure,dcg,auc的6.8%,4.2%,1.5%,1.2%,5.0%,4.6%的增益,以及15.8%的anmrr上的下降,如表4所示。类似的性能可以在ntu和mvred上获得,分别如表2和表3所示。

表2ntu中标签估计与现有方法的比较

表3mvred中标签估计与现有方法的比较

表4eth中标签估计与现有方法的比较

本申请还提供了一种基于视图的三维模型检索的图嵌入无监督特征学习装置,所述基于视图的三维模型检索的图嵌入无监督特征学习装置包括待检索三维模型获取模块、三维数据库获取模块、视图特征获取模块、第一模型排序图获取模块标签估计模块、度量学习模块、检索图生成模块、最重标签获取模块以及修正模块,其中,

待检索三维模型获取模块用于获取待检索三维模型;三维数据库获取模块用于获取三维数据库,三维数据库中包括多个预设三维模型;

视图特征获取模块用于获取待检索三维模型的视图特征以及各个预设三维模型的视图特征;

第一模型排序图获取模块用于根据待检索三维模型的视图特征以及预设三维模型的视图特征获取第一模型排序图,第一模型排序图包括待检索三维模型分别与各个三维模型的第一距离信息;

修正模块用于对第一模型排序图进行修正,从而生成第二模型排序图,第二模型排序图包括待检索三维模型分别与各个三维模型的第二距离信息;

标签估计模块用于根据所述第二模型排序图获取正标签估计信息以及负标签估计信息;

度量学习模块用于根据正标签估计信息以及负标签估计信息进行度量学习,从而获取度量模型;

检索图生成模块用于根据度量模型生成检索图,检索图包括待检索三维模型分别与各个三维模型的第三距离信息;

最重标签获取模块用于根据待检索三维模型的视图特征以及检索图,获取最终标签。

需要说明的是,前述对方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。

本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的基于视图的三维模型检索的图嵌入无监督特征学习方法。

举例来说,电子设备包括输入设备、输入接口、中央处理器、存储器、输出接口以及输出设备。其中,输入接口、中央处理器、存储器以及输出接口通过总线相互连接,输入设备和输出设备分别通过输入接口和输出接口与总线连接,进而与计算设备的其他组件连接。具体地,输入设备接收来自外部的输入信息,并通过输入接口将输入信息传送到中央处理器;中央处理器基于存储器中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器中,然后通过输出接口将输出信息传送到输出设备;输出设备将输出信息输出到计算设备的外部供用户使用。

本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的基于视图的三维模型检索的图嵌入无监督特征学习方法。

本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数据多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1