本说明书涉及数据处理,尤其涉及一种三维模型匹配、多模态特征映射模型的训练方法及装置。
背景技术:
1、在一些场景中,用户存在查找其所需的三维模型的需求。为了满足这类用户的需求,提供一种三维模型匹配方法成为亟待解决的问题。
技术实现思路
1、本说明书一个或多个实施例提供了一种三维模型匹配方法及装置,以实现对三维模型的匹配。
2、根据第一方面,提供一种三维模型匹配方法,包括:
3、根据第一对象,使用目标多模态特征映射模型,确定所述第一对象对应的至少一个第一特征,其中,所述目标多模态特征映射模型基于样本图文对训练获得,所述样本图文对包括对应的文本和深度图,所述第一对象为第一文本或者第一三维模型;
4、获取第二三维模型对应的至少一个第二特征,各个所述第二特征根据所述第二三维模型的深度图,通过使用所述目标多模态特征映射模型而生成;
5、基于所述第一对象对应的第一特征,以及所述第二三维模型对应的多个第二特征,确定所述第一对象与所述第二三维模型的匹配结果。
6、在一种可选实施方式中,所述第一对象为第一三维模型;
7、所述确定所述第一对象对应的至少一个第一特征,包括:
8、确定所述第一三维模型在至少一个预设的第一视角下的第一深度图;
9、根据各个第一深度图,使用所述目标多模态特征映射模型的图像编码器,确定各个第一深度图对应的第一特征。
10、在一种可选实施方式中,所述第二三维模型的深度图,包括:各个第二三维模型分别在至少一个所述第一视角下的深度图;
11、所述确定所述第一对象与所述第二三维模型的匹配结果,包括:
12、计算所有第一深度图对应的第一特征的平均值,得到所述第一三维模型的平均特征;
13、针对各个第二三维模型,计算该第二三维模型对应的第二特征的平均值,得到各个第二三维模型的平均特征;
14、基于所述第一三维模型的平均特征和各个第二三维模型的平均特征,确定所述第一三维模型与各个第二三维模型的匹配结果。
15、在一种可选实施方式中,所述确定所述第一三维模型与各个第二三维模型的匹配结果,包括:
16、计算所述第一三维模型的平均特征,分别与各个第二三维模型的平均特征之间的第一相似度值;
17、将所对应第一相似度值最大的第二三维模型,确定为与所述第一三维模型匹配的三维模型。
18、在一种可选实施方式中,所述第一对象为第一文本;
19、所述确定所述第一对象对应的至少一个第一特征,包括:
20、根据所述第一文本,使用所述目标多模态特征映射模型的文本编码器,确定所述第一文本对应的第一特征。
21、在一种可选实施方式中,所述确定所述第一对象与所述第二三维模型的匹配结果,包括:
22、计算所述第一文本对应的第一特征,分别与各个第二特征之间的第二相似度值;
23、基于各个第二相似度值,确定所述第一文本与所述第二三维模型的匹配结果。
24、在一种可选实施方式中,所述第二三维模型为多个;
25、所述基于各个第二相似度值,确定所述第一文本与所述第二三维模型的匹配结果,包括:
26、基于各个第二相似度值,从所述多个第二特征中,确定出所对应第二相似度值最大的n个第三特征,n为正整数;
27、确定各个第三特征对应的第二三维模型;
28、将对应第三特征数量最多的第二三维模型,确定为与所述第一文本匹配的三维模型。
29、根据第二方面,提供一种多模态特征映射模型的训练方法,包括:
30、获取训练数据集中的样本图文对,所述样本图文对包括样本深度图及其对应的样本文本;
31、根据所述样本深度图和所述样本文本,使用待训练的多模态特征映射模型,确定所述样本深度图对应的图特征和所述样本文本对应的文本特征;
32、以最大化所述图特征和所述文本特征之间的相似度为目标,调整所述待训练的多模态特征映射模型的参数。
33、在一种可选实施方式中,在所述获取训练数据集中的样本图文对之前,还包括:
34、获取色彩图像及其对应的第二文本;
35、根据所述色彩图像,使用深度估计模型,得到所述色彩图像对应的第二深度图,其中,所述第二深度图包括各像素的深度值,所述深度估计模型基于样本色彩图像及其对应的深度图训练获得;
36、基于所述第二文本和所述第二深度图,组成一组样本图文对,将其归入所述训练数据集。
37、在一种可选实施方式中,在所述获取训练数据集中的样本图文对之前,还包括:
38、获取样本三维模型;
39、从至少一个第二视角,对所述样本三维模型进行渲染,得到各个第二视角对应的三维模型渲染图和第三深度图,其中,所述第三深度图包括,所述样本三维模型在所对应第二视角下对应的深度值;
40、根据各个三维模型渲染图,使用图像描述生成模型,确定各个三维模型渲染图对应的第三文本,其中,所述图像描述生成模型用于,基于输入的图像生成对应的文本描述;
41、基于各个三维模型渲染图对应的第三文本和所述样本三维模型在各个第二视角下对应的第三深度图,组成各个第二视角对应的样本图文对,将其归入所述训练数据集。
42、根据第三方面,提供一种三维模型匹配装置,包括:
43、第一确定模块,配置为根据第一对象,使用目标多模态特征映射模型,确定所述第一对象对应的至少一个第一特征,其中,所述目标多模态特征映射模型基于样本图文对训练获得,所述样本图文对包括对应的文本和深度图,所述第一对象为第一文本或者第一三维模型;
44、第一获取模块,配置为获取第二三维模型对应的至少一个第二特征,各个所述第二特征根据所述第二三维模型的深度图,通过使用所述目标多模态特征映射模型而生成;
45、第二确定模块,配置为基于所述第一对象对应的第一特征,以及所述第二三维模型对应的多个第二特征,确定所述第一对象与所述第二三维模型的匹配结果。
46、根据第四方面,提供一种多模态特征映射模型的训练装置,包括:
47、第二获取模块,配置为获取训练数据集中的样本图文对,所述样本图文对包括样本深度图及其对应的样本文本;
48、第三确定模块,配置为根据所述样本深度图和所述样本文本,使用待训练的多模态特征映射模型,确定所述样本深度图对应的图特征和所述样本文本对应的文本特征;
49、调整模块,配置为以最大化所述图特征和所述文本特征之间的相似度为目标,调整所述待训练的多模态特征映射模型的参数。
50、根据第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面所述的方法。
51、根据第六方面,提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面所述的方法。
52、根据本说明书实施例提供的三维模型匹配、多模态特征映射模型的训练方法及装置,在三维模型匹配过程中,根据第一对象,使用目标多模态特征映射模型,确定出第一对象对应的至少一个第一特征,其中,目标多模态特征映射模型基于样本图文对训练获得,样本图文对包括对应的文本和深度图,第一对象为第一文本或者第一三维模型;获取第二三维模型对应的至少一个第二特征,各个第二特征根据第二三维模型的深度图,通过使用目标多模态特征映射模型而生成;基于第一对象对应的第一特征,以及第二三维模型对应的多个第二特征,确定第一对象与第二三维模型的匹配结果。
53、上述过程中,通过基于对应的文本和深度图训练获得的目标多模态特征映射模型,可以确定出第一对象对应的至少一个第一特征,之后获取第二三维模型对应的至少一个第二特征,而各个第二特征根据第二三维模型的深度图,通过使用目标多模态特征映射模型而生成,这样可以保证第一对象的至少一个第一特征和第二三维模型对应的至少一个第二特征之间是对齐的,接着基于对齐的第一对象对应的第一特征和第二三维模型对应的多个第二特征,将第一对象与第二三维模型进行匹配,确定第一对象与第二三维模型的匹配结果,可以实现文本与三维模型之间的匹配,或者三维模型与三维模型之间的匹配。