本发明的实施例的方面涉及包含图像和3d模型标记和分类的数字媒体标记和分类领域,以及相关用户界面系统。
背景技术:
1、例如图像、音频、录音和视频的各种类型的数字媒体文档通常包含元数据,所述元数据包含数字媒体文档的文本描述。这种元数据可包含例如时戳的信息,以及相关数字媒体文档的内容的标记和/或叙述描述。这些元数据可在基于搜索来执行文本时使用,以便识别与搜索查询相关的媒体文档。元数据还可用以对数字媒体文档进行归类或分类。
2、作为一个实例,与数字相片相关联的元数据可包含例如图像尺寸(在像素方面)和图像色深的技术信息以及描述相片内容的元数据。与森林中的徒步旅行者的照片相关联的元数据可包含照片内容的文本描述,例如“林地”、“森林”、“树木”、“植物”、“绿色”、“阴影”、“花”、“徒步旅行(hike)”、“徒步旅行者”、“徒步旅行(hiking)”等。
3、三维(3d)模型是数字媒体文档的另一种形式,且普遍用于诸如广告、质量控制、视频游戏、虚拟现实和增强现实应用的情形中。在过去,3d模型通过使用(例如)计算机辅助设计(cad)工具而手动地生成。一般来说,形成这些模型是劳动密集型任务,尤其当形成详细模型时。近年来,深度相机和3d扫描器已提供了替代方法,其中详细的3d模型可通过对真实物理物体的形状的数字捕获而形成。
4、使用cad工具、深度相机和3d扫描器生成的三维模型还可得益于元数据标记。举例来说,3d模型可用于电子商务网站上的产品列表中,且与3d模型相关联的元数据可用于生成或填充相关产品列表中的信息。举例来说,车辆的3d模型可包含元数据信息,例如汽车的品牌和型号、内部和外观颜色、状况(例如,存在凹痕或损坏)以及类似元数据信息。这些元数据可添加到产品列表中的信息,使得购物者可搜索呈特定颜色的特定类型的汽车。
5、然而,手动地生成这些用于每一3d模型的元数据可能耗费时间,且可能产生不一致和排列组织不良的结果。举例来说,汽车可能标记为“红色”,而红色色调的实际名称可能是“红宝石色”。关于车辆的其它信息也可能不正确,例如特定型号的名称的拼写。
技术实现思路
1、本发明的实施例的方面是关于具有元数据的自动增强三维(3d)模型,以及用于采集和生成那些3d模型的系统。
2、根据本发明的一个实施例,用于自动地生成用于媒体文档的元数据的方法包含:使用卷积神经网络来计算媒体文档的特征向量;搜索媒体文档集合以用于具有与媒体文档的特征向量类似的相应特征向量的一或多个匹配媒体文档,所述媒体文档集合中的每一媒体文档与元数据相关联;基于与一或多个匹配媒体文档相关联的元数据来生成用于媒体文档的元数据;以及显示与所生成元数据相关联的媒体文档。
3、媒体文档可以是三维(3d)模型。计算特征向量可包含:界定3d模型周围的限界框以生成有界3d模型;使有界3d模型体素化以计算多个体素;以及根据所述体素生成特征向量。媒体文档集合可包含三维(3d)模型集合,且搜索媒体文档集合可包含根据迭代最近点技术来计算3d模型与3d模型集合的3d模型中的一个之间的距离。计算特征向量可包含:从多个角度再现3d模型以再现3d模型的多个二维(2d)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,所述单视图特征向量中的每一个对应于3d模型的2d视图中的一个;使多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据池化特征向量计算特征向量。媒体文档集合可包含二维(2d)图像集合,计算特征向量可包含计算3d模型的一或多个特征向量,一或多个匹配媒体文档可包含2d图像集合的一或多个匹配2d图像,且所述匹配2d图像的相应特征向量中的每一个可类似于3d模型的一或多个特征向量中的至少一个。方法可进一步包含:使用三维扫描器来捕获3d模型,所述三维扫描器包含:两个或更多个红外(ir)相机;以及一或多个ir准直照明器。
4、媒体文档可包含一或多个二维(2d)图像,媒体文档集合可包含三维(3d)模型集合,计算特征向量可包含计算一或多个2d图像的一或多个特征向量,一或多个匹配媒体文档可包含3d模型集合的一或多个匹配3d模型,且所述匹配3d模型的相应特征向量中的每一个可类似于3d模型的一或多个特征向量中的至少一个。计算特征向量可包含:根据一或多个2d图像来计算物体的3d模型;以及从3d模型提取特征向量。从3d模型提取特征向量可包含:界定3d模型周围的限界框以生成有界3d模型;使有界3d模型体素化以计算多个体素;以及根据所述体素生成特征向量。
5、从3d模型提取特征向量可包含:从多个角度再现3d模型以再现3d模型的多个二维(2d)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,单视图特征向量中的每一个对应于3d模型的2d视图中的一个;使多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据池化特征向量计算特征向量。
6、方法可进一步包含接收用户输入,所述用户输入包含对所生成元数据的多个字段中的一或多个的验证。
7、所生成元数据和与媒体文档中的每一个相关联的元数据各自可包含多个字段,且生成元数据可包含:针对多个字段的每一字段来识别以一或多个匹配媒体文档中的大于阈值数的元数据出现的数据,以及将识别数据添加到所生成元数据。
8、所生成元数据可包含媒体文档的类别,且方法可进一步包含:将媒体文档的特征向量供应到分类器以计算媒体文档的分类;以及基于分类来计算类别。
9、方法可进一步包含将媒体文档和所生成元数据添加到媒体文档集合。
10、一或多个匹配媒体文档的一或多个相应特征向量中的每一个可具有与媒体文档的特征向量在多维空间中的相应距离,且每一相应距离可小于阈值距离。
11、方法可进一步包含接收与媒体文档相关联的元数据,其中搜索所述媒体文档集合可包含识别媒体文档集合中的具有与相关联于媒体文档的元数据的多个字段中的至少一个相匹配的元数据的一或多个媒体文档,且其中所述匹配媒体文档可包含所识别一或多个媒体文档中的至少一个。
12、媒体文档集合可包含第一媒体文档集合和第二媒体文档集合,其中与用户相关联的访问策略容许对第一媒体文档集合的访问且拒绝对第二媒体文档集合的访问,且其中搜索所述媒体文档集合限于第一媒体文档集合。
13、根据本发明的一个实施例,用于自动地生成用于媒体文档的元数据的系统包含:处理器;以及存储器,其具有存储于其上的指令,所述指令在由处理器执行时使得处理器进行以下操作:使用卷积神经网络来计算媒体文档的特征向量;搜索媒体文档集合以用于具有与媒体文档的特征向量类似的相应特征向量的一或多个匹配媒体文档,媒体文档集合的每一媒体文档与元数据相关联;基于与一或多个匹配媒体文档相关联的元数据来生成用于媒体文档的元数据;以及显示与所生成元数据相关联的媒体文档。
14、媒体文档可以是三维(3d)模型。用于计算特征向量的指令可包含在由处理器执行时使得处理器进行以下操作的指令:界定3d模型周围的限界框以生成有界3d模型;使有界3d模型体素化以计算多个体素;以及根据所述体素生成特征向量。媒体文档集合可包含三维(3d)模型集合,且用于搜索所述媒体文档集合的指令可包含在由处理器执行时使得处理器根据迭代最近点技术来计算3d模型与3d模型集合的3d模型中的一个之间的距离的指令。用于计算特征向量的指令可包含在由处理器执行时使得处理器进行以下操作的指令:从多个角度再现3d模型以再现3d模型的多个二维(2d)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,单视图特征向量中的每一个对应于3d模型的2d视图中的一个;使多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据池化特征向量计算特征向量。媒体文档集合可包含二维(2d)图像集合,用于计算特征向量的指令可包含在由处理器执行时使得处理器计算3d模型的一或多个特征向量的指令,一或多个匹配媒体文档可包含2d图像集合的一或多个匹配2d图像,且匹配2d图像的相应特征向量中的每一个可类似于3d模型的一或多个特征向量中的至少一个。系统可进一步包含三维扫描器,所述三维扫描器包含:两个或更多个红外(ir)相机;以及一或多个ir准直照明器,其中存储器可进一步存储在由处理器执行时使得处理器使用三维扫描器来捕获3d模型的指令。
15、媒体文档可包含一或多个二维(2d)图像,媒体文档集合可包含三维(3d)模型集合,用于计算特征向量的指令可包含在由处理器执行时使得处理器计算一或多个2d图像的一或多个特征向量的指令,一或多个匹配媒体文档可包含3d模型集合的一或多个匹配3d模型,且匹配3d模型的相应特征向量中的每一个可类似于3d模型的一或多个特征向量中的至少一个。用于计算特征向量的指令可包含在由处理器执行时使得处理器进行以下操作的指令:根据一或多个2d图像来计算物体的3d模型;以及从3d模型提取特征向量。用于从3d模型提取特征向量的指令可包含在由处理器执行时使得处理器进行以下操作的指令:界定3d模型周围的限界框以生成有界3d模型;使有界3d模型体素化以计算多个体素;以及根据所述体素生成特征向量。用于从3d模型提取特征向量的指令可包含在由处理器执行时使得处理器进行以下操作的指令:从多个角度再现3d模型以再现3d模型的多个二维(2d)视图;使用一或多个卷积神经网络来生成多个单视图特征向量,单视图特征向量中的每一个对应于3d模型的2d视图中的一个;使多个单视图特征向量池化以计算池化特征向量;以及使用末级卷积神经网络来根据池化特征向量计算特征向量。
16、存储器可进一步存储在由处理器执行时使得处理器接收用户输入的指令,所述用户输入包含对所生成元数据的多个字段中的一或多个的验证。
17、所生成元数据和与媒体文档中的每一个相关联的元数据可各自包含多个字段,且用于生成元数据的指令可包含在由处理器执行时使得处理器进行以下操作的指令:针对多个字段的每一字段来识别以一或多个匹配媒体文档的大于阈值数的元数据出现的数据,以及将所识别数据添加到所生成元数据。
18、所生成元数据可包含媒体文档的类别,且存储器可进一步存储在由处理器执行时使得处理器进行以下操作的指令:将媒体文档的特征向量供应到分类器以计算媒体文档的分类;以及基于所述分类来计算类别。
19、存储器可进一步存储在由处理器执行时使得处理器将媒体文档和所生成元数据添加到媒体文档集合的指令。
20、一或多个匹配媒体文档的一或多个相应特征向量中的每一个可具有与媒体文档的特征向量在多维空间中的相应距离,且每一相应距离可小于阈值距离。
21、存储器可进一步存储在由处理器执行时使得处理器接收与媒体文档相关联的元数据的指令,其中用于搜索媒体文档集合的指令可包含在由处理器执行时使得处理器识别媒体文档集合中的具有与相关联于媒体文档的元数据的多个字段中的至少一个相匹配的元数据的一或多个媒体文档,且其中匹配媒体文档可包含所识别一或多个媒体文档中的至少一个。
22、媒体文档集合可包含第一媒体文档集合和第二媒体文档集合,其中与用户相关联的访问策略容许对第一媒体文档集合的访问且拒绝对第二媒体文档集合的访问,且其中搜索所述媒体文档集合限于第一媒体文档集合。