一种基于三模态知识蒸馏的3D视觉问答方法

文档序号：36388308发布日期：2023-12-15 03:42阅读：31来源：国知局

本发明涉及视觉问答，更具体的说是涉及一种基于三模态知识蒸馏的3d视觉问答方法。

背景技术：

1、给定一个图像/点云和以自然语言表示的问题，视觉问答的总体目标是生成精准可靠的答案，保证答案的内容不但和图像/点云的内容一致而且有效回答了相应的问题。视觉问答的形式主要有两种：自由开放式问答和固定选择式问答。在自由开放式问答中，答案可以是任何长度的自然语言文本；而在固定选择式问答中，答案只能从预先定义的标准答案列表中选择。在两种形式的视觉问答中，最关键的是从图像/点云和问题中提取语义化的特征，而所提特征质量的优劣直接决定了视觉问答的精准与否。此外，关联图像/点云中的视觉线索和问题中的相关信息对于视觉问答同样至关重要。

2、截止到目前为止，研究人员提出了一系列视觉问答方法。对于如何从图像和问题中提取语义化的特征，研究人员普遍采用网格-水平或物体-水平的特征来编码图像，而通过glove和bert编码单词和句子；此外，研究人员使用双线性注意力机制对图像特征和文本特征进行了简单的交互以及联合编码。对于如何学到二维图像中的前景区域和问题中的单词之间的关联关系，部分工作采用了隐式的消息传递机制、图像区域相互关联建模、对抗学习以及图形解析，而另一部分工作使用显式的场景视图或者外部先验知识。虽然上述方法已经在基于二维图像的视觉问答上取得了令人满意的性能，但是它们依旧存在三点不足：(1)立体视觉属性感知问题。使用二维图像训练的视觉问答模型缺少感知三维点云场景中物体的方向以及物体之间距离的能力；(2)物体遮挡问题。当数个物体重叠时，某些物体很可能受其它物体遮挡；(3)物体定位识别问题。将以非单一视图表示的三维点云场景(数个连续二维图像)输入二维视觉问答模型中，模型很难追踪不同图像上的同一物体并保持其语义特征不变。前述三点问题使得经典的二维视觉问答方法难以理解复杂的三维点云场景，如“课桌和椅子的位置关系是什么？”，从而导致无法直接将它们运用于三维视觉问答中。

3、近年来，研究人员正致力于将二维视觉问答拓展到三维领域中。目前，三维视觉问答均为固定选择式问答，其中按照场景划分又有两种形式：经典三维视觉问答和具身三维视觉问答。经典三维视觉问答中，方法从rgb-d室内场景点云中获取三维视觉信息，以回答和场景内容息息相关的问题，同时定位问题中提及的目标物体。具身三维视觉问答中，提供了描述智能代理在场景中情况(位置，方向等)的附加文本输入；方法必须先理解智能代理所处的场景，然后再回答和智能代理所处环境有关的问题。面向经典三维视觉问答，daichi-azuma等人提出了scanqa，其首先从3d候选物体和自然语言表示的问题中提取两者的联合嵌入特征，以作为视觉-语言描述符；而后基于视觉-语言描述符回答所提问题，同时定位问题中提及的目标物体。面向具身三维视觉问答，xiaojian-ma修改了scanqa的网络结构，其具体包括一个基于votenet的3d检测器，提取以候选物体为中心的三维场景特征；两个基于lstm的本文编码器，分别提取问题和智能代理环境描述的语言特征；一些基于跨模态注意力机制的transformer-decoder，以融合三维场景和语言特征，从而生成回答。

4、虽然上述方法均为针对三维视觉问答的“量体裁衣”，但是三维视觉问答数据集中样本量有限，只使用三维视觉问答数据集中的样本训练模型，难以使模型具备推理能力，导致预测的答案不精准、不可靠；而且，收集三维点云数据且人工标注问题-回答费时费力，获取海量经过标注的三维视觉问答数据不切实际。

技术实现思路

1、针对现有技术中模型预测的答案精度较低、标注数据获取困难等技术问题，本发明提供了一种基于三模态知识蒸馏3d视觉问答方法，其核心目的是依靠场景-水平和物体-水平的三维点云-二维图像特征和三维点云-文本特征的蒸馏，有效获取在大规模二维图像-语言样本上构建的基础性网络中潜在的推理能力，以提高方法理解复杂三维场景的能力，从而做到在无需大量标注的三维点云-文本样本的情况下，保证方法可以精准可靠的实现三维视觉问答。

2、为了实现上述目的，本发明提供如下技术方案：

3、一种基于三模态知识蒸馏的3d视觉问答方法，包括以下步骤：

4、步骤1、构建并训练三维视觉网络；

5、步骤2、将待进行3d视觉问答的三维点云数据以及问题输入训练好的三维视觉网络中，得到与问题对应的三维点云的场景特征以及三维点云中不同物体的视觉特征；

6、步骤3、将三维点云的场景特征、三维点云中不同物体的视觉特征、问题的语言特征输入transformer-decoder中进行特征交互，生成视觉-问题描述符，基于所述视觉-问题描述符，获取正确答案。

7、可选的，所述步骤1中，构建并训练三维视觉网络的方法为：

8、步骤1.1、构建三维视觉网络，所述三维视觉网络包括votenet和3dtransformer-encoder；

9、步骤1.2、基于三模态知识蒸馏，通过自我监督范式从基础性视觉-语言神经网络中蒸馏出先验知识，训练所述三维视觉网络。

10、可选的，所述步骤1.2中，进行三模态知识蒸馏的方法为：

11、步骤1.2.1、采用包含n个点云-图像-文本对的数据集{f3d，f2d，ft}作为训练集，其中f3d为来自基础性点云嵌入网络三维点云特征，f2d为来自基础性图像嵌入网络的二维图像特征，ft为来自基础性文本嵌入网络的描述性自然语言文本特征；

12、步骤1.2.2、获取训练集中二维图像的描述性自然语言文本ts、二维图像中不同物体的实例掩码以及各实例掩码的标题；

13、步骤1.2.3、对所述训练集分别进行场景-水平的三模态知识蒸馏和物体-水平的三模态知识蒸馏。

14、可选的，所述步骤1.2.2具体为：

15、步骤1.2.2.1、采取基础性图像字幕生成网络获取二维图像的描述性自然语言文本ts；

16、步骤1.2.2.2、采取基础性图像分割网络获取二维图像中不同物体的实例掩码，并采取基础性语言网络为各实例掩码生成标题，实例掩码记作

17、可选的，所述步骤1.2.3具体为：

18、步骤1.2.3.1、通过线性映射网络将三维点云特征f3d映射至和模态m匹配的隐式特征

19、采用平滑的l1损失函数来进行场景-水平的三模态知识蒸馏，场景-水平的三维点云-二维图像特征和三维点云-文本特征的蒸馏过程定义如下：

20、

21、其中l1(·)为平滑的l1损失函数；为场景-水平的蒸馏损失；为通过线性映射网络映射至和特征f2d维数匹配的三维点云特征；为通过线性映射网络映射至和特征ft维数匹配的三维点云特征；

22、步骤1.2.3.2、将记作实例掩码的特征，采用隐射函数将点云中的一组点匹配到相关的实例掩码，以得到三维掩码对于一个三维场景，使用平均池化得到整体性的实例掩码特征和点云掩码特征：

23、

24、

25、其中为整体性的实例掩码特征，为整体性的点云掩码特征，pi为实例掩码中像素点的数量，为点云掩码中体素点的数量，f2d(·)为线性映射网络；

26、对于物体-水平的三维点云-文本特征知识蒸馏，特征提取过程定义如下：

27、

28、

29、其中ts，i为实例掩码的标题，为实例掩码的标题的特征，为和实例掩码的标题的特征匹配的三维点云特征，et(·)为文本编码器，ft(·)为线性映射网络；

30、采用平滑的l1损失函数来进行物体-水平的三模态知识蒸馏，物体-水平的三维点云-二维图像特征和三维点云-文本特征的蒸馏过程定义如下：

31、

32、其中s为物体的数量；为物体-水平的蒸馏损失。

33、可选的，通过线性映射网络将三维点云特征f3d映射至和模态m匹配的隐式特征的方法为：

34、

35、其中em(·)为线性映射网络。

36、可选的，所述步骤3具体包括：

37、步骤3.1、将三维点云的场景特征、三维点云中不同物体的视觉特征、问题的语言特征输入transformer-decoder中进行特征交互，生成视觉-问题描述符：

38、fvl＝transformer(fq，[fs，fo]，[fs，fo])

39、其中fvl为视觉-问题描述符，fq为问题的语言特征，fs为场景-水平的三维点云特征，fo为物体-水平的点云特征，transformer(·)为transformer-decoder网络；

40、步骤3.2、基于所述视觉-问题描述符，从预设的标准答案列表中选择正确答案。

41、经由上述的技术方案可知，本发明提供了一种基于三模态知识蒸馏的3d视觉问答方法，与现有技术相比，具有以下有益效果：

42、第一，既有三维点云又有文本信息的样本量非常稀少，阻碍了研究者构建基础性点云-语言网络来理解复杂的三维场景；本发明通过基础性图像字幕生成网络基于与三维点云匹配的二维图像获取文本描述信息，有效弥补了场景-水平的点云-文本信息的匮乏，为基于自我监督范式的三维场景理解的性能提升提供了新的前瞻性方向。

43、第二，已有的方法只能做到场景-水平的三维点云-二维图像特征或者三维点云-文本特征的蒸馏；本发明通过基础性图像分割网络和基础性语言网络生成了细粒度的物体-水平的实例掩码和文本信息，使物体水平的三维点云-二维图像特征和三维点云-文本特征的蒸馏得以实现，从而为三维场景表示学习提供了新的方法学理论。

44、第三，所提的基于三模态知识的3d视觉问答方法的性能显著好于现有的3d视觉问答方法，在scanqa数据集上的em@1、bleu-1、bleu-4、rouce、meteor和cider达到了21.92、32.43、12.15、33.16、13.44、62.60。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷印杰王紫轩邱子阳唐涛薛榕融周礼亮谢勋伟
技术所有人：中国电子科技集团公司第十研究所中国科学院光电技术研究所
我是此专利的发明人

上一篇：基于
上一篇：一种核辐射环境水下浮动气缸调节装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。