目标检测模型的训练方法、装置、设备及存储介质与流程

文档序号：35869904发布日期：2023-10-28 02:00阅读：46来源：国知局

本技术涉及人工智能，尤其涉及一种目标检测模型的训练方法、装置、电子设备及存储介质。

背景技术：

1、人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

2、在相关技术中，通常直接将预训练的视觉-语言模型迁移到目标检测任务中使用，或者是使用这种带噪声的候选框-单词对，蒸馏或重训练目标检测模型，这样都可能会影响目标检测位置的定位，同时降低模型学习过程中对象级视觉-语言知识对齐的精确度，从而导致目标检测的准确度较低。

技术实现思路

1、本技术实施例提供一种目标检测模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，有效提高目标检测模型的检测准确度。

2、本技术实施例的技术方案是这样实现的：

3、本技术实施例提供一种目标检测模型的训练方法，包括：

4、获取文本-图像对，所述文本-图像对包括一张图像及用于描述所述图像的描述文本；

5、调用目标检测模型，对所述图像进行目标检测，得到所述图像中的多个对象；

6、获取所述图像的图像特征，以及所述描述文本中各关键词的词特征，并将所述图像特征与各所述词特征分别进行融合，得到各所述关键词对应的融合特征；

7、基于各所述关键词对应的融合特征，对多个所述对象进行筛选，得到目标对象；

8、基于所述描述文本中各关键词及所述目标对象，构建各所述关键词对应的关键词-目标对象组；

9、基于所述关键词-目标对象组，对所述图像进行样本标注，得到所述图像对应的图像样本，并基于所述图像样本，对所述目标检测模型进行训练。

10、本技术实施例提供一种目标检测模型的训练装置，包括：

11、获取模块，用于获取文本-图像对，所述文本-图像对包括一张图像及用于描述所述图像的描述文本；

12、目标检测模块，用于调用目标检测模型，对所述图像进行目标检测，得到所述图像中的多个对象；

13、融合模块，用于获取所述图像的图像特征，以及所述描述文本中各关键词的词特征，并将所述图像特征与各所述词特征分别进行融合，得到各所述关键词对应的融合特征；

14、筛选模块，用于基于各所述关键词对应的融合特征，对多个所述对象进行筛选，得到目标对象；

15、构建模块，用于基于所述描述文本中各关键词及所述目标对象，构建各所述关键词对应的关键词-目标对象组；

16、训练模块，用于基于所述关键词-目标对象组，对所述图像进行样本标注，得到所述图像对应的图像样本，并基于所述图像样本，对所述目标检测模型进行训练。

17、在一些实施例中，上述融合模块，还用于针对各所述关键词分别执行以下处理：对所述关键词的词特征和所述图像特征进行模态融合，得到多模态特征，所述多模态特征与所述词特征的特征维度相同；将所述多模态特征和所述词特征进行特征融合，得到参考融合特征，并对所述参考融合特征进行线性映射，得到与所述参考融合特征维度相同的线性映射特征；将所述线性映射特征和所述参考融合特征进行特征融合，得到所述关键词对应的融合特征。

18、在一些实施例中，上述筛选模块，还用于获取各所述对象的对象特征，并确定各所述对象特征与各所述融合特征的相似度；基于所述相似度，确定各所述对象的近似熵；基于所述近似熵，对所述多个对象进行筛选，得到所述近似熵小于熵阈值的对象作为所述目标对象。

19、在一些实施例中，上述筛选模块，还用于针对各所述对象特征分别执行以下处理：获取所述对象特征的置信度，并将所述对象特征和各所述融合特征进行相乘，得到各所述融合特征对应的乘积特征；基于所述乘积特征和所述置信度，确定所述对象特征和各所述融合特征的相似度。

20、在一些实施例中，上述筛选模块，还用于针对各所述融合特征分别执行以下处理：确定所述对象特征的范数和所述融合特征的范数，并将所述对象特征的范数和所述融合特征的范数进行相乘，得到乘积范数；将所述乘积特征和所述乘积范数进行相除，得到相除结果；将所述相除结果和所述置信度的乘积，确定为所述对象特征和所述融合特征的相似度。

21、在一些实施例中，上述筛选模块，还用于针对各所述融合特征分别执行以下处理：确定所述对象特征的范数和所述融合特征的范数，并将所述对象特征的范数和所述融合特征的范数进行相乘，得到乘积范数；将所述乘积特征和所述乘积范数进行相除，得到相除结果；将所述相除结果和所述置信度的乘积，确定为所述对象特征和所述融合特征的相似度。

22、在一些实施例中，上述筛选模块，还用于将各所述对象的对象特征与各所述融合特征的相似度进行归一化处理，得到各所述对象特征对应的归一化相似度；将各所述对象特征对应的归一化相似度进行加和，得到加和相似度；将所述加和相似度的相反数和各所述归一化相似度的对数值相乘，得到各所述对象特征的相乘结果；将各所述相乘结果确定为相应的所述对象的近似熵。

23、在一些实施例中，上述构建模块，还用于获取各所述目标对象的对象特征，并针对各所述关键词分别执行以下处理：获取所述关键词对应的融合特征与各所述目标对象的对象特征之间的目标相似度；基于所述目标相似度，从多个目标对象中，选取至少一个目标对象作为组成对象；其中，所述组成对象对应的目标相似度大于非组成对象对应的目标相似度，所述非组成对象为，所述多个目标对象中除所述组成对象以外的目标对象；基于至少一个所述组成对象和所述关键词，构建所述关键词对应的关键词-目标对象组。

24、在一些实施例中，上述构建模块，还用于按照所述目标相似度从高至低的顺序，对各所述目标对象进行排序，得到目标对象队列；从所述目标对象队列的队首开始，选取至少一个所述目标对象，并将所选取的所述目标对象，确定为所述组成对象。

25、在一些实施例中，所述关键词-目标对象组包括一个所述关键词和至少一个所述目标对象，所述关键词与所述关键词-目标对象组呈一一对应关系；上述训练模块，还用于获取各所述目标对象的对象特征，并针对各所述关键词-目标对象组分别执行以下处理：获取所述关键词对应的融合特征与各所述目标对象的对象特征之间的相似度；基于所述融合特征与各所述对象特征之间的相似度，对所述关键词-目标对象组进行筛选，得到多个筛选后关键词-目标对象组，并将所述筛选后关键词-目标对象组，确定为样本标注组；针对各所述样本标注组分别执行以下处理：从所述样本标注组的所述目标对象中，选取至少部分所述目标对象，作为标注对象；基于所述标注对象和所述样本标注组对应的所述关键词，构建所述样本标注组对应的目标样本标注组；基于所述目标样本标注组，对所述图像进行样本标注，得到所述图像对应的图像样本。

26、在一些实施例中，上述训练模块，还用于针对各所述关键词-目标对象组执行以下处理：当所述关键词-目标对象组中的所述目标对象的数量为一个，且所述目标对象对应的所述相似度大于相似度阈值时，将所述关键词-目标对象组确定为所述筛选后关键词-目标对象组；当所述关键词-目标对象组中的所述目标对象的数量为多个，且存在至少一个所述目标对象对应的所述相似度大于所述相似度阈值时，将所述关键词-目标对象组确定为所述筛选后关键词-目标对象组。

27、在一些实施例中，上述训练模块，还用于当所述样本标注组中的所述目标对象的数量为一个时，将所述样本标注组中的所述目标对象，确定为所述标注对象；当所述样本标注组中的所述目标对象的数量为多个时，基于所述图像中目标对象之间面积的交并比，对多个所述目标对象进行合并处理，得到至少一个所述标注对象。

28、在一些实施例中，上述训练模块，还用于针对所述样本标注组对应的各所述目标对象分别执行以下处理：将所述目标对象确定为参考组成对象；确定所述参考组成对象与各其他组成对象之间面积的交并比，其中，所述其他组成对象是所述样本标注组中除所述参考组成对象以外的目标对象；当所述交并比大于交并比阈值时，将所述其他组成对象和所述参考组成对象的并集，确定为所述标注对象。

29、本技术实施例提供一种电子设备，包括：

30、存储器，用于存储计算机可执行指令或者计算机程序；

31、处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本技术实施例提供的目标检测模型的训练方法。

32、本技术实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本技术实施例提供的目标检测模型的训练方法。

33、本技术实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本技术实施例上述的目标检测模型的训练方法。

34、本技术实施例具有以下有益效果：

35、通过目标检测模型，对文本-图像对中的图像进行目标检测，得到图像中的多个对象，将文本-图像对中描述文本的词特征和图像的图像特征进行融合，得到各关键词对应的融合特征，通过融合特征对多个对象进行筛选，得到关键词-目标对象组，通过关键词-目标对象组，对图像进行样本标注，通过得到的图像样本对目标检测模型进行训练，得到训练后目标检测模型。如此，在各词特征中，有效融合了图像特征，实现了对各词特征的信息增强，从而后续在利用融合特征对多个对象进行筛选时，充分利用了图像的图像特征，从而有效提高了筛选准确率，对多个对象的筛选，通过得到与融合特征更加匹配的目标对象，利用目标对象进行后续模型训练，从而有效提高了训练后的目标检测模型的检测准确度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈珮娴盛柯恺张梦丹李珂沈春华
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种基于语音识别的处理方法和相关装置与流程
上一篇：一种降低苹果植株H2O2含量的基因及其应用与植株培养方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。