模型训练方法、目标检测方法、装置、电子设备及介质与流程

文档序号：37643553发布日期：2024-04-18 18:08阅读：10来源：国知局

本申请涉及目标检测，尤其涉及一种模型训练方法、目标检测方法、装置、电子设备及介质。

背景技术：

1、工业质检场景中存在着有监督数据稀缺、对检测精度要求高，以及数据与语义信息关联不足等问题。获取大规模的高质量有监督数据是困难且成本高昂，而工业瑕疵检测对精度和可靠性要求极高，传统方法在适应复杂工业场景、避免过拟合和提升泛化能力方面存在限制，同时现有目标检测方法缺乏对目标的语义理解和利用语义信息指导预测过程，特别是在数据稀缺情况下这一问题更为突出。

技术实现思路

1、本申请提供一种模型训练方法、目标检测方法、装置、电子设备及介质，用以解决如何在不增加有监督数据的情况下提高目标检测精度的问题。

2、第一方面，本申请提供一种模型训练方法，所述方法包括：

3、获取待训练的目标检测模型、训练集以及目标检测标签，并利用预设的特征提取模型对所述训练集进行特征提取以得到图像特征，所述目标检测标签包括描述文本，所述描述文本包括目标的类别描述和所述类别描述在图像中的位置；

4、将所述图像特征输入至所述目标检测模型，并利用所述目标检测标签对所述目标检测模型进行训练，以得到所述目标检测模型的调整参数，所述调整参数用于确定目标检测结果。

5、在本申请一实施例中，所述方法还包括：

6、构建一语言模块，并在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息；

7、其中，所述高阶语义信息表示图像和所述描述文本之间关系；所述描述文本的模板为“{类型}：{类别描述}，位于{位置}”，所述语言模块包括文本编码器和位置编码器。

8、在本申请一实施例中，所述目标检测模型包括分类模块、预测模块和回归模块，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤包括：

9、提供具有标注瑕疵类别和位置划分方式的训练集，并为每个瑕疵类别和位置划分方式创建对应的描述文本；

10、将所述描述文本输入至所述文本编码器以得到对应的文本编码向量，所述文本编码向量用于表示描述文本的高阶语义信息。

11、在本申请一实施例中，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤还包括：

12、从所述分类模块中获取特征向量以作为图像块的类别特征向量；

13、将所述预测模块的输出结果与对应的类别特征向量输入至所述位置编码器，以生成融合位置信息的新向量。

14、在本申请一实施例中，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤还包括：

15、计算所述文本编码向量和所述新向量之间的相关性以得到相关性矩阵，并通过一相关性损失函数辅助所述目标检测模型学习高阶语义信息；

16、根据所述相关性矩阵和所述相关性损失函数对所述目标检测模型进行训练，以得到所述调整参数。

17、在本申请一实施例中，所述将所述预测模块的输出结果与对应的类别特征向量输入至所述位置编码器，以生成融合位置信息的新向量的步骤包括：

18、使用一位置编码函数对所述预测模块的输出结果进行编码，以得到位置信息，其中所述位置编码函数用于对所述预测模块的输出结果进行编码以捕捉图像中目标位置的信息；

19、根据所述类别特征向量与所述位置信息，以生成所述新向量，所述新向量包括所述类别特征向量所表示的目标类别的语义信息和通过位置编码所捕捉到的目标位置的信息。

20、在本申请一实施例中，所述计算所述文本编码向量和所述新向量之间的相关性，并使用一相关性损失函数辅助所述目标检测模型学习高阶语义信息的步骤包括：

21、获取所述文本编码向量的变换矩阵，所述变换矩阵是通过对所述文本编码向量进行转置操作得到；

22、根据所述变换矩阵和所述新向量，以得到所述相关性矩阵，所述相关性矩阵表示所述文本编码向量与所述新向量之间的相关关系。

23、第二方面，本申请还提供一种模型训练装置，所述装置包括：

24、获取模块，用于获取待训练的目标检测模型、训练集以及目标检测标签，并利用预设的特征提取模型对所述训练集进行特征提取以得到图像特征，所述目标检测标签包括描述文本，所述描述文本包括目标的类别描述和所述类别描述在图像中的位置；

25、训练模块，用于将所述图像特征输入至所述目标检测模型，并利用所述目标检测标签对所述目标检测模型进行训练，以得到所述目标检测模型的调整参数，所述调整参数用于确定目标检测结果。

26、第三方面，所述方法应用于一目标检测模型，所述目标检测模型是利用所述第一方面任一项所述的模型训练方法训练得到，所述方法包括：

27、获取一待检测图像，并利用预设的特征提取模型对其进行特征提取以得到图像特征；

28、将所述图像特征输入至训练好的所述目标检测模型，确定目标检测结果。。

29、第四方面，本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的模型训练方法或第三方面所述的目标检测方法的步骤。

30、第五方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的模型训练方法或第三方面所述的目标检测方法的步骤。

31、本申请提供的一种模型训练方法、目标检测方法、装置、电子设备及介质，该方法通过提供用于训练的目标检测模型、相应的训练数据集和目标检测标签，并使用预设的特征提取模型对训练集中的图像进行特征提取；将经过特征提取的图像特征输入目标检测模型，并结合目标检测标签进行模型训练；在模型训练过程中，得到训练好的目标检测模型的调整参数。

32、因此，本申请通过使用描述文本作为额外信息来引导目标检测模型学习更准确的目标特征，使目标检测模型在训练阶段能够学习到输入图像特征和目标检测标签之间的关系，提高模型对目标的理解能力，并提高检测精度，从而解决了如何在不增加有监督数据的情况下提高目标检测精度问题，并为模型提供了更丰富的上下文信息和语义信息，进一步优化了目标检测的性能。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述目标检测模型包括分类模块、预测模块和回归模块，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤还包括：

5.根据权利要求4所述的模型训练方法，其特征在于，所述在训练阶段使用所述语言模块辅助所述目标检测模型学习高阶语义信息的步骤还包括：

6.根据权利要求4所述的模型训练方法，其特征在于，所述将所述预测模块的输出结果与对应的类别特征向量输入至所述位置编码器，以生成融合位置信息的新向量的步骤包括：

7.根据权利要求5所述的模型训练方法，其特征在于，所述计算所述文本编码向量和所述新向量之间的相关性，并使用一相关性损失函数辅助所述目标检测模型学习高阶语义信息的步骤包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.一种目标检测方法，其特征在于，所述方法应用于一目标检测模型，所述目标检测模型是利用所述权利要求1至7任一项所述的模型训练方法训练得到，所述方法包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的模型训练方法或如权利要求9所述的目标检测方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法或如权利要求9所述的目标检测方法的步骤。

技术总结
本申请提供一种模型训练方法、目标检测方法、装置、电子设备及介质，所述模型训练方法包括：首先，获取模块用于获取待训练的目标检测模型、训练集以及目标检测标签，并利用预设的特征提取模型对所述训练集进行特征提取以得到图像特征。这些目标检测标签包括描述文本，其中包括目标的类别描述和所述类别描述在图像中的位置。其次，训练模块将所述图像特征输入至目标检测模型，并利用目标检测标签对目标检测模型进行训练。通过训练，可以得到目标检测模型的调整参数，这些调整参数用于确定目标检测结果。本申请通过训练好的目标检测模型，以使得其可在不增加有监督数据的情况下提高目标检测精度。

技术研发人员：马骥腾,王啸天,陈茂东,程大龙,魏思,殷保才,殷兵,胡国平
受保护的技术使用者：科大讯飞华南人工智能研究院（广州）有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马骥腾,王啸天,陈茂东,程大龙,魏思,殷保才,殷兵,胡国平
技术所有人：科大讯飞华南人工智能研究院（广州）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。