图像识别模型的训练方法、图像识别方法、装置及设备与流程

文档序号：36643132发布日期：2024-01-06 23:27阅读：21来源：国知局

本技术涉及人工智能，尤其涉及一种图像识别模型的训练方法、图像识别方法、装置及设备。

背景技术：

1、图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种目标和对象的技术，可以应用在例如人脸识别、商品识别等各种场景。

2、常用的图像识别算法例如卷积神经网络、聚类等，都是在图像空间提取特征，再利用提取到的特征进行分类识别。通过增加网络层数可以提取到图像较深层次的特征，但是提取的特征受限于图像空间，很难满足一些识别难度较大的识别需求。例如，对于识别目标与背景画面有较高相似性的图像来说，即使在图像空间上提取较多特征，识别的精度也较低。

技术实现思路

1、本技术提供一种图像识别模型的训练方法、图像识别方法、装置及设备，能够提高图像识别的精度。

2、第一方面，本技术提供一种图像识别模型的训练方法，包括：

3、构建图像识别模型，所述图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；获取训练样本，以及所述训练样本中的对象所属的类别；将所述训练样本输入所述图像识别模型中，通过所述第一特征提取模块提取所述训练样本的视觉特征，通过所述第二特征提取模块提取所述训练样本的文本特征；将所述文本特征与所述视觉特征输入所述语义注意力机制模块，得到语义权重；基于所述语义权重对所述文本特征进行加权后，将所述加权后的文本特征与所述视觉特征输入所述特征融合模块，得到所述训练样本的多模态特征；将所述多模态特征输入所述分类器，得到所述分类器基于所述多模态特征确定的预测类别；确定所述训练样本所属的类别与所述训练样本的所述预测类别之间的损失；基于所述损失，对所述图像识别模型进行调整，直到调整后的所述图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

4、采用本方案，图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器。第一特征提取模块可以提取训练样本的视觉特征，第二特征提取模块提取训练样本中的文本特征，特征融合模块可以将将视觉特征与文本特征融合为多模态特征，从而增强图像的特征，提高图像特征的表征能力。同时语义注意力机制模块可以确定文本特征的语义权重，为文本特征加权，从而增强文本特征，提高模型识别的准确性。

5、在本技术的一种可能的实施方式中，所述第一特征提取模块包括卷积神经网络、第一空间注意力机制和第一通道注意力机制；所述通过所述第二特征提取模块提取所述训练样本的视觉特征，包括：通过所述卷积神经网络对所述训练样本进行特征提取，得到第一特征；通过所述第一空间注意力机制确定对于所述第一特征的空间权重；通过所述第一通道注意力机制确定对于所述第一特征的通道权重；基于所述空间权重与所述通道权重对所述第一特征进行加权，得到视觉特征。

6、在本技术的一种可能的实施方式中，所述第二特征提取模块包括字符检测模块，第二空间注意力机制和第二通道注意力机制；所述通过所述第二特征提取模块提取所述训练样本的文本特征，包括：通过所述字符检测模块对所述训练样本进行字符检测，得到所述训练样本的第二特征；通过所述第二空间注意力机制确定所述第二特征的空间权重；通过所述第二通道注意力机制确定所述第二特征的通道权重；基于所述第二特征的空间权重以及所述第二特征的通道权重，对所述第二特征进行加权，得到文本特征。

7、第二方面，本技术提供一种图像识别方法，应用于部署有采用前述的图像识别模型的训练方法训练完成的图像识别模型的电子设备，该方法包括：获取待处理图像；将所述待处理图像输入到所述图像识别模型中，通过所述图像识别模型提取所述待处理图像的多模态特征，并获得所述图像识别模型基于所述多模态特征输出的识别结果；所述识别结果包括所述待处理图像所属的目标类型。

8、采用本方案，电子设备上部署有图像识别模型，该图像识别模型可以提取待处理图像的文本特征、视觉特征，融合为多模态特征，利用该图像识别模型提取的信息更加全面，特征的表征能力更强，通过多模态特征来识别待处理图像的类型，能够提高图像识别的精确性。

9、在本技术的一种可能的实施方式中，还包括：获取检索数据集，所述检索数据集中包括每种类型的多个样本图像；通过所述图像识别模型提取各个所述样本图像的多模态特征；将所述待处理图像的多模态特征与所述样本图像的多模态特征进行对比，确定与所述待处理图像相匹配的目标样本图像；将所述目标样本图像作为所述待处理图像的识别结果。

10、在本技术的一种可能的实施方式中，所述确定与所述待处理图像相匹配的目标样本图像之后，还包括：获取待处理视频；通过所述图像识别模型，提取所述待处理视频中每帧图像的多模态特征；将所述每帧图像的多模态特征与所述目标样本图像的多模态特征进行对比，得到与所述目标样本图像相匹配的图像区域；在所述待处理视频中将所述图像区域进行标注，将所述标注作为所述待处理图像的识别结果。

11、在本技术的一种可能的实施方式中，所述在所述待处理视频中将所述图像区域进行标注之后，还包括：对所述图像区域进行马赛克处理或者擦除处理。

12、第三方面，本技术提供一种图像识别模型的训练装置，包括：模型构建模块，用于构建图像识别模型，所述图像识别模型包括第一特征提取模块、第二特征提取模块、语义注意力机制模块、特征融合模块和分类器；样本获取模块，用于获取训练样本，以及所述训练样本中的对象所属的类别；特征提取模块，用于将所述训练样本输入所述图像识别模型中，通过所述第一特征提取模块提取所述训练样本的视觉特征，通过所述第二特征提取模块提取所述训练样本的文本特征；权重确定模块，用于将所述文本特征与所述视觉特征输入所述语义注意力机制模块，得到语义权重；特征融合模块，用于基于所述语义权重对所述文本特征进行加权后，将所述加权后的文本特征与所述视觉特征输入所述特征融合模块，得到所述训练样本的多模态特征；图像分类模块，用于将所述多模态特征输入所述分类器，得到所述分类器基于所述多模态特征确定的预测类别；损失计算模块，用于确定所述训练样本所属的类别与所述训练样本的所述预测类别之间的损失；模型训练模块，用于基于所述损失，对所述图像识别模型进行调整，直到调整后的所述图像识别模型的损失小于预设值时训练完成，得到训练完成的图像识别模型。

13、第四方面，本技术提供一种图像识别装置，包括：图像获取模块，用于获取待处理图像；特征识别模块，用于将所述待处理图像输入到所述图像识别模型中，通过所述图像识别模型提取所述待处理图像的多模态特征，并获得所述图像识别模型基于所述多模态特征输出的识别结果；所述识别结果包括所述待处理图像所属的目标类型。

14、第五方面，本技术提供一种电子设备，该电子设备包括存储器、一个或多个处理器。其中，该存储器中存储有一个或多个计算机程序，计算机程序包括指令，当该指令被处理器执行时，可使得电子设备执行如第一方面中的图像识别模型的训练方法。

15、第六方面，本技术提供一种计算机可读介质，该计算机可读介质中存储有指令，当该指令在电子设备上运行时，使得电子设备执行如第二方面中的图像识别方法。

16、第七方面，本技术提供一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面所述的图像识别模型的训练方法。

17、第八方面，本技术提供一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第二方面所述的图像识别方法。

18、可以理解地，上述提供的图像识别模型的训练装置、图像识别装置、电子设备、计算机可读介质、计算机程序产品所能达到的有益效果，可参考第一方面或第二方面中的有益效果，此处不再赘述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王发发
技术所有人：北京奇艺世纪科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。