本技术涉及计算机,特别是涉及一种图像分类方法、装置、设备、存储介质和程序产品。
背景技术:
1、随着人工智能技术与计算机技术的飞速发展,图像处理技术应用于各类业务场景中。其中,图像分类技术利用图像的特征对其进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
2、目前,图像分类技术多是基于深度学习的,图像分类的准确性往往依赖于大量的人工标注的图像数据,而且分类效果往往随着人工标注图像数据量的增长才会有较为明显的提升。然而,人工标注的图像数据的质量良莠不齐,同时人工标注工作量极大,需要花费大量的人工标注成本,效率也非常低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种图像分类方法、装置、设备、存储介质和程序产品,能够降低人工标注工作量,减少大量的人工标注成本,提高标注效率。
2、第一方面,本技术提供了一种图像分类方法。所述方法包括:
3、获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
4、对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
5、确定生成相应差异最小的预测噪声图像所依赖的提示文本;
6、将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。
7、第二方面,本技术还提供了一种图像分类装置。所述装置包括:
8、获取模块,用于获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
9、噪声预测模块,用于对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
10、确定模块,用于确定生成差异最小的预测噪声图像所依赖的提示文本;
11、标签分类模块,用于将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。
12、在一个实施例中,所述噪声预测模块用于通过所述扩散模型的图像编码器,对所述原始图像进行图像编码,得到所述原始图像的图像编码表示;通过所述扩散模型的扩散器,将所述随机噪声图像对应的噪声信息叠加至所述图像编码信息,得到所述带噪图像。
13、在一个实施例中,所述噪声预测模块用于通过所述扩散模型的文本编码器,对所述提示文本进行语义编码,得到所述提示文本对应的文本语义表示;将所述带噪图像和所述文本语义表示输入至所述扩散模型的噪声预测器中,通过所述噪声预测器输出预测噪声图像。
14、在一个实施例中,所述噪声预测器包括多个交替连接的残差网络和注意力层;所述噪声预测模块用于将所述带噪图像和所述随机噪声图像所对应的随机噪声量编码信息输入第一个残差网络,通过所述第一个残差网络,输出预测噪声信息;将所述预测噪声信息和所述文本语义表示输入第一个注意力层,通过所述第一个注意力层,输出注意力信息;从第二个残差网络开始,依次地将下一个残差网络作为当前残差网络,将下一个注意力层作为当前注意力层,将与所述当前残差网络连接的上一个注意力层输出的上一个注意力信息以及所述随机噪声量编码信息输入所述当前残差网络,通过所述当前残差网络,输出预测噪声信息;将所述当前残差网络输出的预测噪声信息和所述文本语义表示输入所述当前注意力层,通过所述当前注意力层,输出注意力信息;将末尾注意力层输出的注意力信息作为所述预测噪声图像。
15、在一个实施例中,所述装置还包括第一训练模块,所述第一训练模块用于获取训练样本,所述训练样本包括样本文本、样本图像和用于表示所述样本文本和所述样本图像是否匹配的标注信息;通过初始图像编码器,对所述样本图像进行图像编码,得到所述样本图像的图像编码表示;通过初始文本编码器,对所述样本文本进行语义编码,得到所述样本文本对应的文本语义表示;计算所述图像编码表示与所述文本语义表示之间的相似度,根据所述相似度确定关于所述样本文本与所述样本图像是否匹配的预测结果;根据所述标注信息和所述预测结果的差异,构建样本损失,根据所述样本损失更新所述初始图像编码器和所述初始文本编码器后返回所述获取训练样本的步骤继续训练,得到所述扩散模型的图像编码器和所述扩散模型的文本编码器。
16、在一个实施例中,所述获取模块还用于获取提示文本模板与多个图像标签;将所述多个图像标签中的每个图像标签,分别填充至所述提示文本模板中,得到多个与相应的图像标签对应的提示文本。
17、在一个实施例中,所述获取模块还用于对所述原始图像进行划分,得到多个子图;所述噪声预测模块还用于对于每个子图,依次从所述多个提示文本中获取提示文本,对于每次获取的提示文本,将所述子图、获取的提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述子图和所述随机噪声图像生成带噪子图,根据所述带噪子图与所述提示文本生成子预测噪声图像,计算生成的所述子预测噪声图像与所述随机噪声图像的差异;
18、所述确定模块还用于确定生成差异最小的子预测噪声图像所依赖的提示文本;
19、所述标签分类模块还用于将所述所依赖的提示文本对应的图像标签,作为所述子图的图像标签;将所述多个子图各自的图像标签,作为所述原始图像的图像标签。
20、在一个实施例中,所述装置还包括第二训练模块,所述第二训练模块用于获取训练样本,所述训练样本包括通用图像和业务图像,多个第一样本图像均来源于通用图像,多个第二样本图像均来源于业务图像,所述多个第一样本图像中第一样本图像所具有的图像标签形成的图像标签集合,与所述多个第二样本图像中第二样本图像所具有的图像标签形成的图像标签集合相同;在第一训练阶段,使用所述多个第一样本图像和所述多个第二样本图像,对初始扩散模型进行第一阶段的模型训练,得到第一阶段训练好的扩散模型;在第二训练阶段,使用所述通用图像,对所述第一阶段训练好的扩散模型继续进行第二阶段的模型训练,得到第二阶段训练好的扩散模型;将所述第二阶段训练好的扩散模型,作为所述已训练好的扩散模型。
21、在一个实施例中,所述第二训练模块还用于对于每个样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型。
22、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
23、获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
24、对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
25、确定生成相应差异最小的预测噪声图像所依赖的提示文本;
26、将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。
27、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
28、获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
29、对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
30、确定生成相应差异最小的预测噪声图像所依赖的提示文本;
31、将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。
32、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
33、获取原始图像和多个提示文本,每个提示文本根据不同的图像标签生成;
34、对于每个提示文本,将所述原始图像、所述提示文本与随机噪声图像输入已训练好的扩散模型,通过所述扩散模型根据所述原始图像和所述随机噪声图像生成带噪图像,根据所述带噪图像与所述提示文本生成预测噪声图像,计算生成的所述预测噪声图像与所述随机噪声图像的差异;
35、确定生成相应差异最小的预测噪声图像所依赖的提示文本;
36、将所述所依赖的提示文本对应的图像标签,作为所述原始图像的图像标签。
37、上述图像分类方法、装置、设备、存储介质和程序产品,获取多个提示文本,每个提示文本根据不同的图像标签生成;对于每个提示文本,将原始图像、提示文本与随机噪声图像输入已训练好的扩散模型,通过扩散模型生成预测噪声图像,计算生成的预测噪声图像与随机噪声图像的差异,即每个提示文本对应一个随机噪声图像,将生成相应差异最小的预测噪声图像所依赖的提示文本对应的图像标签,作为原始图像的图像标签。上述方法可以在扩散模型生成图像的过程中,将扩散模型的能力直接迁移至多标签分类任务,降低人工标注工作量,减少大量的人工标注成本,提升了图像多标签分类效率。
38、第六方面,本技术还提供了一种扩散模型的处理方法,所述方法包括:
39、获取多个样本图像,每个样本图像对应有图像标签;
40、对于每个所述样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;
41、根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。
42、第七方面,本技术还提供了一种扩散模型的处理装置,所述装置包括:样本获取模块、样本训练模块和模型更新模块,其中:
43、样本获取模块,用于获取多个样本图像,每个样本图像对应有图像标签;
44、样本训练模块,用于对于每个所述样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;
45、模型更新模块,用于根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。
46、第八方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
47、获取多个样本图像,每个样本图像对应有图像标签;
48、对于每个所述样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;
49、根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。
50、第九方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
51、获取多个样本图像,每个样本图像对应有图像标签;
52、对于每个所述样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;
53、根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。
54、第十方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
55、获取多个样本图像,每个样本图像对应有图像标签;
56、对于每个所述样本图像,根据所述样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据所述样本图像和样本随机噪声图像生成带噪图像,根据所述带噪图像与所述样本提示文本生成预测噪声图像,根据所述预测噪声图像对所述带噪图像进行去噪处理,得到预测图像;
57、根据所述预测图像与所述样本图像之间的差异,构建样本损失,根据所述样本损失更新所述初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。
58、上述扩散模型的处理方法、装置、设备、存储介质和程序产品,对于每个样本图像,根据样本图像的图像标签生成相应样本提示文本,通过初始扩散模型根据样本图像和样本随机噪声图像生成带噪图像,根据带噪图像与样本提示文本生成预测噪声图像,根据预测噪声图像对带噪图像进行去噪处理,得到预测图像;根据预测图像与样本图像之间的差异,构建样本损失,根据样本损失更新初始扩散模型,更新后得到的训练好的扩散模型用于图像分类。通过上述方法获得的扩散模型可以应用在图像分类中,通过扩散模型自动进行图像分类,以得到图像的标签,无需人工进行标注,可以降低标注工作量,减少大量的人工标注成本,提升了图像多标签分类效率。