本技术涉及计算机,尤其涉及一种图像的处理方法、装置以及存储介质。
背景技术:
1、随着人工智能技术的迅速发展,深度学习模型广泛的应用于图像的分类、检测等任务中,而随着训练数据的不断更新,如何将添加的训练数据适配到深度学习模型中称为难题。
2、一般,可以将已有的训练数据与将添加的训练数据均输入深度学习模型进行训练,以完成添加的训练数据适配。
3、但是,由于添加的训练数据属于零星的样本,较难很快的通过数据积累完成模型的适配,其训练过程需要大量时间,影响在训练数据配置过程中图像处理的效率。
技术实现思路
1、有鉴于此,本技术提供一种图像的处理方法,可以有效提高训练数据配置过程中图像处理的效率。
2、本技术第一方面提供一种图像的处理方法,可以应用于终端设备中包含图像的处理功能的系统或程序中,具体包括:
3、获取参考库和检索库,所述参考库中的参考图像配置了图像标签;
4、将所述参考库中的参考图像和所述参考图像对应的提示语输入扩散模型,以得到各个所述参考图像对应的估计噪声,所述提示语根据所述图像标签确定;
5、基于各个所述参考图像对应的所述图像标签对各个所述参考图像对应的所述估计噪声进行合并,以得到各个所述图像标签对应的参考噪声特征;
6、对所述检索库中的检索图像与各个所述图像标签分别进行组合得到多个检索组合,以将多个所述检索组合输入所述扩散模型得到所述检索图像对应的多个检索噪声特征;
7、根据多个所述检索噪声特征与所述参考噪声特征的特征相似度,确定所述检索图像对应的目标标签。
8、可选的,在本技术一些可能的实现方式中,所述将所述参考库中的参考图像和所述参考图像对应的提示语输入扩散模型,以得到各个所述参考图像对应的估计噪声,包括:
9、将所述参考库中的参考图像输入所述扩散模型中的编码器,以得到所述参考图像对应的潜在向量;
10、对所述潜在向量添加噪声,以得到带噪向量;
11、对所述参考图像对应的提示语输入所述扩散模型中的文本图像匹配网络,以得到文本向量;
12、通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像对应的估计噪声。
13、可选的,在本技术一些可能的实现方式中,所述通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像对应的估计噪声,包括:
14、获取与所述参考库和所述检索库相关的检索任务对应的场景信息;
15、根据所述场景信息确定噪声估计阶段中的目标阶段;
16、通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像在所述目标阶段对应的估计噪声。
17、可选的,在本技术一些可能的实现方式中,所述方法还包括:
18、通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像在各个所述噪声估计阶段中对应的测试噪声;
19、根据所述测试噪声执行所述检索任务,以得到各个所述噪声估计阶段对应的效果信息;
20、基于所述效果信息中指示的性能参数确定所述目标阶段。
21、可选的,在本技术一些可能的实现方式中,所述方法还包括:
22、获取由所述参考图像确定对应的估计噪声时所采用噪声估计阶段中的目标阶段;
23、基于所述目标阶段执行多个检索组合在所述扩散模型中确定检索噪声特征的过程。
24、可选的,在本技术一些可能的实现方式中,所述将所述参考库中的参考图像输入所述扩散模型中的编码器,以得到所述参考图像对应的潜在向量,包括:
25、获取所述扩散模型对应潜在空间所适配的尺寸信息;
26、基于所述尺寸信息对所述参考库中的参考图像进行调整;
27、将调整后的所述参考图像输入所述扩散模型中的编码器,以得到所述参考图像对应的潜在向量。
28、可选的,在本技术一些可能的实现方式中,所述获取参考库和检索库,包括:
29、获取针对于所述检索任务关联的所述检索库;
30、确定所述检索库对应的类别信息;
31、基于所述类别信息对所述检索任务关联的训练集进行图像调用,以得到所述参考库。
32、可选的,在本技术一些可能的实现方式中,所述基于各个所述参考图像对应的所述图像标签对各个所述参考图像对应的所述估计噪声进行合并,以得到各个所述图像标签对应的参考噪声特征,包括:
33、获取所述图像标签下各个所述参考图像对应的估计噪声,以得到噪声集合;
34、对所述噪声集合中的估计噪声进行求和,以得到噪声总量;
35、根据所述噪声集合中的估计噪声的数量对所述噪声总量取均值,以得到所述图像类别对应的参考噪声特征。
36、可选的,在本技术一些可能的实现方式中,所述基于各个所述参考图像对应的所述图像标签对各个所述参考图像对应的所述估计噪声进行合并,以得到各个所述图像标签对应的参考噪声特征,包括:
37、获取所述图像标签下各个所述参考图像对应的估计噪声,以得到噪声集合;
38、对所述噪声集合中的估计噪声在各个像素点上的取值进行数值统计,以得到统计结果;
39、确定所述统计结果中各个像素点上取值的中位数,以得到所述图像类别对应的参考噪声特征。
40、可选的,在本技术一些可能的实现方式中,所述根据多个所述检索噪声特征与所述参考噪声特征的特征相似度,确定所述检索图像对应的目标标签,包括:
41、获取针对于检索任务配置的比对窗口,所述检索任务与所述检索库相关联;
42、基于所述比对窗口对所述检索噪声特征进行采样,以得到检索窗口特征;
43、基于所述比对窗口对所述参考噪声特征进行采样,以得到参考窗口特征;
44、对所述检索窗口特征与所述参考窗口特征进行余弦相似度计算,以得到所述特征相似度;
45、根据所述特征相似度确定所述检索图像对应的目标标签。
46、可选的,在本技术一些可能的实现方式中,所述获取针对于检索任务配置的比对窗口,包括:
47、获取针对于所述检索任务配置的时限信息;
48、确定检索库中检索图像对应的数量信息;
49、基于所述时限信息和所述数量信息确定效率参数;
50、将所述效率参数与预设效率进行比对,以得到加速比例;
51、根据所述加速比例配置所述比对窗口。
52、可选的,在本技术一些可能的实现方式中,所述方法还包括:
53、响应于目标对象在目标应用中的检索操作,确定输入图像和输入文本,所述目标应用与检索库相关联;
54、将标记了目标标签的检索库配置在扩散模型中;
55、将所述输入图像和所述输入文本输入配置后的所述扩散模型,以得到生成结果。
56、本技术第二方面提供一种图像的处理装置,包括:
57、获取单元,用于获取参考库和检索库,所述参考库中的参考图像配置了图像标签;
58、估计单元,用于将所述参考库中的参考图像和所述参考图像对应的提示语输入扩散模型,以得到各个所述参考图像对应的估计噪声,所述提示语根据所述图像标签确定;
59、处理单元,用于基于各个所述参考图像对应的所述图像标签对各个所述参考图像对应的所述估计噪声进行合并,以得到各个所述图像标签对应的参考噪声特征;
60、所述处理单元,还用于对所述检索库中的检索图像与各个所述图像标签分别进行组合得到多个检索组合,以将多个所述检索组合输入所述扩散模型得到所述检索图像对应的多个检索噪声特征;
61、所述处理单元,还用于根据多个所述检索噪声特征与所述参考噪声特征的特征相似度,确定所述检索图像对应的目标标签。
62、可选的,在本技术一些可能的实现方式中,所述估计单元,具体用于将所述参考库中的参考图像输入所述扩散模型中的编码器,以得到所述参考图像对应的潜在向量;
63、所述估计单元,具体用于对所述潜在向量添加噪声,以得到带噪向量;
64、所述估计单元,具体用于对所述参考图像对应的提示语输入所述扩散模型中的文本图像匹配网络,以得到文本向量;
65、所述估计单元,具体用于通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像对应的估计噪声。
66、可选的,在本技术一些可能的实现方式中,所述估计单元,具体用于获取与所述参考库和所述检索库相关的检索任务对应的场景信息;
67、所述估计单元,具体用于根据所述场景信息确定噪声估计阶段中的目标阶段;
68、所述估计单元,具体用于通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像在所述目标阶段对应的估计噪声。
69、可选的,在本技术一些可能的实现方式中,所述估计单元,具体用于通过所述扩散模型中的语义分割网络,利用所述文本向量和所述带噪向量预测所述参考图像在各个所述噪声估计阶段中对应的测试噪声;
70、所述估计单元,具体用于根据所述测试噪声执行所述检索任务,以得到各个所述噪声估计阶段对应的效果信息;
71、所述估计单元,具体用于基于所述效果信息中指示的性能参数确定所述目标阶段。
72、可选的,在本技术一些可能的实现方式中,所述估计单元,具体用于获取由所述参考图像确定对应的估计噪声时所采用噪声估计阶段中的目标阶段;
73、所述估计单元,具体用于基于所述目标阶段执行多个检索组合在所述扩散模型中确定检索噪声特征的过程。
74、可选的,在本技术一些可能的实现方式中,所述估计单元,具体用于获取所述扩散模型对应潜在空间所适配的尺寸信息;
75、所述估计单元,具体用于基于所述尺寸信息对所述参考库中的参考图像进行调整;
76、所述估计单元,具体用于将调整后的所述参考图像输入所述扩散模型中的编码器,以得到所述参考图像对应的潜在向量。
77、可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于获取针对于所述检索任务关联的所述检索库;
78、所述获取单元,具体用于确定所述检索库对应的类别信息;
79、所述获取单元,具体用于基于所述类别信息对所述检索任务关联的训练集进行图像调用,以得到所述参考库。
80、可选的,在本技术一些可能的实现方式中,所述获取单元,具体用于获取所述图像标签下各个所述参考图像对应的估计噪声,以得到噪声集合;
81、所述获取单元,具体用于对所述噪声集合中的估计噪声进行求和,以得到噪声总量;
82、所述获取单元,具体用于根据所述噪声集合中的估计噪声的数量对所述噪声总量取均值,以得到所述图像类别对应的参考噪声特征。
83、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于获取所述图像标签下各个所述参考图像对应的估计噪声,以得到噪声集合;
84、所述处理单元,具体用于对所述噪声集合中的估计噪声在各个像素点上的取值进行数值统计,以得到统计结果;
85、所述处理单元,具体用于确定所述统计结果中各个像素点上取值的中位数,以得到所述图像类别对应的参考噪声特征。
86、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于获取针对于检索任务配置的比对窗口,所述检索任务与所述检索库相关联;
87、所述处理单元,具体用于基于所述比对窗口对所述检索噪声特征进行采样,以得到检索窗口特征;
88、所述处理单元,具体用于基于所述比对窗口对所述参考噪声特征进行采样,以得到参考窗口特征;
89、所述处理单元,具体用于对所述检索窗口特征与所述参考窗口特征进行余弦相似度计算,以得到所述特征相似度;
90、所述处理单元,具体用于根据所述特征相似度确定所述检索图像对应的目标标签。
91、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于获取针对于所述检索任务配置的时限信息;
92、所述处理单元,具体用于确定检索库中检索图像对应的数量信息;
93、所述处理单元,具体用于基于所述时限信息和所述数量信息确定效率参数;
94、所述处理单元,具体用于将所述效率参数与预设效率进行比对,以得到加速比例;
95、所述处理单元,具体用于根据所述加速比例配置所述比对窗口。
96、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于响应于目标对象在目标应用中的检索操作,确定输入图像和输入文本,所述目标应用与检索库相关联;
97、所述处理单元,具体用于将标记了目标标签的检索库配置在扩散模型中;
98、所述处理单元,具体用于将所述输入图像和所述输入文本输入配置后的所述扩散模型,以得到生成结果。
99、本技术第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的图像的处理方法。
100、本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的图像的处理方法。
101、根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的图像的处理方法。
102、从以上技术实施例可以看出,本技术实施例具有以下优点:
103、通过获取参考库和检索库,该参考库中的参考图像配置了图像标签;然后将参考库中的参考图像和参考图像对应的提示语输入扩散模型,以得到各个参考图像对应的估计噪声,该提示语根据图像标签确定;进一步基于各个参考图像对应的图像标签对各个参考图像对应的估计噪声进行合并,以得到各个图像标签对应的参考噪声特征;然后对检索库中的检索图像与各个图像标签分别进行组合得到多个检索组合,以将多个检索组合输入扩散模型得到检索图像对应的多个检索噪声特征;进而根据多个检索噪声特征与参考噪声特征的特征相似度,确定检索图像对应的目标标签,从而实现无需训练的标签配置过程。由于采用由扩散模型所得的参考库和检索库中图像的噪声之差,指示图像相似度匹配的过程,无需训练即可为检索库配置相应的标签,提高了训练数据配置过程中的图像处理效率。