模型训练方法和图像推荐方法、装置、设备及存储介质与流程

文档序号:37933413发布日期:2024-05-11 00:12阅读:20来源:国知局
模型训练方法和图像推荐方法、装置、设备及存储介质与流程

本技术涉及机器学习领域,尤其涉及一种模型训练方法和装置、图像推荐方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。


背景技术:

1、在一些应用场景中,需要基于文本实现图片召回。例如,用户可以在本地应用或线上应用中输入文本,则本地应用或线上应用可以基于文本向用户推荐相匹配的图片。

2、目前,可以采用机器学习模型来实现基于文本的图片召回。例如,对比语言-图像预训练(contrastive language-image pretraining,clip)模型可以用于联合学习图像和文本的表示,从而实现基于文本召回相对应的图片。

3、然而,采用clip模型实现基于文本的图片召回的过程中,有些图片中可能包含与该图片无关的文本,这使得召回很容易受到“印刷攻击”,从而导致召回效果并不理想。

4、那么,如何提高基于文本的图片召回的鲁棒性是一个亟需解决的问题。


技术实现思路

1、本技术提供了一种模型训练方法和装置、图像推荐方法和装置、电子设备、计算机可读存储介质以及计算机程序产品,提高基于文本的图片召回的鲁棒性。

2、在第一方面,本技术提供一种模型训练方法。该模型训练方法包括:获得第一图像和多个第一文本,其中,第一图像与第二文本相关联,第二文本为多个第一文本之一,第一图像呈现第三文本,第三文本为多个第一文本之一且不同于第二文本;将多个第一文本输入第一模型的第一编码部分,以得到多个第一向量;将第一图像输入第一模型的第二编码部分,以得到第二向量;根据多个第一向量与第二向量之间的第一相似度,确定第一损失值;在第一损失值满足第一条件的情况下,更新第一模型的模型参数。

3、在一些可能的实施方式中,获得第一图像和多个第一文本的操作可以包括:获取多个样本对,其中,多个样本对包括多个第二图像和多个第一文本,多个第二图像和多个第一文本一一对应;从多个样本对中确定第二图像,其中,第二图像与第二文本关联,第二图像与第一图像具有相同的内容且第二图像不呈现第三文本;在第二图像中加入第三文本,以得到第一图像。

4、在一些可能的实施方式中,在第二图像中加入第三文本,以得到第一图像的操作可以包括:根据第三文本的文本长度、最大行数以及每行最大字数,确定第三文本在第一图像中的字号。

5、在一些可能的实施方式中,在第二图像中加入第三文本,以得到第一图像的操作可以包括:对第三文本进行分词处理;根据分词处理的结果,确定第三文本在第一图像中的分行。

6、在一些可能的实施方式中,在第二图像中加入第三文本,以得到第一图像,包括:以随机方式,确定第三文本在第一图像中的字体、和/或颜色、和/或位置。

7、在一些可能的实施方式中,根据多个第一向量与第二向量之间的第一相似度,确定第一损失值的操作可以包括:根据第一图像与多个第一文本的关系,确定第一概率分布,其中,第一概率分布用于表征相似度的目标概率分布;根据第一相似度,确定第二概率分布,其中,第二概率分布用于表征相似度的预测概率分布;根据第一概率分布和第二概率分布,通过相对熵损失函数计算第一损失值。

8、在一些可能的实施方式中,上述模型训练方法还可以包括:将多个第二图像输入第一模型的第二编码部分,以得到多个第三向量;根据多个第一向量与多个第三向量之间的第二相似度,确定第二损失值;在第二损失值满足第二条件和第一损失值满足第一条件的情况下,更新第一模型的模型参数。

9、在一些可能的实施方式中,根据多个第一向量与第三向量之间的第二相似度,确定第二损失值的操作可以包括:根据第二相似度,通过交叉熵损失函数计算第二损失值。

10、在第二方面,本技术提供一种图像推荐方法。该图像推荐方法包括:获取第四文本;将第四文本输入第一模型的第一编码部分,以得到第四向量,其中,第一模型是通过如第一方面及其可能得实施方式中任一项所述的模型训练方法训练得到的;计算第四向量与多个第三图像的多个第五向量之间的第三相似度;根据第三相似度,确定第四图像,其中,第四图像是多个第三图像中具有最大的第三相似度的图像。

11、在一些可能的实施方式中,上述图像推荐方法还可以包括:获取多个第三图像;将多个第三图像输入第一模型的第二编码部分,以得到多个第五向量。

12、在第三方面,本技术提供一种模型训练装置。该模型训练装置包括获得模块、第一特征提取模块、第二特征提取模块、第一损失确定模块、参数更新模块。获得模块被配置为获得第一图像和多个第一文本。第一图像与第二文本相关联。第二文本为多个第一文本之一。第一图像呈现第三文本。第三文本为多个第一文本之一且不同于第二文本。第一特征提取模块被配置为将多个第一文本输入第一模型的第一编码部分,以得到多个第一向量。第二特征提取模块被配置为将第一图像输入第一模型的第二编码部分,以得到第二向量。第一损失确定模块被配置为根据多个第一向量分别与第二向量之间的第一相似度,确定第一损失值。参数更新模块被配置为在第一损失值满足第一条件的情况下,更新第一模型的模型参数。

13、在一些可能的实施方式中,获得模块可以被配置为:获取多个样本对,其中,多个样本对包括多个第二图像和多个第一文本,多个第二图像和多个第一文本一一对应;从多个样本对中确定第二图像,其中,第二图像与第二文本关联,第二图像与第一图像具有相同的内容且第二图像不呈现第三文本;在第二图像中加入第三文本,以得到第一图像。

14、在一些可能的实施方式中,获得模块可以被配置为:根据第三文本的文本长度、最大行数以及每行最大字数,确定第三文本在第一图像中的字号。

15、在一些可能的实施方式中,获得模块可以被配置为:对第三文本进行分词处理;根据分词处理的结果,确定第三文本在第一图像中的分行。

16、在一些可能的实施方式中,获得模块可以被配置为:以随机方式,确定第三文本在第一图像中的字体、和/或颜色、和/或位置。

17、在一些可能的实施方式中,第一损失确定模块可以被配置为:根据第一图像与多个第一文本的关系,确定第一概率分布,其中,第一概率分布用于表征相似度的目标概率分布;根据第一相似度,确定第二概率分布,其中,第二概率分布用于表征相似度的预测概率分布;根据第一概率分布和第二概率分布,通过相对熵损失函数计算第一损失值。

18、在一些可能的实施方式中,上述模型训练装置还可以包括第四特征提取模块、第二损失确定模块。第四特征提取模块被配置为将多个第二图像输入第一模型的第二编码部分,以得到多个第三向量。第二损失确定模块可以被配置为根据多个第一向量与多个第三向量之间的第二相似度,确定第二损失值。参数更新模块还可以被配置为在第二损失值满足第二条件和第一损失值满足第一条件的情况下,更新第一模型的模型参数。

19、在第四方面,本技术提供一种图像推荐装置。该图像推荐装置包括第一获取模块、第三特征提取模块、相似度确定模块、图像确定模块。第一获取模块被配置为获取第四文本。第三特征提取模块被配置为将第四文本输入第一模型的第一编码部分,以得到第四向量。第一模型是通过如第一方面及其可能得实施方式中任一项所述的模型训练方法训练得到的。相似度确定模块被配置为计算第四向量分别与多个第三图像的多个第五向量之间的第三相似度。图像确定模块被配置为根据第三相似度,确定第四图像。第四图像是多个第三图像中具有最大的第三相似度的图像。

20、在一些可能的实施方式中,上述图像推荐装置还可以包括第二获取模块、第五特征提取模块。第二获取模块被配置为获取多个第三图像。第五特征提取模块被配置为将多个第三图像输入第一模型的第二编码部分,以得到多个第五向量。

21、在第五方面,本技术提供一种电子设备。该电子设备包括处理器和存储器。存储器用于存储可执行指令。处理器被配置为运行可执行指令时实现如第一方面、第二方面及其可能的实施方式中任一项所述的方法。

22、在第六方面,本技术提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机指令。该计算机指令被处理器执行时,实现如第一方面、第二方面及其可能的实施方式中任一项所述的方法。

23、在第七方面,本技术提供一种计算机程序或计算机程序产品。该计算机程序或计算机程序产品包括计算机指令。该计算机指令被处理器执行时实现如第一方面、第二方面及其可能的实施方式中任一项所述的方法。

24、本技术提供的技术方案可以包括以下有益效果:

25、根据本技术,通过获得其中呈现有第三文本的第一图像,能够为第一模型构造图文结合的训练数据。采用这样的训练数据对第一模型进行训练,可以使第一模型学习到其中呈现有第三文本的第一图像与该第一图像本身关联的第二文本之间的关联关系。如此,能够提高基于第二文本的图片召回在图文结合场景下的适应能力,使得图片召回更加准确,提高鲁棒性。

26、此外,通过将第一图像中的第三文本与该第一图像构造为正样本对,可以使第一模型明确学习到第一图像与其中呈现的第三文本之间的关联关系。如此,在基于该第三文本进行图片召回的时候,可以实现对第三图片进行推荐,从而提高图片召回的准确性。

27、进一步地,在第一模型的训练过程中,针对第一图像采用相对熵损失函数确定损失值,针对第二图像采用交叉熵损失函数确定损失值。通过基于以上两种损失函数计算的损失值对第一模型进行训练,从而允许一个图像与多个文本的匹配学习,实现了第一模型从单分类到多分类的扩展。

28、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1