多模态大语言模型训练方法、相关性计算及标签生成方法与流程

文档序号:38201405发布日期:2024-06-03 13:53阅读:22来源:国知局
多模态大语言模型训练方法、相关性计算及标签生成方法与流程

本技术涉及人工智能,特别涉及一种多模态大语言模型训练方法、相关性计算及标签生成方法。


背景技术:

1、多模态大语言模型(multimodal large language mode,简称为mllm)是一种基于深度学习的自然语言处理模型,能够对文本、图像、音频等多种类型数据进行处理,从而完成诸如搜索、智能问答、翻译等自然语言任务。

2、目前,相关技术中的多模态大语言模型只能基于一种文本信息和图像信息生成多模态特征向量。在搜索场景下,文本信息通常包括搜索词和商品的文本描述信息,而采用相关技术所训练的多模态大语言模型只能学习到与搜索词有关的图像特征,生成与搜索词有关的图像特征被增强的多模态特征向量,或者学习到与文本描述信息有关的图像特征,生成与文本描述信息有关的图像特征被增强的多模态特征向量,无法同时学习到搜索场景中与搜索词及文本描述信息有关的图像特征,导致所生成的多模态特征向量不够准确。因此,亟需训练一种新的多模态大语言模型,从而生成更为准确的多模态特征向量,以满足搜索场景下的应用需求。


技术实现思路

1、本技术实施例提供了一种多模态大语言模型训练方法、相关性计算及标签生成方法,该方法所训练的多模态大语言模型能够同时学习到与搜索词和文本描述信息有关的图像特征,生成的第二多模态特征向量更准确,满足了搜索场景的应用需求。所述技术方案如下:

2、第一方面,提供了一种多模态大语言模型训练方法,所述方法包括:

3、获取样本搜索词和样本商品,所述样本商品具有图像信息和文本描述信息;

4、调用预训练多模态大语言模型,对所述样本商品的图像信息和文本描述信息进行处理,得到所述样本商品的样本文本特征向量、样本图像特征向量及样本第一多模态特征向量,所述样本第一多模态特征向量中与文本描述信息有关的图像特征被增强;

5、基于所述样本商品的样本文本特征向量、样本图像特征向量及样本第一多模态特征向量,对所述预训练多模态大语言模型进行训练,得到多模态大语言模型;

6、调用所述多模态大语言模型,对所述样本搜索词及所述样本商品的图像信息和文本描述信息进行处理,得到样本搜索词特征向量及所述样本商品的第一多模态特征向量和样本第二多模态特征向量,所述样本第二多模态特征向量中与文本描述信息和搜索词有关的图像特征被增强;

7、基于所述样本搜索词特征向量及所述样本商品的第一多模态特征向量和样本第二多模态特征向量,对所述多模态大语言模型进行训练,得到已训练的多模态大语言模型,所述已训练的多模态大语言模型用于基于搜索词及商品的图像信息和文本描述信息生成商品的第二多模态特征向量。

8、第二方面,提供了一种相关性计算方法,所述方法应用第一方面所述的已训练的多模态大语言模型,所述方法包括:

9、获取搜索词及基于所述搜索词搜索到的候选商品,所述候选商品具有图像信息和文本描述信息;

10、基于所述搜索词和所述文本描述信息,计算所述搜索词与所述候选商品之间的语义相关性分数;

11、调用所述已训练的多模态大语言模型,对所述搜索词、所述图像信息及文本描述信息进行处理,得到所述候选商品的第二多模态特征向量和搜索词特征向量;

12、基于所述搜索词特征向量和所述第二多模态特征向量,计算所述搜索词与所述候选商品之间的图文相关性分数;

13、基于所述语义相关性分数和所述图文相关性分数,计算所述搜索词与所述候选商品的总相关性分数。

14、在本技术的另一个实施例中,所述基于所述搜索词特征向量和所述第二多模态特征向量,计算所述搜索词与所述候选商品之间的图文相关性分数,包括:

15、计算所述搜索词特征向量和所述第二多模态特征向量之间的余弦相似度,得到所述图文相关性分数。

16、在本技术的另一个实施例中,所述基于所述语义相关性分数和所述图文相关性分数,计算所述搜索词与所述候选商品的总相关性分数,包括:

17、对所述语义相关性分数和所述图文相关性分数进行加权计算,得到所述总相关性分数。

18、第三方面,提供了一种标签生成方法,所述方法应用第一方面所述的已训练的多模态大语言模型,所述方法包括:

19、调用所述已训练的多模态大语言模型,对候选商品对应的搜索词、图像信息及文本描述信息进行处理,得到第二多模态特征向量;

20、获取所述候选商品所属的预设级别类目对应的第一指令模版,所述第一指令模版用于描述所述候选商品待输出的属性;

21、基于所述第二多模态特征向量和所述第一指令模版,生成所述候选商品在所述预设级别类目下的第一标签。

22、第四方面,提供了一种多模态大语言模型训练装置,所述装置包括:

23、第一获取模块,用于获取样本搜索词和样本商品,所述样本商品具有图像信息和文本描述信息;

24、第一处理模块,用于调用预训练多模态大语言模型,对所述样本商品的图像信息和文本描述信息进行处理,得到所述样本商品的样本文本特征向量、样本图像特征向量及样本第一多模态特征向量,所述样本第一多模态特征向量中与文本描述信息有关的图像特征被增强;

25、第一训练模块,用于基于所述样本商品的样本文本特征向量、样本图像特征向量及样本第一多模态特征向量,对所述预训练多模态大语言模型进行训练,得到多模态大语言模型;

26、第二处理模块,用于调用所述多模态大语言模型,对所述样本搜索词及所述样本商品的图像信息和文本描述信息进行处理,得到样本搜索词特征向量及所述样本商品的第一多模态特征向量和样本第二多模态特征向量,所述样本第二多模态特征向量中与文本描述信息和搜索词有关的图像特征被增强;

27、第二训练模块,用于基于所述样本搜索词特征向量及所述样本商品的第一多模态特征向量和样本第二多模态特征向量,对所述多模态大语言模型进行训练,得到已训练的多模态大语言模型,所述已训练的多模态大语言模型用于基于搜索词及商品的图像信息和文本描述信息生成商品的第二多模态特征向量。

28、第五方面,提供了一种相关性计算装置,所述装置应用第一方面所述的已训练的多模态大语言模型,所述装置包括:

29、获取模块,用于获取搜索词及基于所述搜索词搜索到的候选商品,所述候选商品具有图像信息和文本描述信息;

30、第一计算模块,用于基于所述搜索词和所述文本描述信息,计算所述搜索词与所述候选商品之间的语义相关性分数;

31、处理模块,用于调用所述已训练的多模态大语言模型,对所述搜索词、所述图像信息及文本描述信息进行处理,得到所述候选商品的第二多模态特征向量和搜索词特征向量;

32、第二计算模块,用于基于所述搜索词特征向量和所述第二多模态特征向量,计算所述搜索词与所述候选商品之间的图文相关性分数;

33、第三计算模块,用于基于所述语义相关性分数和所述图文相关性分数,计算所述搜索词与所述候选商品的总相关性分数。

34、第六方面,提供了一种标签生成装置,所述装置应用第一方面所述的已训练的多模态大语言模型,所述装置包括:

35、处理模块,用于调用所述已训练的多模态大语言模型,对候选商品对应的搜索词、图像信息及文本描述信息进行处理,得到第二多模态特征向量;

36、第一获取模块,用于获取所述候选商品所属的预设级别类目对应的第一指令模版,所述第一指令模版用于描述所述候选商品待输出的属性;

37、第一生成模块,用于基于所述第二多模态特征向量和所述第一指令模版,生成所述候选商品在所述预设级别类目下的第一标签。

38、第七方面,提供了一种电子设备,包括处理器以及存储器;所述存储器存储至少一条程序代码;所述至少一条程序代码用于被所述处理器调用并执行,以实现第一方面所述的多模态大语言模型训练方法,或第二方面所述的相关性计算方法,或第三方面所述的标签生成方法。

39、第八方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序被处理器执行时能够实现第一方面所述的多模态大语言模型训练方法,或第二方面所述的相关性计算方法,或第三方面所述的标签生成方法。

40、第九方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时能够实现第一方面所述的多模态大语言模型训练方法,或第二方面所述的相关性计算方法,或第三方面所述的标签生成方法。

41、本技术实施例提供的技术方案带来的有益效果是:

42、采用两阶段的训练方式,对预训练多模态大语言模型进行训练,使得已训练的多模态大语言模型同时学习到如何增强与搜索词和文本描述信息有关的图像特征。在第一训练阶段,基于样本商品的图像信息和文本描述信息所生成的样本图像特征向量、样本文本特征向量及样本第一多模态特征向量,对预训练多模态大语言模型进行训练,在训练过程中,预训练多模态大语言模型学习到了如何增强与文本描述信息有关的图像特征。经过第一训练阶段的训练,得到多模态大语言模型。在第二训练阶段,基于第一训练阶段训练得到的多模态大语言模型,采用样本搜索词与样本商品的图像信息和文本描述信息,对该多模态大语言模型进行训练,在训练过程中,该多模态大语言模型学习到了如何增强与搜索词和文本描述信息有关的图像特征。经过第二训练阶段的训练,得到已训练的多模态大语言模型,该已训练的多模态大语言模型所生成的第二多模态特征向量中与文本描述信息和搜索词有关的图像特征均被增强,相比于只学习与文本描述信息有关的图像特征,或与搜索词有关的图像特征,本技术所训练的多模态大语言模型学习到搜索场景中更全面的知识,生成的第二模态特征向量更准确。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1