模型训练方法、装置、计算机设备和计算机可读存储介质与流程

文档序号:39327071发布日期:2024-09-10 11:30阅读:18来源:国知局
模型训练方法、装置、计算机设备和计算机可读存储介质与流程

本技术涉及通信,具体涉及一种模型训练方法、装置、计算机设备和计算机可读存储介质。


背景技术:

1、现阶段的视觉文本多模态训练通采用的双流结构中,其分别对图像以及文本使用两个深层的transformer模型进行单模态内的特征提取,得到文本和图像的整体特征,通过图像和文本之间的整体特征进行匹配,模型仅能捕捉到粗粒度的图文特征,无法捕获文本以及图像中的上下文信息,以及图文之间完整的语义匹配关系,导致模型的特征提取能力较差。


技术实现思路

1、本技术实施例提供一种模型训练方法、装置、计算机设备和计算机可读存储介质,可以提高特征提取模型的特征提取能力。

2、本技术实施例提供的一种模型训练方法,包括:

3、获取图像样本和文本样本,文本样本包括多个文本单元;

4、通过特征提取模型对所述文本样本进行逐层级特征提取,得到所述文本样本的树特征信息,所述树特征信息包括从文本单元到所述文本样本各层级上,每个节点的节点特征信息;

5、通过特征提取模型对所述图像样本包含的多个图像块进行图像特征提取,得到每个图像块的图块特征信息;

6、根据所述节点特征信息和所述图块特征信息,确定所述文本样本和所述图像样本中相匹配的文本片段和图像区域;

7、根据所述相匹配的文本片段和图像区域之间的匹配度,计算损失值;

8、基于所述损失值对所述特征提取模型进行训练,得到训练后特征提取模型。

9、相应的,本技术实施例还提供的一种模型训练装置,包括:

10、获取单元,用于获取图像样本和文本样本,文本样本包括多个文本单元;

11、第一特征提取单元,用于通过特征提取模型对所述文本样本进行逐层级特征提取,得到所述文本样本的树特征信息,所述树特征信息包括从文本单元到所述文本样本各层级上,每个节点的节点特征信息;

12、第二特征提取单元,用于通过特征提取模型对所述图像样本包含的多个图像块进行图像特征提取,得到每个图像块的图块特征信息;

13、匹配单元,用于根据所述节点特征信息和所述图块特征信息,确定所述文本样本和所述图像样本中相匹配的文本片段和图像区域;

14、计算单元,用于根据所述相匹配的文本片段和图像区域之间的匹配度,计算损失值;

15、训练单元,用于基于所述损失值对所述特征提取模型进行训练,得到训练后特征提取模型。

16、在一实施例中,所述匹配单元,包括:

17、关联度计算子单元,用于根据每个节点对应的节点特征信息和所述图像样本的每个图像块的图块特征信息,确定每个节点的文本片段与每个图像块之间的关联度;

18、选取子单元,用于针对每个节点,根据所述节点的文本片段和每个图像块之间的关联度,从所述图像样本中选取与所述文本片段匹配的图像区域。

19、在一实施例中,所述图像样本有多个,所述计算单元,包括:

20、匹配度计算子单元,用于针对每个图像样本,根据每个层级上的每个节点对应的文本片段和图像区域之间的匹配度,计算每个层级关于每个图像样本的图文匹配度;

21、第一相似度计算子单元,用于基于每个图像样本对应每个层级的图文匹配度,计算所述文本样本和每个图像样本的内容相似度;

22、第一损失计算子单元,用于根据所述文本样本和每个图像样本的内容相似度进行对比损失计算,得到所述损失值。

23、在一实施例中,所述针对每个图像样本,所述相似度计算子单元,包括:

24、层级计算模块,用于根据每个层级上的每个节点对应的文本片段和图像区域之间的匹配度,计算平均匹配度,得到每个层级关于每个图像样本的图文匹配度;

25、叠加模块,用于针对每个图像样本,对每个层次关于所述图像样本的图文匹配度进行叠加处理,得到所述文本样本和每个图像样本的内容相似度。

26、在一实施例中,所述文本样本有多个,所述图像区域为图像块,所述计算单元,包括:

27、第二相似度计算子单元,用于针对每个文本样本,根据所述图像样本的每个图像块与所述文本样本中相匹配的文本片段的匹配度,得到所述图像样本与每个文本样本的内容相似度;

28、第二损失计算子单元,用于根据所述图像样本和每个所述文本样本的内容相似度对比损失计算,得到所述损失值。

29、在一实施例中,所述模型训练装置还包括:

30、文本特征提取单元,用于根据所述根节点对应的节点特征信息,得到所述文本样本的文本特征信息,所述根节点对应的文本片段为所述文本样本;

31、图像特征提取单元,用于对所述图像样本的每个图像块对应的图块特征信息进行整合处理,得到所述图像样本的图像特征信息;

32、匹配单元,用于根据所述文本样本的文本特征信息和所述图像样本的图像特征信息,确定所述文本样本和图像样本的匹配关系;

33、模型训练单元,用于基于所述匹配关系、以及所述文本样本和所述图像样本的关系标签之间的损失值,对所述训练后特征提取模型进行训练,得到目标训练后特征提取模型。

34、在一实施例中,所述模型训练装置还包括:

35、文本获取单元,用于获取检索文本;

36、文本特征信息提取单元,用于通过所述训练后特征提取模型对所述检索文本进行逐层级特征提取,得到根节点对应的文本特征信息,所述根节点对应的文本片段为所述检索文本;

37、信息获取单元,用于获取预设图像库中图像的图像特征信息,所述图像特征信息通过所述训练后特征提取模型提取得到;

38、检索单元,用于基于所述检索文本的文本特征信息,和所述图像的图像特征信息,从所述预设图像库中,检索到与所述检索文本匹配的目标图像。

39、相应的,本技术实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本技术实施例提供的任一种模型训练方法。

40、相应的,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本技术实施例提供的任一种模型训练方法。

41、本技术实施例通过获取图像样本和文本样本,文本样本包括多个文本单元;通过特征提取模型对文本样本进行逐层级特征提取,得到文本样本的树特征信息,树特征信息包括从文本单元到文本样本各层级上,每个节点的节点特征信息;通过特征提取模型对图像样本包含的多个图像块进行图像特征提取,得到每个图像块的图块特征信息;根据节点特征信息和图块特征信息,确定文本样本和图像样本中相匹配的文本和图像区域;根据相匹配的文本片段和图像区域之间的匹配度,计算损失值;基于损失值对特征提取模型进行训练,得到训练后特征提取模型。

42、本技术实施例中,通过特征提取模型对文本样本逐层级进行特征提取,对图像样本进行图像块层级的特征提取,可以捕获到文本样本从局部到全局的上下文信息,学习到文本样本的结构化特征信息,然后进行文本片段和图像区域的匹配,特征提取模型可以学习文本和图像之间完整的语义匹配关系,可以提高模型的特征提取能力,使得训练后特征提取模型可以准确地提取文本和图像的特征信息,以及提高查询到匹配的图文对的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1