本技术涉及人工智能技术,尤其涉及一种基于人工智能的模型框架训练方法、模型框架应用方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术:
1、人工智能(ai,artificial intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
2、相关技术中对视觉模型和文本模型进行训练时是利用图像文本的样本对进行实例对比的方式来进行学习,忽略了样本对中潜在的高级类别信息,导致无法充分利用数据集进行预训练,对特征表示的学习效果产生不利影响。
技术实现思路
1、本技术实施例提供一种基于人工智能的模型框架训练方法、模型框架应用方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高视觉模型以及文本模型的训练效果。
2、本技术实施例的技术方案是这样实现的:
3、本技术实施例提供一种基于人工智能的模型框架训练方法,所述模型框架包括视觉模型、对应所述视觉模型的动量模型、文本模型以及对应所述文本模型的动量模型,包括:
4、获取多个样本组合,其中,每个所述样本组合包括内容互相匹配的第一图像与第一文本、对所述第一图像增强得到的第二图像、对所述第一文本增强得到的第二文本;
5、通过所述模型框架中的视觉模型提取所述样本组合的第一图像的第一特征,通过所述模型框架中的对应所述视觉模型的动量模型提取所述样本组合的第二图像的第二特征,通过所述模型框架中的文本模型提取所述样本组合的第一文本的第三特征,通过所述模型框架中的对应所述文本模型的动量模型提取所述样本组合的第二文本的第四特征;
6、针对每个所述样本组合,基于所述样本组合的第一特征以及第三特征执行映射处理,得到所述样本组合的类型标签预测结果,并基于所述样本组合的类型标签预测结果与所述样本组合的真实类型标签之间的差异执行损失拟合处理,得到所述样本组合的类型标签对齐损失;
7、对属于相同样本组合的第二特征与第四特征进行融合处理,得到融合特征,并对多个所述样本组合的融合特征进行聚类处理,得到多个聚类;
8、针对每个所述样本组合,基于所述样本组合的第一特征与第三特征对所述样本组合与所述多个聚类的关系执行损失拟合处理,得到所述样本组合的聚类对齐损失;
9、将每个所述样本组合的类型标签对齐损失以及聚类对齐损失进行融合处理,得到每个所述样本组合的类别级对齐损失,并基于多个所述样本组合的类别级对齐损失对所述视觉模型以及所述文本模型进行更新;其中,更新后的视觉模型用于执行图像模态的特征提取任务,且更新后的文本模型用于执行文本模态的特征提取任务。
10、本技术实施例提供一种基于人工智能的模型框架训练装置,所述模型框架包括视觉模型、对应所述视觉模型的动量模型、文本模型以及对应所述文本模型的动量模型,包括:
11、样本获取模块,用于获取多个样本组合,其中,每个所述样本组合包括内容互相匹配的第一图像与第一文本、对所述第一图像增强得到的第二图像、对所述第一文本增强得到的第二文本;
12、特征提取模块,用于通过所述模型框架中的视觉模型提取所述样本组合的第一图像的第一特征,通过所述模型框架中的对应所述视觉模型的动量模型提取所述样本组合的第二图像的第二特征,通过所述模型框架中的文本模型提取所述样本组合的第一文本的第三特征,通过所述模型框架中的对应所述文本模型的动量模型提取所述样本组合的第二文本的第四特征;
13、类型标签对齐损失拟合模块,用于针对每个所述样本组合,基于所述样本组合的第一特征以及第三特征执行映射处理,得到所述样本组合的类型标签预测结果,并基于所述样本组合的类型标签预测结果与所述样本组合的真实类型标签之间的差异执行损失拟合处理,得到所述样本组合的类型标签对齐损失;
14、特征聚类模块,用于对属于相同样本组合的第二特征与第四特征进行融合处理,得到融合特征,并对多个所述样本组合的融合特征进行聚类处理,得到多个聚类;
15、聚类对齐损失拟合模块,用于针对每个所述样本组合,基于所述样本组合的第一特征与第三特征对所述样本组合与所述多个聚类的关系执行损失拟合处理,得到所述样本组合的聚类对齐损失;
16、模型框架更新模块,用于将每个所述样本组合的类型标签对齐损失以及聚类对齐损失进行融合处理,得到每个所述样本组合的类别级对齐损失,并基于多个所述样本组合的类别级对齐损失对所述视觉模型以及所述文本模型进行更新;其中,更新后的视觉模型用于执行图像模态的特征提取任务,且更新后的文本模型用于执行文本模态的特征提取任务。
17、本技术实施例提供一种模型框架应用方法,所述模型框架包括基于视觉模型进行迁移训练得到的目标视觉模型、以及基于文本模型进行迁移训练得到的目标文本模型,所述视觉模型以及所述文本模型是通过本技术实施例提供的基于人工智能的模型框架训练方法进行训练得到的;
18、所述方法包括:
19、获取任务请求;
20、从所述模型框架中调用与所述应用任务请求匹配的模型,以执行对应所述任务请求的模型处理,得到用于响应所述任务请求的任务结果。
21、本技术实施例提供一种模型框架应用装置,所述模型框架包括基于视觉模型进行迁移训练得到的目标视觉模型、以及基于文本模型进行迁移训练得到的目标文本模型,所述视觉模型以及所述文本模型是通过本技术实施例提供的基于人工智能的模型框架训练方法进行训练得到的;
22、所述装置包括:
23、任务请求获取模块,用于获取任务请求;
24、模型调用模块,用于从所述模型框架中调用与所述应用任务请求匹配的模型,以执行对应所述任务请求的模型处理,得到用于响应所述任务请求的任务结果。
25、本技术实施例提供一种电子设备,包括:
26、存储器,用于存储计算机可执行指令;
27、处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本技术实施例提供的基于人工智能的模型框架训练方法或者本技术实施例提供的模型框架应用方法。
28、本技术实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本技术实施例提供的基于人工智能的模型框架训练方法或者本技术实施例提供的模型框架应用方法。
29、本技术实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本技术实施例提供的基于人工智能的模型框架训练方法或者本技术实施例提供的模型框架应用方法。
30、本技术实施例具有以下有益效果:
31、本技术实施例通过类型标签对齐损失将图像和文本的样本组合所对应的真实类型标签与类型标签预测结果之间的距离缩小,从而实现基于标签粒度的类别信息的学习,并且将样本组合的第二特征以及第四特征的融合结果进行聚类以获得细粒度的类别信息,基于样本组合与聚类之间的关系构建聚类对齐损失,以进行细粒度学习,从而使得经过训练得到的视觉模型以及文本模型能够具有较好的训练效果。