模型训练方法、模型推理方法、电子设备及存储介质与流程

文档序号:39279749发布日期:2024-09-06 00:54阅读:12来源:国知局
模型训练方法、模型推理方法、电子设备及存储介质与流程

本发明涉及人工智能,尤其涉及一种模型训练方法、模型推理方法、电子设备及存储介质。


背景技术:

1、为了对视频、图像和语言(如文本)等多模态信息进行词元推理,统一多模态大模型应运而生,此统一多模态大模型可以将不同模态的词元序列混合并采用特殊词元(如<语言>、<视觉>等)区分不同模态的词元序列;并且为了确保模型推理阶段更加高效和准确,可以对此统一多模态大模型进行训练,使其具备对多模态信息对应的混合词元序列进行推理解码的功能;故,如何训练一多模态大模型则成为当前亟需解决的关键问题。

2、相关技术中,通常将多模态信息以词元形式混合输入至统一多模态大模型、再使用大语言模型的单向自回归解码策略对混合后的多模态词元序列逐个进行下一词元预测。但由于视觉模态的词元序列(如视频的多个视频帧图像)通常含有大量词元,因此,对多模态词元进行逐个词元解码的单向自回归推理会导致词元预测效率很低,从而导致模型训练效率很低。


技术实现思路

1、本发明提供一种模型训练方法、模型推理方法、电子设备及存储介质,用以解决现有技术中统一多模态大模型通过对多模态词元序列进行逐个词元解码的单向自回归推理训练方式所导致的模型训练效率很低的缺陷,不仅提高了每个模态词元分段的训练效率,也提高了每个模态词元分段经解码训练后所得预测词元的词元生成效果,从而在保持模型对不同模态词元预测效果的同时,也能提高统一多模态大模型的推理效率。

2、本发明提供一种模型训练方法,包括如下步骤。

3、基于视觉模态和语言模态各自的词元分段,确定待单向解码训练的第一词元分段以及待双向解码训练的第二词元分段;基于所述第一词元分段和所述第二词元分段以及各自携带的模态标识,对初始的统一多模态大模型进行混合单向和双向并行解码的训练;直至确定训练结果满足预设训练停止条件时对应的目标统一多模态大模型。

4、根据本发明提供的一种模型训练方法,所述基于所述第一词元分段和所述第二词元分段以及各自携带的模态标识,对初始的统一多模态大模型进行混合单向和双向并行解码的训练,包括:基于所述第一词元分段对应第一模态的预设注意力掩码以及表征所述第一模态的所述模态标识,对所述统一多模态大模型进行单向自回归解码训练以及单向jacobi解码训练;基于所述第二词元分段对应第二模态的预设随机掩码以及表征所述第二模态的所述模态标识,对所述统一多模态大模型进行双向随机去掩码训练。

5、根据本发明提供的一种模型训练方法,所述预设注意力掩码和所述预设随机掩码的确定过程包括:在所述第一模态为所述语言模态的情况下,基于预先设置的自注意力机制确定所述第一词元分段的因果掩码,并将所述因果掩码确定为所述预设注意力掩码;在所述第二模态为所述视觉模态的情况下,基于预设的随机掩码学习策略对所述第二词元分段对应的全掩码分段进行掩码学习,得到所述预设随机掩码。

6、根据本发明提供的一种模型训练方法,所述直至确定训练结果满足预设训练停止条件时对应的目标统一多模态大模型,包括:确定所述单向自回归解码训练对应的自回归损失函数、所述单向jacobi解码训练对应的jacobi解码损失函数,以及所述双向随机去掩码训练对应的去掩码损失函数;基于所述自回归损失函数、预设的自回归解码目标、所述jacobi解码损失函数、预设的jacobi解码目标、所述去掩码损失函数和预设的随机去掩码目标,分别与所述训练结果之间的匹配关系,确定所述目标统一多模态大模型。

7、根据本发明提供的一种模型训练方法,所述不同模态各自的词元分段的确定过程包括:将多模态原始信息输入至对应模态的分词器中进行词元转换处理,得到所述不同模态各自的词元分段;所述多模态原始信息中相邻模态原始信息之间具备关联关系。

8、本发明提供一种模型推理方法,包括如下步骤。

9、确定不同目标模态各自的目标词元分段以及前述模型训练方法训练得到的目标统一多模态大模型;基于所述目标统一多模态大模型,对各所述目标词元分段以及各所述目标模态进行并行解码推理,并基于解码推理结果确定与预设推理需求匹配的模型推理结果。

10、根据本发明提供的一种模型推理方法,所述基于所述目标统一多模态大模型,对各所述目标词元分段进行并行解码推理,包括:在所述不同目标模态包括语言模态和视觉模态的情况下,利用所述目标统一多模态大模型对各所述目标词元分段以及各所述目标模态进行单向多步推理的jacobi解码预测,得到多个预测词元;基于所述目标统一多模态大模型、所述多个预测词元和各所述目标词元分段以及各所述目标模态,对预设的初始全掩码序列进行双向多步推理的去掩码解码预测。

11、根据本发明提供的一种模型推理方法,所述方法还包括:在去掩码解码预测结果不满足预设推理结束条件的情况下,对所述去掩码解码预测结果、所述去掩码解码预测结果对应的所述视觉模态、各所述目标词元分段以及各所述目标模态进行单向多步推理的jacobi解码预测;或者,基于所述去掩码解码预测结果、所述去掩码解码预测结果对应的所述视觉模态、各所述目标词元分段、各所述目标模态和所述目标统一多模态大模型,对所述初始全掩码序列进行双向多步推理的去掩码解码预测。

12、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述模型训练方法或上述任一种所述模型推理方法。

13、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述模型训练方法或上述任一种所述模型推理方方法。

14、本发明提供的模型训练方法、模型推理方法、电子设备及存储介质,其中模型训练方法,基于视觉模态和语言模态各自的词元分段中待单向解码训练的第一词元分段和待双向解码训练的第二词元分段以及各自携带的模态标识,对初始的统一多模态大模型进行混合单向和双向并行解码的训练;直至确定训练结果满足预设训练停止条件时对应的目标统一多模态大模型。这样,通过多模态词元分段对统一多模态大模型进行混合单向和双向并行解码的训练方式,确保统一多模态大模型经训练后具备单向解码推理能力和双向去掩码推理能力,避免了现有统一多模态大模型仅进行单向自回归解码训练所导致的词元预测效率很低的缺陷,不仅提高了每个模态词元分段的训练效率,也提高了每个模态词元分段经解码训练后所得预测词元的词元生成效果,从而在保持模型对不同模态词元预测效果的同时,大幅提高了统一多模态大模型的推理效率。



技术特征:

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述第一词元分段和所述第二词元分段以及各自携带的模态标识,对初始的统一多模态大模型进行混合单向和双向并行解码的训练,包括:

3.根据权利要求2所述的模型训练方法,其特征在于,所述预设注意力掩码和所述预设随机掩码的确定过程包括:

4.根据权利要求2或3所述的模型训练方法,其特征在于,所述直至确定训练结果满足预设训练停止条件时对应的目标统一多模态大模型,包括:

5.根据权利要求1至3任一项所述的模型训练方法,其特征在于,所述不同模态各自的词元分段的确定过程包括:

6.一种模型推理方法,其特征在于,包括:

7.根据权利要求6所述的模型推理方法,其特征在于,所述基于所述目标统一多模态大模型,对各所述目标词元分段进行并行解码推理,包括:

8.根据权利要求7所述的模型推理方法,其特征在于,所述方法还包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述模型训练方法,或者如权利要求6至8任一项所述模型推理方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述模型训练方法,或者如权利要求6至8任一项所述模型推理方法。


技术总结
本发明提供一种模型训练方法、模型推理方法、电子设备及存储介质,其中模型训练方法,包括:基于视觉模态和语言模态各自的词元分段,确定待单向解码训练的第一词元分段以及待双向解码训练的第二词元分段;基于第一词元分段和第二词元分段以及各自携带的模态标识,对初始的统一多模态大模型进行混合单向和双向并行解码的训练;直至确定训练结果满足预设训练停止条件时对应的目标统一多模态大模型。本发明不仅提高了每个模态词元分段的训练效率,也提高了每个模态词元分段经解码训练后所得预测词元的词元生成效果,从而在保持模型对不同模态词元预测效果的同时,也能提高统一多模态大模型的推理效率。

技术研发人员:请求不公布姓名,请求不公布姓名
受保护的技术使用者:上海壁仞科技股份有限公司
技术研发日:
技术公布日:2024/9/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1