本申请涉及计算机图像处理中的视觉通用模型,特别涉及一种任务可通用的轻量化视觉基础模型构建方法。
背景技术:
1、通用模型在自然语言处理领域表现出色并得到了广泛的应用,这促进了通用视觉模型的发展。而在图片、视频生成领域,依靠大规模视觉语言预训练的扩散生成模型展现出了突出的效果,并被广泛应用于文生图、图像去噪、图像修复等任务。
2、相关技术中,可以采用transformer架构和大量多模态的视觉或视觉-语言数据集进行大规模预训练,从而得到大型视觉基础模型;也可以使用序列或是图像统一表征视觉任务的输入或输出空间,并在多种数据集上进行联合训练,从而通过一个统一的模型解决了多种视觉任务。此外,还可以利用潜空间扩散模型将模型计算空间从图像空间降维到潜空间,从而拓展视觉语言预训练的规模。
3、然而,相关技术中,训练成本和存储成本较高,缺乏良好的可迁移性,无法满足用户个性化功能的需要,不适用于实际的部署与应用,亟需改进。
技术实现思路
1、本申请提供一种任务可通用的轻量化视觉基础模型构建方法,以解决相关技术中,训练成本和存储成本较高,缺乏良好的可迁移性,无法满足用户个性化功能的需要,不适用于实际的部署与应用等问题。
2、本申请第一方面实施例提供一种任务可通用的轻量化视觉基础模型构建方法,包括以下步骤:基于目标大规模视觉语言数据集,训练潜空间扩散生成模型,并利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型;选择至少一个任务对应的数据集与轻量化的任务特定的解码器;基于所述数据集和所述解码器,对所述初始轻量化视觉基础模型进行训练,得到最终的轻量化视觉基础模型。
3、可选地,在本申请的一个实施例中,所述利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型,包括:提取所述潜空间扩散生成模型的u-net结构;在所述u-net结构中的线性层和卷积层插入lora(low-rank adaptation,低秩适应)模块,以得到所述初始轻量化视觉基础模型。
4、可选地,在本申请的一个实施例中,所述对所述初始轻量化视觉基础模型进行训练,得到最终的轻量化视觉基础模型,包括:在所述任务为视觉生成任务的情况下,从标准高斯分布中,采样噪声,将加所述噪声的真实结果作为条件输入传进所述u-net结构中,生成所述噪声的预测结果,以在训练时,采用所述采样噪声及所述预测结果之间的均方误差损失得到损失函数。
5、可选地,在本申请的一个实施例中,所述对所述初始轻量化视觉基础模型进行训练,得到最终的轻量化视觉基础模型,包括:在所述任务为视觉感知任务的情况下,比较模型生成的预测结果和真实结果,并采用任务特定的损失函数进行训练。
6、本申请第二方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的任务可通用的轻量化视觉基础模型构建方法。
7、本申请第三方面实施例提供一种计算机程序产品,包括计算机程序,该程序被执行时实现如上的任务可通用的轻量化视觉基础模型构建方法。
8、本申请实施例可以利用训练后的潜空间扩散生成模型构建初始轻量化视觉基础模型,并通过插入轻量化可训练的解码器,完成最终的轻量化视觉基础模型的构建,能够以较低的训练、存储成本,实现对各种视觉感知与生成任务的通用支持。由此,解决了相关技术中,训练成本和存储成本较高,缺乏良好的可迁移性,无法满足用户个性化功能的需要,不适用于实际的部署与应用等问题。
9、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
1.一种任务可通用的轻量化视觉基础模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述初始轻量化视觉基础模型进行训练,得到最终的轻量化视觉基础模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述初始轻量化视觉基础模型进行训练,得到最终的轻量化视觉基础模型,包括:
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的任务可通用的轻量化视觉基础模型构建方法。
6.一种计算机程序产品,其特征在于,包括计算机程序,该程序被执行时,以用于实现如权利要求1-4任一项所述的任务可通用的轻量化视觉基础模型构建方法。