任务可通用的轻量化视觉基础模型构建方法

文档序号：39286374发布日期：2024-09-06 01:00阅读：26来源：国知局

本申请涉及计算机图像处理中的视觉通用模型，特别涉及一种任务可通用的轻量化视觉基础模型构建方法。

背景技术：

1、通用模型在自然语言处理领域表现出色并得到了广泛的应用，这促进了通用视觉模型的发展。而在图片、视频生成领域，依靠大规模视觉语言预训练的扩散生成模型展现出了突出的效果，并被广泛应用于文生图、图像去噪、图像修复等任务。

2、相关技术中，可以采用transformer架构和大量多模态的视觉或视觉-语言数据集进行大规模预训练，从而得到大型视觉基础模型；也可以使用序列或是图像统一表征视觉任务的输入或输出空间，并在多种数据集上进行联合训练，从而通过一个统一的模型解决了多种视觉任务。此外，还可以利用潜空间扩散模型将模型计算空间从图像空间降维到潜空间，从而拓展视觉语言预训练的规模。

3、然而，相关技术中，训练成本和存储成本较高，缺乏良好的可迁移性，无法满足用户个性化功能的需要，不适用于实际的部署与应用，亟需改进。

技术实现思路

1、本申请提供一种任务可通用的轻量化视觉基础模型构建方法，以解决相关技术中，训练成本和存储成本较高，缺乏良好的可迁移性，无法满足用户个性化功能的需要，不适用于实际的部署与应用等问题。

2、本申请第一方面实施例提供一种任务可通用的轻量化视觉基础模型构建方法，包括以下步骤：基于目标大规模视觉语言数据集，训练潜空间扩散生成模型，并利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型；选择至少一个任务对应的数据集与轻量化的任务特定的解码器；基于所述数据集和所述解码器，对所述初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型。

3、可选地，在本申请的一个实施例中，所述利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型，包括：提取所述潜空间扩散生成模型的u-net结构；在所述u-net结构中的线性层和卷积层插入lora(low-rank adaptation，低秩适应)模块，以得到所述初始轻量化视觉基础模型。

4、可选地，在本申请的一个实施例中，所述对所述初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型，包括：在所述任务为视觉生成任务的情况下，从标准高斯分布中，采样噪声，将加所述噪声的真实结果作为条件输入传进所述u-net结构中，生成所述噪声的预测结果，以在训练时，采用所述采样噪声及所述预测结果之间的均方误差损失得到损失函数。

5、可选地，在本申请的一个实施例中，所述对所述初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型，包括：在所述任务为视觉感知任务的情况下，比较模型生成的预测结果和真实结果，并采用任务特定的损失函数进行训练。

6、本申请第二方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的任务可通用的轻量化视觉基础模型构建方法。

7、本申请第三方面实施例提供一种计算机程序产品，包括计算机程序，该程序被执行时实现如上的任务可通用的轻量化视觉基础模型构建方法。

8、本申请实施例可以利用训练后的潜空间扩散生成模型构建初始轻量化视觉基础模型，并通过插入轻量化可训练的解码器，完成最终的轻量化视觉基础模型的构建，能够以较低的训练、存储成本，实现对各种视觉感知与生成任务的通用支持。由此，解决了相关技术中，训练成本和存储成本较高，缺乏良好的可迁移性，无法满足用户个性化功能的需要，不适用于实际的部署与应用等问题。

9、本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

技术特征：

1.一种任务可通用的轻量化视觉基础模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述利用所述潜空间扩散生成模型构建初始轻量化视觉基础模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型，包括：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的任务可通用的轻量化视觉基础模型构建方法。

6.一种计算机程序产品，其特征在于，包括计算机程序，该程序被执行时，以用于实现如权利要求1-4任一项所述的任务可通用的轻量化视觉基础模型构建方法。

技术总结
本申请涉及计算机图像处理中的视觉通用模型技术领域，特别涉及一种任务可通用的轻量化视觉基础模型构建方法，其中，方法包括：基于目标大规模视觉语言数据集，训练潜空间扩散生成模型，并利用潜空间扩散生成模型构建初始轻量化视觉基础模型；选择至少一个任务对应的数据集与轻量化的任务特定的解码器；基于数据集和解码器，对初始轻量化视觉基础模型进行训练，得到最终的轻量化视觉基础模型。由此，解决了相关技术中，训练成本和存储成本较高，缺乏良好的可迁移性，无法满足用户个性化功能的需要，不适用于实际的部署与应用等问题。

技术研发人员：鲁继文,周杰,王皓霖,祝亦轩,赵文亮
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/9/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁继文,周杰,王皓霖,祝亦轩,赵文亮
技术所有人：清华大学
我是此专利的发明人

上一篇：一种钎杆长度可调节的液压破碎锤的制作方法
上一篇：一种立式铸造井油缸套管垂准安装构造的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。