图像处理模型训练方法、装置、计算机设备和存储介质与流程

文档序号：29614110发布日期：2022-04-13 10:49阅读：来源：国知局

技术特征：
1.一种图像处理模型训练方法，其特征在于，包括：获取原始训练数据集和增量训练数据集；对所述原始训练数据集包括的多个训练数据和所述增量训练数据集包括的多个训练数据进行聚类处理，得到n个聚类集合；每个聚类集合中包括一个或多个训练数据，所述每个聚类集合包括的一个或多个训练数据均属于同一数据类别；对所述n个聚类集合包括的训练数据进行采样压缩处理，得到采样训练数据集；利用所述采样训练数据集对预训练的数据处理模型进行训练得到目标数据处理模型；所述预训练的数据处理模型是基于所述原始训练数据集训练得到的。2.如权利要求1所述的方法，其特征在于，所述对所述原始训练数据集包括的多个训练数据和所述增量训练数据集包括的多个训练数据进行聚类处理，得到n个聚类集合，包括：调用聚类网络对所述原始训练数据集包括的多个训练数据和所述增量训练数据集包括的多个训练数据进行特征提取，得到每个训练数据对应的特征向量；基于所述每个训练数据对应的特征向量对所述每个训练数据进行聚类处理，得到n个聚类集合。3.如权利要求2所述的方法，其特征在于，所述聚类网络是基于样本数据集训练得到的，所述样本数据集包括多个样本数据以及每个样本数据的数据类别标签，所述方法还包括：调用聚类网络对所述每个样本数据进行特征提取，得到所述每个样本数据的特征向量；对每两个样本数据的特征向量进行相似度计算，得到所述每两个样本数据之间的相似性度量特征；根据所述每两个样本数据之间的相似性度量特征以及每个样本数据的数据类别标签确定对比损失函数的值，并按照减小所述对比损失函数的值的方向优化所述聚类网络的网络参数。4.如权利要求3所述的方法，其特征在于，所述根据所述每两个样本数据之间的相似性度量特征以及每个样本数据的数据类别标签确定对比损失函数的值，包括：根据所述每两个样本数据之间的相似性度量特征以及每个样本数据的数据类别标签，得到所述每两个样本数据之间的对比损失值；对得到的对比损失值进行预设运算处理，得到对比损失函数的值。5.如权利要求4所述的方法，其特征在于，所述样本数据集包括第一样本数据和第二样本数据，所述根据所述每两个样本数据之间的相似性度量特征以及每个样本数据的数据类别标签，得到所述每两个样本数据之间的对比损失值，包括：若所述第一样本数据的数据类别标签与所述第二样本数据的数据类别标签相同，则获取所述第一样本数据与所述第二样本数据之间的相似性度量特征与第一参数之间的第一差值；并对所述第一差值进行线性运算，得到所述第一样本数据和所述第二样本数据之间的对比损失值；若所述第一样本数据的数据类别标签与所述第二样本数据的数据类别标签不相同，则获取所述第一样本数据与所述第二样本数据之间的相似性度量特征与第二参数之间的第二差值；并对所述第二差值进行线性运算，得到所述第一样本数据和所述第二样本数据之
间的对比损失值。6.如权利要求1所述的方法，其特征在于，所述对所述n个聚类集合包括的训练数据进行采样压缩处理，得到采样训练数据集，包括：基于采样参数和所述n个聚类集合中每个聚类集合包括的训练数据的数量确定所述每个聚类集合中需采样的训练数据的目标数量；按照所述每个聚类集合中需采样的训练数据的目标数量分别对所述每个聚类集合进行压缩采样处理，从所述每个聚类集合中获取采样训练数据；将从所述每个聚类集合中获取的采样训练数据添加到采样训练数据集。7.如权利要求6所述的方法，其特征在于，所述n个聚类集合中包括目标聚类集合，所述目标聚类集合是所述n个聚类集合中任意一个，所述按照所述每个聚类集合中需采样的训练数据的目标数量分别对所述每个聚类集合包括的训练数据进行压缩采样处理，从所述每个聚类集合中获取采样训练数据，包括：按照划分规则将所述目标聚类集合划分为多个聚类子集合；计算每个聚类子集合中的训练数据的数量比值；基于每个聚类子集合中的数量比值和所述目标聚类集合中需采样的训练数据的目标数量对所述每个聚类子集合进行压缩采样处理，从所述每个聚类子集合中获取采样训练数据；将所述每个聚类子集合中获取到的采样训练数据确定为从所述目标聚类集合中获取到的采样训练数据。8.如权利要求1所述的方法，其特征在于，所述采样训练数据集包括第一类采样训练数据子集和第二类采样训练数据子集，第一类采样训练数据子集中的训练数据来自所述增量训练数据集，第二类采样训练数据子集中的训练数据来自所述原始训练数据集；所述利用所述采样训练数据集对预训练的数据处理模型进行训练得到目标数据处理模型，包括：采用所述采样训练数据集和所述采样训练数据集中的第二类采样训练数据子集对预训练的数据处理模型进行交替训练，得到目标数据处理模型。9.如权利要求8所述的方法，其特征在于，所述预训练的数据处理模型中包括纠正偏置模块和其他数据处理模块，所述采用所述采样训练数据集和所述采样训练数据集中的第二类采样训练数据子集对预训练的数据处理模型进行交替训练，得到目标数据处理模型，包括：保持所述其他数据处理模块的模型参数不变，采用所述采样训练数据集对所述纠正偏置模块进行训练；当对所述纠正偏置模块训练完成时，保持所述纠正偏置模块中的模型参数不变，采用所述采样训练数据集中的第二类采样训练数据子集对所述其他数据处理模块进行训练，得到目标数据处理模型。10.一种图像处理模型训练装置，其特征在于，包括：获取单元，用于获取原始训练数据集和增量训练数据集；处理单元，用于对所述原始训练数据集包括的多个训练数据和所述增量训练数据集包括的多个训练数据进行聚类处理，得到n个聚类集合；每个聚类集合中包括一个或多个训练
数据，所述每个聚类集合包括的一个或多个训练数据均属于同一数据类别；所述处理单元，还用于对所述n个聚类集合包括的训练数据进行采样压缩处理，得到采样训练数据集；所述处理单元，还用于利用所述采样训练数据集对预训练的数据处理模型进行训练得到目标数据处理模型；所述预训练的数据处理模型是基于所述原始训练数据集训练得到的。11.一种计算机设备，其特征在于，处理器，适用于实现一条或多条计算机程序；计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述的图像处理模型训练方法。12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时用于加载并执行如权利要求1-9任一项所述的图像处理模型训练方法。13.一种计算机产品或计算机程序，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时用于加载并执行如权利要求1-9任一项所述的图像处理模型训练方法。

技术总结
本申请实施例提供了一种图像处理模型训练方法、装置、计算机设备和存储介质，其中方法包括：获取原始训练数据集和增量训练数据集；对原始训练数据集包括的多个训练数据和增量训练数据集包括的多个训练数据进行聚类处理，得到N个聚类集合；每个聚类集合中包括一个或多个训练数据，每个聚类集合包括的一个或多个训练数据均属于同一数据类别；对N个聚类集合包括的训练数据进行采样压缩处理，得到采样训练数据集；利用采样训练数据集对预训练的数据处理模型进行训练得到目标数据处理模型；预训练的数据处理模型是基于原始训练数据集训练得到的，既能够减少预训练的模型再次训练时所需的训练数据数量，还可以提高再次训练后模型的准确率。的准确率。的准确率。

技术研发人员：何必畅胡易鄢科黄飞跃
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.09.14
技术公布日：2022/4/12

完整全部详细技术资料下载

当前第2页1 2