一种语义分割模型训练方法、系统、设备及程序产品

文档序号:37873542发布日期:2024-05-09 21:17阅读:9来源:国知局
本发明属于深度学习,具体涉及一种语义分割模型训练方法、系统、设备及程序产品。
背景技术
::1、近年来,随着计算机视觉技术的发展,语义分割模型正在自动驾驶、医学图像分析和场景理解等多个应用领域中发挥着越来越关键的作用,语义分割模型在提供像素级别预测方面表现出色,能够深度理解视觉内容。2、随着深度学习时代的到来,语义分割模型通常采用端到端的深度学习模型。然而,训练深度学习模型需要大量高质量的数据,语义分割模型也不例外,需要大规模且多样化的数据集。为了解决这个问题,研究者提出了一系列数据增强技术。这些技术包括各种图像处理操作,如旋转、平移、注入噪声、切割、随机擦除,以及像salfmix、self augmentation和keepaugment等图像混合的数据增强方法。此外,还探索了利用深度学习网络进行数据增强的方法,例如使用生成模型扩展数据集。3、除了图像质量之外,标注图像也是一项耗时且劳动密集的任务,特别是对于需要像素级别注释的分割模型而言。为了使用没有注释或具有较弱注释信息的数据训练神经网络,研究人员提出了一系列无监督学习和弱监督学习的框架,如diffumask、cam、mae、simclr等。diffumask(使用扩散模型合成具有像素级注释的图像用于语义分割)是一种高效的弱监督框架,利用预训练的stable diff usion模型生成高质量图像。4、但是,diffumask存在固有的局限性:diffumask中的掩膜生成过程呈现出一定程度的粗糙度,这对语义分割模型的性能至关重要,需要进一步提高生成掩膜的精度。并且,diffumask的一个显著限制是其倾向于生成具有单个显著对象的图像,在训练数据集中,这种具有单个对象的图像可能会妨碍分割模型的有效性,因为在实际场景中,分割模型通常会遇到单个场景中多个对象的情况。此外,其分割模型mask2former的backbone(骨干网络)需要大量的计算资源进行从头训练,这在效率和准确性方面构成了一个挑战。技术实现思路1、本发明的目的是提供一种语义分割模型训练方法、系统、设备及程序产品,用以解决现有技术中存在的上述问题。2、为了实现上述目的,本发明采用以下技术方案:3、第一方面,提供一种语义分割模型训练方法,包括:4、获取文本提示集合,所述文本提示集合包含若干最终提示集,各最终提示集均包含若干标题文本信息,所述标题文本信息包含物品类别信息;5、将文本提示集合输入预置的stable diffusion模型,利用stable diffusi on模型进行图像生成,得到若干生成图像,且各生成图像均关联对应的物品类别信息,并将图像生成过程中stable diffusion模型中间层基于交叉注意力机制得到的平均交叉注意力图提取出来,采用densecrf算法进行设定二值化阈值下的阈值分割处理,得到对应的初始掩膜,利用对应的生成图像、平均交叉注意力图和初始掩膜组成元素组,汇总各元素组得到元素集合;6、对元素集合中的各平均交叉注意力图均采用多个不同的二值化阈值进行阈值分割处理,得到各平均交叉注意力图所对应的若干第一掩膜mask-a,将元素集合中的各初始掩膜输入预训练的affinitynet模型进行掩膜调整分析,得到各初始掩膜对应的调整参数,并利用调整参数对初始掩膜进行调整,得到各初始掩膜所对应的第二掩膜mask-b;7、从平均交叉注意力图所对应的若干第一掩膜mask-a中选取出与对应第二掩膜mask-b匹配度最高的一个作为第三掩膜mask-c,确定各生成图像所对应的第三掩膜mask-c;8、将元素集合中的各生成图像分别输入预训练的basnet模型进行显著性检测,得到各生成图像所对应的第四掩膜mask-d;9、分别根据第三掩膜mask-c和第四掩膜mask-d确定对应生成图像上的前景部分,并根据生成图像所关联的物品类别信息确定其前景部分所对应的物品类别编号,利用物品类别编号对生成图像上由第三掩膜mask-c所确定的前景部分或者由第四掩膜mask-d所确定的前景部分进行前景标注,得到前景标注后的生成图像作为标注图像;10、随机选取若干张标注图像进行前景融合处理,得到对应的融合图像,所述融合图像上包含若干前景部分,且各前景部分均标注有对应的物品类别编号,并以此重复,得到若干融合图像,利用各融合图像组成训练集;11、将所述stable diffusion模型中的backbone网络替换到mask2former模型中,并将所述stable diffusion模型中backbone网络的权重参数加载到mask2former模型中,得到优化后的mask2former模型;12、利用训练集对优化后的mask2former模型进行训练,得到训练后的语义分割模型,并将语义分割模型输出至智能终端,以使智能终端利用语义分割模型进行目标图像的语义分割处理。13、在一个可能的设计中,所述获取文本提示集合,包括:14、获取若干分类文本模板集,各分类文本模板集中均包含k个子分类文本模板,k为大于0的整数;15、对各分类文本模板集中的k个子分类文本模板,分别使用经laion5b数据集预训练的clip模型进行提示检索,得到检索排名前n的真实图像和对应的标题文本信息,所述标题文本信息包含物品类别信息,n为大于0的整数;16、将检索排名前n的真实图像所对应的标题文本信息作为对应子分类文本模板的最终提示信息,利用各子分类文本模板的最终提示信息组成对应分类文本模板集的最终提示集,并利用各最终提示集组成文本提示集合。17、在一个可能的设计中,所述stable diffusion模型经laion-2b-en数据集预训练得到,所述affinitynet模型经pascal voc数据集预训练得到,所述ba snet模型经msra10k数据集预训练得到。18、在一个可能的设计中,所述对元素集合中的各平均交叉注意力图均采用多个不同的二值化阈值进行阈值分割处理,得到各平均交叉注意力图所对应的若干第一掩膜mask-a,包括:19、对元素集合中的各平均交叉注意力图,均采用densecrf算法进行不同二值化阈值设定下的阈值分割处理,得到各平均交叉注意力图所对应的若干第一掩膜mask-a。20、在一个可能的设计中,所述将元素集合中的各初始掩膜输入预训练的affinitynet模型进行掩膜调整分析,得到各初始掩膜对应的调整参数,并利用调整参数对初始掩膜进行调整,得到各初始掩膜所对应的第二掩膜mask-b,包括:21、将元素集合中的各初始掩膜输入预训练的affinitynet模型进行掩膜调整分析,得到各初始掩膜对应的语义相似度矩阵;22、利用语义相似度矩阵对对应的初始掩膜进行随机游走处理,得到各初始掩膜所对应的第二掩膜mask-b。23、在一个可能的设计中,所述从平均交叉注意力图所对应的若干第一掩膜mas k-a中选取出与对应第二掩膜mask-b匹配度最高的一个作为第三掩膜mask-c,包括:24、将平均交叉注意力图所对应的若干第一掩膜mask-a分别与对应的第二掩膜mask-b进行iou计算,将计算得到的iou值最大的第一掩膜mask-a作为第三掩膜mask-c。25、在一个可能的设计中,所述随机选取若干张标注图像进行前景融合处理,得到对应的融合图像,包括:26、随机选取若干张标注图像,并将选取的若干张标注图像的其中一张作为待融合图像,将选取的其余各标注图像上标注有对应物品类别编号的前景部分提取出来粘贴到待融合图像上,得到初始融合图像;27、利用预训练的pctnet模型对初始融合图像进行图像和谐化处理,得到最终的融合图像,所述pctnet模型经iharmony4数据集预训练得到。28、第二方面,提供一种语义分割模型训练系统,包括数据获取单元、图像生成单元、掩膜调整单元、掩膜匹配单元、掩膜检测单元、前景标注单元、图像融合单元、模型优化单元和模型训练单元,其中:29、数据获取单元,用于获取文本提示集合,所述文本提示集合包含若干最终提示集,各最终提示集均包含若干标题文本信息,所述标题文本信息包含物品类别信息;30、图像生成单元,用于将文本提示集合输入预置的stable diffusion模型,利用stable diffusion模型进行图像生成,得到若干生成图像,且各生成图像均关联对应的物品类别信息,并将图像生成过程中stable diffusion模型中间层基于交叉注意力机制得到的平均交叉注意力图提取出来,采用densecrf算法进行设定二值化阈值下的阈值分割处理,得到对应的初始掩膜,利用对应的生成图像、平均交叉注意力图和初始掩膜组成元素组,汇总各元素组得到元素集合;31、掩膜调整单元,用于对元素集合中的各平均交叉注意力图均采用多个不同的二值化阈值进行阈值分割处理,得到各平均交叉注意力图所对应的若干第一掩膜mask-a,将元素集合中的各初始掩膜输入预训练的affinitynet模型进行掩膜调整分析,得到各初始掩膜对应的调整参数,并利用调整参数对初始掩膜进行调整,得到各初始掩膜所对应的第二掩膜mask-b;32、掩膜匹配单元,用于从平均交叉注意力图所对应的若干第一掩膜mask-a中选取出与对应第二掩膜mask-b匹配度最高的一个作为第三掩膜mask-c,确定各生成图像所对应的第三掩膜mask-c;33、掩膜检测单元,用于将元素集合中的各生成图像分别输入预训练的basnet模型进行显著性检测,得到各生成图像所对应的第四掩膜mask-d;34、前景标注单元,用于分别根据第三掩膜mask-c和第四掩膜mask-d确定对应生成图像上的前景部分,并根据生成图像所关联的物品类别信息确定其前景部分所对应的物品类别编号,利用物品类别编号对生成图像上由第三掩膜mask-c所确定的前景部分或者由第四掩膜mask-d所确定的前景部分进行前景标注,得到前景标注后的生成图像作为标注图像;35、图像融合单元,用于随机选取若干张标注图像进行前景融合处理,得到对应的融合图像,所述融合图像上包含若干前景部分,且各前景部分均标注有对应的物品类别编号,并以此重复,得到若干融合图像,利用各融合图像组成训练集;36、模型优化单元,用于将所述stable diffusion模型中的backbone网络替换到mask2former模型中,并将所述stable diffusion模型中backbone网络的权重参数加载到mask2former模型中,得到优化后的mask2former模型;37、模型训练单元,用于利用训练集对优化后的mask2former模型进行训练,得到训练后的语义分割模型,并将语义分割模型输出至智能终端,以使智能终端利用语义分割模型进行目标图像的语义分割处理。38、第三方面,提供一种语义分割模型训练设备,包括:39、存储器,用于存储指令;40、处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。41、第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面中任意一种所述的方法。同时,还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,执行第一方面中任意一种所述的方法。42、有益效果:本发明利用stable diffusion模型生成一系列图像,并提取相对粗糙的初始掩膜,通过引入显著性目标检测技术对生成图像进行显著性目标检测,获得更准确的掩膜,同时保留自适应阈值二值化方法分割得到的掩膜,作为双重掩膜数据来源,可以解决图像掩膜中固有的不准确性,确保训练后的语义分割模型性能不受某些图像中掩膜生成的不良影响,从而提高模型的鲁棒性。本发明通过相应的图像增强技术,利用生成的双重掩膜作为参考,进行各图像前景的提取融合和和谐化处理,使得融合后的图像包含多个前景对象且看起来自然和谐,确保训练后的语义分割模型在多个对象场景下使用的有效性。本发明通过将stable diffusion模型的backbone网络复用到mask2former模型,并利用其权重作为mask2former的预训练权重,得到优化后的mask2former模型进行训练,可以实现更高效的语义分割训练过程,得到准确性更高的语义分割模型。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1