本发明涉及语义分割技术,具体涉及一种基于扩散模型和对偶生成器的交通场景连续语义分割方法。
背景技术:
::1、语义分割技术是在图像像素级别上进行分类,以识别固定数量类别的区域。此方法在过去的十年中在信号处理领域进行了广泛研究。然而,当在新数据上微调分割模型时,会遇到灾难性遗忘的问题。特别是在动态的现实环境中,尤其交通领域,这个问题尤为突出,交通场景的持续变化,使这个问题更加复杂,大量数据收集和计算会带来巨大成本。2、针对交通领域的此类问题,连续语义分割被引入来解决这个挑战。通过获取不同时间的交通数据,其中不同时间的交通场景会有不同类别,新类别的数据和通过旧类别数据训练的分割模型,分割模型被修正以识别旧类别和新类别的区域。目前大多数方法都侧重于利用正则化函数进行旧类别的知识蒸馏,或者通过回放旧类别图像来提供先前类别的丰富信息。通常,这些旧类别图像是由生成对抗网络(gans)生成的;然而,基于gans的方法既不能保证生成图像的语义准确性,也不能保证原始训练数据和生成图像之间的分布一致性。此外,由于摄像机姿态、图像风格或光照的差异,生成的图像可能具有不同的分布。技术实现思路1、本发明的目的是为了解决在交通场景下连续语义分割中的当前步骤中旧类生成图像的语义不精确和出现分布外特征的问题,在扩散模型的基础上设计了一个对偶生成器,并以不同的指令为指导,整个框架流程主要分为两个阶段,第一阶段为生成回放图像,其目的是生成旧类别的图像集合,用于更新当前步骤的分割模型并防止灾难性遗忘。为了解决现有生成回放框架中的语义不精确和分布不匹配问题,提出了一种对偶生成器,第二阶段为分割模型和生成器的更新迭代,两个阶段的具体步骤如下:2、(1)获取交通场景原始旧类别图像集合x1:s-1,对应的分割掩码图y1:s-1和文本标签p1:s-1,以及前一阶段的分割模型其中s表示连续语义分割中的类别增加的每个阶段;3、(2)构建基于扩散模型的对偶生成器,分别为结构保留生成器spg和分布对齐生成器dag;4、所述结构保留生成器利用旧类别图像集合x1:s-1和文本标签p1:s-1,通过使用基于边缘检测的结构线索生成具有相同语义结构的图像集合5、所述分布对齐生成器基于扩散模型和文本反演技术(textual inversion),利用文本标签p1:s-1生成与旧类别图像的类别分布保持一致的图像集合6、(3)将步骤(2)生成的图像集合输入原始分割模型中,得到分割后的掩码图7、(4)将步骤(2)生成的与掩码图y1:s-1进行组合,将步骤(2)生成的图像集合与掩码图进行组合,构成回放图像集合8、(5)获取交通场景新类别图像集合xs和掩码图ys的组合ts,利用rs和ts构成的新的数据集,训练更新原始分割模型至新的分割模型通过重新进行交通场景语义分割。9、进一步地,在稳定扩散模型(stablediffusion)的基础上提出了一种对偶生成器架构,以生成具有精确语义和分布对齐的回放图像集合,将回放图像集合与新类别的图像集合相结合,以更新分割模型和对偶生成器。10、进一步地,所述结构保留生成器具体为:11、将旧类别图像集合x1:s-1通过边缘提取网络(dense extreme inception network,dein)得到边缘信息将边缘信息与文本标签p1:s-1组合得到条件信息将条件信息c输入预训练的扩散模型中得到生成的图像集合12、进一步地,所述结构保留生成器中扩散模型的逆向推理过程如下:13、14、其中,t代表扩散过程中的阶段,fθ为预训练的去噪网络,βu为第u阶段的噪声控制参数,为第t阶段生成的图像集合,初始迭代值为随机噪声。15、进一步地,所述结构保留生成器的更新方式为:16、将新类别图像集合xs通过边缘提取网络得到边缘信息由边缘信息和新类别图像集合xs对应的掩码图ys的组合更新结构保留生成器。17、进一步地,所述分布对齐生成器具体为:18、将旧类别文本标签p1:s-1输入到扩散模型中,利用扩散模型的文字生成图像模块,生成图像集合将中的每张图像加入噪声∈~n(0,1),得到图像集合通过预训练的文本反演网络将文本标签p1:s-1转化为嵌入对象w1:s-1,接着将和w1:s-1通过扩散模型融合得到生成的图像集合19、进一步地,所述分布对齐生成器中扩散模型的逆向推理过程如下:20、21、其中,t代表扩散过程中的阶段,fθ为预训练的去噪网络,βu为第u阶段的噪声控制参数,为第t阶段生成图像加入噪声后的图像集合,在初始阶段利用公式加入噪声,为第t-1阶段生成的图像集合,c为条件信息,c=w1:s-1。22、进一步地,所述分布对齐生成器的更新方式为:将新类别图像的类别集合cs的词汇最小单元利用文本反演转化为嵌入对象ws加入扩散模型的文本词汇中,利用新类别的样本图像优化扩散损失函数。23、进一步地,优化扩散损失函数如下:24、25、其中,xc,t为第t阶段类别为c的少量样本图像,c∈cs,fθ为预训练的去噪网络,wc为文本反演转化得到类别c的嵌入对象。26、进一步地,所述分割模型的总损失函数ltotal公式如下:27、ltotal=lce+λ1lall+λ2lkd28、29、30、31、其中,lce、lali、lkd分别为交叉熵损失、ali(adaptive logit regularizer)损失和kd(knowledge distillation)损失,c表示新旧类别集合,cs表示新类别集合,c1:s-1表示旧类别集合,表示第s阶段类别为c的分割函数,表示第s-1阶段类别为k的分割函数,表示第s阶段属于分类k的概率的对数值,所述交叉熵损失使图像逐像素分类的不确定性最小化,所述ali损失使所有图像集合的对数值与旧类别图像集合的对数值之间的距离最小化,所述kd损失使新旧分割模型的输出概率之间的距离最小;λ1和λ2是平衡不同损失项的系数。32、相比于现有技术,本发明具有的有益效果为:33、1.设计了结构保留生成器,在合成图像中保持了原始图像的空间一致性和语义结构,并且此生成器与条件有关,因此,它可以广泛用于其他扩散模型。34、2.设计了分布对齐生成器,可以生成具有类似旧类别分布的图像,增加了整体数据的多样性。35、3.设计了对偶生成器的更新方式,使类别信息独立于图像集合,有效减轻灾难性遗忘问题。36、4.设计了一种基于对偶生成器结构的连续语义分割架构,提出了一种基于扩散模型的连续语义分割方法,对偶生成器有效地改进了旧类别图像集合,以维护旧类别的知识信息。37、5.与其他先进方法相比,本发明能够保留更多旧类别信息,分割更加准确,具有可观的竞争力。当前第1页12当前第1页12