语义分割模型的训练方法、装置、电子设备和存储介质

文档序号：37107343发布日期：2024-02-22 21:05阅读：14来源：国知局

本发明涉及计算机视觉，尤其涉及一种语义分割模型的训练方法、装置、电子设备和存储介质。

背景技术：

1、语义分割，作为计算机视觉领域中的重要研究方向，其不同于目标检测和识别，其实现了输入图像的像素级的分类预测。目前，主流的语义分割模型大多属于判别式模型，在推理阶段仅需单次正向传播即可，但是单次正向传播存在一个较为严重的问题，即单次正向传播忽略了分割细节处的优化，从而导致了模型的分割性能欠佳。

2、此外，当前的语义分割任务中，受扩散模型的启发已尝试将语义分割任务重构为去噪任务/条件生成任务，然而在去噪/条件生成的过程中，目前的分割模型往往需要借助额外的去噪解码器，以进行去噪预测，这不仅会大量增加模型参数，同时还难与已有的主流分割模型兼容，从而导致了模型的性能较差，进而使得分割效果欠佳。

技术实现思路

1、本发明提供一种语义分割模型的训练方法、装置、电子设备和存储介质，用以解决现有技术中对细节处缺少优化，以及模型参数过大无法与已有的分割模型兼容，导致的模型性能较差，分割效果欠佳的缺陷，实现对细节处的优化，以及模型性能的提升。

2、本发明提供一种语义分割模型的训练方法，包括：

3、确定样本图像及其对应的样本分割图像；

4、基于采样时间戳和所述样本分割图像，确定带噪分割图像；

5、将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像；

6、基于所述样本分割图像和所述预测分割图像，对所述初始分割模型进行参数迭代，得到语义分割模型；

7、所述初始分割模型是在判别式语义分割模型的基础上，结合扩散适配器构建得到的，所述初始分割模型用于确定所述样本图像的图像特征，并基于所述图像特征，以及所述采样时间戳和所述带噪分割图像，确定所述样本图像对应的预测分割图像。

8、根据本发明提供的一种语义分割模型的训练方法，所述将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像，包括：

9、将所述样本图像输入至所述判别式语义分割模型中的特征编码层，得到所述特征编码层输出的图像特征；

10、将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器，得到所述扩散适配器输出的目标图像特征；

11、将所述目标图像特征输入至所述判别式语义分割模型中的特征解码层，得到所述特征解码层输出的预测分割图像。

12、根据本发明提供的一种语义分割模型的训练方法，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器，得到所述扩散适配器输出的目标图像特征，包括：

13、将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征；

14、将所述时间注入图像特征输入至所述扩散适配器中的中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征；

15、将所述信息注入图像特征和所述采样时间戳输入至所述扩散适配器中的下层时间注入层，得到所述下层时间注入层输出的目标图像特征。

16、根据本发明提供的一种语义分割模型的训练方法，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

17、将所述采样时间戳输入至所述扩散适配器中的时间嵌入块，得到所述时间嵌入块输出的时间戳嵌入；

18、将所述带噪分割图像输入至所述扩散适配器中的图像卷积块，得到所述图像卷积块输出的带噪图像嵌入；

19、将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征。

20、根据本发明提供的一种语义分割模型的训练方法，所述将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

21、将所述时间戳嵌入和所述带噪图像嵌入输入至所述上层时间注入层中的第一时间注入块，得到所述第一时间注入块输出的所述时间注入图像特征中的第一时间注入特征；

22、将所述时间戳嵌入和所述图像特征输入至所述上层时间注入层中的第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征。

23、根据本发明提供的一种语义分割模型的训练方法，所述图像特征为多尺度图像特征；

24、所述将所述时间戳嵌入和所述图像特征输入至所述上层时间注入层中的第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征，包括：

25、将所述时间戳嵌入和所述多尺度图像特征中最小分辨率的图像特征输入至所述第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征。

26、根据本发明提供的一种语义分割模型的训练方法，所述将所述时间注入图像特征输入至所述扩散适配器中的中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征，包括：

27、将所述第一时间注入特征和所述第二时间注入特征输入至所述中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征；

28、所述将所述信息注入图像特征和所述采样时间戳输入至所述扩散适配器中的下层时间注入层，得到所述下层时间注入层输出的目标图像特征，包括：

29、将所述信息注入图像特征和所述时间戳嵌入输入至所述下层时间注入层，得到所述下层时间注入层输出的最小分辨率的目标图像特征；

30、将所述时间戳嵌入，以及所述多尺度图像特征中除最小分辨率外其他分辨率的图像特征输入至所述第二时间注入块，得到所述第二时间注入块输出的其他分辨率的目标图像特征；

31、基于所述最小分辨率的目标图像特征，以及所述其他分辨率的目标图像特征，确定所述目标图像特征。

32、本发明还提供一种语义分割模型的训练装置，包括：

33、确定单元，用于确定样本图像及其对应的样本分割图像；

34、加噪单元，用于基于采样时间戳和所述样本分割图像，确定带噪分割图像；

35、预测单元，用于将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像；

36、训练单元，用于基于所述样本分割图像和所述预测分割图像，对所述初始分割模型进行参数迭代，得到语义分割模型；

37、所述初始分割模型是在判别式语义分割模型的基础上，结合扩散适配器构建得到的，所述初始分割模型用于确定所述样本图像的图像特征，并基于所述图像特征，以及所述采样时间戳和所述带噪分割图像，确定所述样本图像对应的预测分割图像。

38、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的语义分割模型的训练方法。

39、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的语义分割模型的训练方法。

40、本发明提供的语义分割模型的训练方法、装置、电子设备和存储介质，在判别式语义分割模型的基础上，结合扩散适配器，构建得到初始分割模型，基于初始分割模型进行去噪预测，得到预测分割图像，通过预测分割图像和样本分割图像对初始分割模型进行参数迭代，得到语义分割模型，克服了传统方案中对细节处缺少优化，以及模型参数过大无法与已有的分割模型兼容，导致的模型性能较差的缺陷，能够在不显著增加模型参数的同时，实现对细节处的优化，以及模型性能的提升。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张兆翔,雷震,陈李易,樊峻菘,张国文
技术所有人：中国科学院香港创新研究院人工智能与机器人创新中心有限公司
我是此专利的发明人

上一篇：一种用于环保设备的隔声装置的制作方法
上一篇：一种大米防潮储藏装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。