分割网络训练方法、装置、设备、计算机程序以及介质与流程

文档序号:30300537发布日期:2022-06-04 23:09阅读:110来源:国知局
分割网络训练方法、装置、设备、计算机程序以及介质与流程

1.本发明涉及图像信息处理技术,尤其涉及分割网络训练方法、装置、电子设备、计算机程序产品以及存储介质,使得本方案可应用的领域包括但不限于自动驾驶、车联网、智慧交通等领域。


背景技术:

2.语义分割是对图像中的每一个像素赋予一个语义标签。目前基于深度学习的语义分割方法需要大规模的人工精细化标注,而精细化标注的时间和人力成本极高,因此利用已有的有标注源域数据训练模型,在无标注的目标域上进行有效推理,进而在目标域上实现无监督的语义分割,此种方法称为无监督域适应语义分割,无监督域适应语义分割任务,其核心在于缩小源域与目标域之间的域间差异,使得在源域上训练的模型在目标域上的泛化能力尽可能地强。目前主流的域适应策略可以分为基于距离优化的方法和基于对抗生成网络(generative adversarial network,gan)的方法,前者通过构建距离评价策略,通过最小化源域特征与目标域特征分布之间的距离来实现域适应;后者通过对抗生成策略来实现模型对域间差异的泛化能力。但是,实际使用中往往会遇到测试场景的数据和模型训练数据不完全一致的情况,需要重新进行人工标注,增加了模型训练成本。


技术实现要素:

3.有鉴于此,本发明实施例提供一种分割网络训练方法、装置、电子设备、计算机程序产品以及存储介质,本发明实施例的技术方案是这样实现的:
4.本发明实施例提供了一种分割网络训练方法,包括:
5.获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;
6.通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络;
7.通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;
8.通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;
9.根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;
10.通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;
11.利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;
12.通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
13.本发明实施例还提供了一种分割网络训练装置,包括:
14.信息传输模块,用于获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;
15.训练模块,用于通过所述源域数据集合,对基础分割网络进行训练,得到经过训练
的基础分割网络;
16.所述训练模块,用于通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;
17.所述训练模块,用于通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;
18.所述训练模块,用于根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;
19.所述训练模块,用于通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;
20.所述训练模块,用于利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;
21.所述训练模块,用于通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
22.上述方案中,
23.所述训练模块,用于确定所述源域数据集合中的图像数量、图像类别数量、图像尺寸数据;
24.所述训练模块,用于对所述图像类别数量、图像尺寸数据进行独热编码处理,形成源域图像特征向量;
25.所述训练模块,用于基于所述图像数量、所述图像类别数量、所述图像尺寸数据以及所述源域图像特征向量,确定所述基础分割网络对应的交叉熵损失函数;
26.所述训练模块,用于基于所述交叉熵损失函数,通过所述源域数据集合,对所述基础分割网络进行训练,得到经过训练的基础分割网络。
27.上述方案中,
28.所述训练模块,用于通过所述基础分割网络,提取所述源域数据集合对应的源域特征向量
29.所述训练模块,用于基于所述源域数据集合的特征标签、所述图像数量、所述图像类别数量、所述图像尺寸数据和所述源域特征向量,计算所述源域数据集合对应的第一原型向量。
30.上述方案中,
31.所述训练模块,用于通过所述基础分割网络,提取所述源域数据集合对应的源域特征向量
32.所述训练模块,用于基于所述源域数据集合的特征标签、所述图像数量、所述图像类别数量、所述图像尺寸数据和所述源域特征向量,计算所述源域数据集合对应的第一原型向量。
33.上述方案中,
34.所述训练模块,用于计算所述第一原型向量和所述目标特征向量的相似性函数;
35.所述训练模块,用于获取所述标域数据集合的伪标签;
36.所述训练模块,用于根据所述相似性函数、所述图像类别数量、所述图像尺寸数据和所述伪标签,确定迁移学习损失函数;
37.所述训练模块,用于根据所述相似性函数、所述图像类别数量、所述图像尺寸数据和所述源域图像特征向量,确定类间约束损失函数;
38.所述训练模块,用于基于所述迁移学习损失函数和所述类间约束损失函数,确定所述基础分割网络的迁移损失函数。
39.上述方案中,
40.所述训练模块,用于确定所述源域数据集合的标签输出空间的损失函数;
41.所述训练模块,用于基于所述标签输出空间的损失函数、所述迁移学习损失函数和所述类间约束损失函数,确定所述基础分割网络的迁移损失函数。
42.上述方案中,
43.所述训练模块,用于当所述目标域数据集合为医疗图像集合时,
44.所述训练模块,用于将所述医疗图像集合,代入所述基础分割网络的迁移损失函数;
45.所述训练模块,用于确定所述基础分割网络的迁移损失函数满足相应的收敛条件时所述基础分割网络的编码器和解码器对应所述更新参数;
46.所述训练模块,用于通过所述更新参数对所述基础分割网络进行调整,得到第一分割网络。
47.上述方案中,
48.所述训练模块,用于确定控制更新速率的超参数;
49.所述训练模块,用于获取所述目标域数据集合中任一类型像素在不同更新阶段的像素数量;
50.所述训练模块,用于基于所述像素数量和所述超参数,基于所述目标特征向量对所述第一原型向量进行更新,得到所述第二原型向量。
51.上述方案中,还包括:
52.信息处理模块,用于获取待处理的图像,其中,所述待处理图像包括至少以下之一:
53.医疗图像、道路信息监控图像和媒体信息显示图像;
54.所述信息处理模块,用于通过所述第二分割网络对所述待处理的图像,进行分割,得到图像分割结果。
55.本发明实施例还提供了一种电子设备,所述电子设备包括:
56.存储器,用于存储可执行指令;
57.处理器,用于运行所述存储器存储的可执行指令时,实现前序的分割网络训练方法。
58.本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的分割网络训练方法。
59.本发明实施例具有以下有益效果:
60.本发明通过获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络;通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;根
据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。由此,在兼顾了训练精确性的同时,使得分割网络的泛化能力以及数据处理能力更强,适应不同的数据处理环境,减少数据标注的成本,增强了分割网络的分类的鲁棒性,减少了分割网络容易过拟合的问题。
附图说明
61.图1为本发明实施例中分割网络训练方法应用环境示意图;
62.图2为本发明实施例提供的电子设备的组成结构示意图;
63.图3为本发明实施例中迁移学习算法的效果示意图;
64.图4为本技术所提供的分割网络训练方法一个可选的流程示意图;
65.图5为本技术所提供的分割网络训练方法一个可选的流程示意图;
66.图6为本技术所提供的分割网络训练方法一个可选的流程示意图;
67.图7为本技术所提供的分割网络训练方法一个可选的流程示意图;
68.图8本发明实施例提供的分割网络训练方法一个可选的流程示意图;
69.图9为本发明实施例中分割网络的效果示意图。
具体实施方式
70.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
71.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
72.对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
73.1)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
74.2)客户端,终端中实现特定功能的载体,例如移动客户端(app)是移动终端中特定功能的载体,例如执行线上直播(视频推流)的功能或者是在线视频的播放功能。
75.3)卷积神经网络(cnn convolutional neural networks)是一类包含卷积计算且具有深度结构的前馈神经网络(feed forward neural networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。
76.4)模型训练,对图像数据集进行多分类学习。该模型可采用tensor flow、torch等
深度学习框架进行构建,使用cnn等神经网络层的多层结合组成多分割网络。模型的输入为图像经过opencv等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出图像分割结果。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
77.5)神经网络(neural network,nn):人工神经网络(artificial neural network,ann),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
78.6)contrastive loss:对比损失函数,其可以学习一种映射关系,这种映射关系可以使得在高维空间中,相同类别但距离较远的点,通过函数映射到低维空间后,距离变近,不同类别但距离都较近的点,通过映射后再低维空间变得更远。这样的结果就是,在低维空间,同一种类的点会产生聚类的效果,不同种类的mean会隔开。类似fisher降维,但fisher降维不具有out-of-sample extension的效果,不能对new sample进行作用。
79.下面对本发明实施例所提供的分割网络训练方法进行说明,其中,图1为本发明实施例中分割网络训练方法应用环境示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有人脸活体检测功能的应用软件的客户端,服务器中部署经过训练分割网络,以实现对终端一侧的人脸进行检验,例如,在金融领支付领域中,用户可以通过智能手机进行转账、支付或修改账户信息等需要进行身份验证的操作可以通过对用户的人脸活体进行检测实现。这一过程中由终端设备向服务器上传需要检测的人脸图像或视频,或由服务器直接调用数据库中需要检测的人脸图像或人脸视频,然后采用训练好的分割网络对所接收的人脸图像或人脸视频进行验证,以得到检测结果。服务器可向终端设备反馈检测结果,也可以将检测结果保持在本地,供其他业务应用或处理,其中,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
80.作为一个示例,服务器200用于布设分割网络训练装置以实现本发明所提供的分割网络训练方法,当然在通过分割网络对不同的人脸图像进行处理以生成相应的分类结果之前,还需要对分割网络进行训练,具体包括:获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络;通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
81.当然,本发明所提供的分割网络训练装置可以应用于虚拟资源或者实体资源进行金融活动或者通过实体金融资源支付环境(包括但不限于各类型的实体金融资源支付中的人脸检测环境)或者社交软件进行信息交互的使用环境,在各类型的实体金融资源进行金融活动或者通过虚拟资源支付中通常会对不同数据来源的金融信息进行处理,最终在用户界面(user interface,ui)上呈现出与相应的与所述目标用户相匹配的检测出结果,确定
检测的图像是用户的活体人脸图像还是攻击信息。用户在当前显示界面中获得的人脸分类结果(例如判断当前检测的是攻击信息)还可以供其他应用程序调用。
82.在一些实施例中,终端即可以手机等智能设备,也可以是车载的智能系统。本发明所提供的分割网络训练方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中),具体使用场景本技术不做具体限制,其中,作为云服务提供给企业客户,帮助其训练分割网络,对路况中出现的车辆的种类与位置、速度,行人的位置和速度等信息进行检测。
83.其中,本技术实施例所提供的分割网络训练方法是基于人工智能实现的,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
84.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
85.在本技术实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(speech technology)中的语音识别技术(automatic speech recognition,asr),其中包括语音信号预处理(speech signal preprocessing)、语音信号频域分析(speech signal frequency analyzing)、语音信号特征提取(speech signal feature extraction)、语音信号特征匹配/识别(speech signal feature matching/recognition)、语音的训练(speech training)等。
86.例如可以涉及机器学习(machine learning,ml),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(deep learning)等技术,深度学习包括人工神经网络(artificialneural network),例如卷积神经网络(convolutional neural network,cnn)、循环神经网络(recurrent neural network,rnn)、深度神经网络(deep neural network,dnn)等。
87.下面对本发明实施例的分割网络训练装置的结构做详细说明,分割网络训练装置可以各种形式来实施,如带有分割网络训练装置处理功能的专用终端,也可以为设置有分割网络训练装置处理功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了分割网络训练装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
88.本发明实施例提供的分割网络训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。分割网络训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括
数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
89.其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
90.可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
91.在一些实施例中,本发明实施例提供的分割网络训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的分割网络训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的分割网络训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,co mplex programmable logic device)、现场可编程门阵列(fpga,field-progra mmable gate array)或其他电子元件。
92.作为本发明实施例提供的分割网络训练装置采用软硬件结合实施的示例,本发明实施例所提供的分割网络训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的分割网络训练方法。
93.作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
94.作为本发明实施例提供的分割网络训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(asic,application specific integr ated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件执行实现本发明实施例提供的分割网络训练方法。
95.本发明实施例中的存储器202用于存储各种类型的数据以支持分割网络训练装置的操作。这些数据的示例包括:用于在分割网络训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从分割网络训练方法的程序可以包含在可执行指令中。
96.在另一些实施例中,本发明实施例提供的分割网络训练装置可以采用软件方式实现,图2示出了存储在存储器202中的分割网络训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括分割网络训练装置,分割网络训练装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当分割网络训练装置中的软件模块被处理器201读取到ram中并执行时,将实现本发明实施例
提供的分割网络训练方法,其中,分割网络训练装置中各个软件模块的功能,包括:
97.信息传输模块2081,用于获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;
98.训练模块2082,用于通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络;
99.所述训练模块2082,用于通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;
100.所述训练模块2082,用于通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;
101.所述训练模块2082,用于根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;
102.所述训练模块2082,用于通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;
103.所述训练模块2082,用于利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;
104.所述训练模块2082,用于通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
105.根据图2所示的封装在电子设备中的分割网络训练装置,在本技术的一个方面中,本技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述分割网络训练方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
106.在介绍本技术所提供的分割网络训练方法之前,首先对相关技术中的迁移学习算法进行介绍,参考图3,图3为本发明实施例中迁移学习算法的效果示意图,其中,相关技术方案主要分为对抗训练和直接分布对齐两种。对抗训练通常额外增加一个判别器,通过判别器全局的对源域及目标域的训练,从而生成器获得域不变的特征表达。直接分布对齐的方法通常直接计算两种域下的分布距离,通过加入分布一致性的正则化约束,尽可能的将两种域一起拉进,最终获得与域无关的特征表达。现有的迁移学习算法大多数没有考虑类别信息,只是从全局的角度进行约束,尽量这样可以获得一个与域无关的特征,但是语义分割是一个多分类的问题,不考虑类别信息的分布对齐往往会造成类别之间的错位分类。如图3所示,图3(a)为不考虑类别时间的约束的效果示意图,造成将目标域拉向错误的分类界面。而图3(b)则为将目标域正确的拉向分类器的分类界面。
107.迁移学习是机器学习的一个分支领域,其目标是通过已有的标记数据(也称为源域数据)向未标记数据(也称为目标域数据)迁移,从而通过源域数据所蕴含的知识提升目标域预测模型的学习效果。通常,源域数据量充足,而目标域数据量较少。常见的迁移学习方法是在一个具有大量标记数据的源域数据集上预训练一个深度神经网络,然后使用该网络的权值作为初始值或使用该网络作为相关任务的特征提取器,经梯度下降在相关目标任务的数据集中整体微调或部分微调深度神经网络。使用这种方法,在目标任务的少量数据集上的学习过程变得更加有效。然而,迁移学习通常要求源域数据量充足。另外,由于基于
源域数据的预训练模型仍需要在目标域数据上重新训练以适应目标任务,因此当目标域的数据量过少仍会易于造成过拟合现象。
108.为解决上述缺陷,参考图4,图4为本技术所提供的分割网络训练方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行分割网络训练装置的各种电子设备执行,例如可以是如带有图像检测功能的专用终端、带有分割网络训练方法功能的服务器或者服务器集群,实现针对不同的使用场景中所适配的分割网络进行训练及部署。下面针对图4示出的步骤进行说明。
109.步骤401:分割网络训练装置获获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签。
110.在本发明的一些实施例中,源域数据集合可以包括:源域图像,目标域数据集合可以包括:目标域图像,源域图像指的是可以提供丰富的标注信息的图像,目标域图像指的是测试数据集所在的领域,缺少标注信息的图像。目标域图像中包含测试数据集和训练数据集,测试数据集包含我们需要的待分割图像,在分割网络的训练过程中,使用的目标域图像指的是训练数据集中的图像。源域图像和目标域图像描述的是相同场景,解决同一类任务,源域图像和目标域图像的数据分布相关但是不同,因此源域图像和目标域图像在外观风格上可能非常不同,可是在分割结果上会具有很多相似性,如空间布局和局部上下文。本技术通过对分割网络进行领域适应训练,可以将在源域图像中表现良好的分割网络应用在目标域图像上。源域图像可以由图像采集设备采集,由专业人员对图像进行标注,进而发送给分割网络训练装置。例如,源域图像具体可以表现为医学图像,那么源域图像可以由各医学图像采集设备,比如电子计算机断层扫描仪(computed tomography,ct)、或核磁共振成像仪等来对生命体组织进行图像采集,并由图像科医师标注进而提供给分割网络训练装置,也就是可以接收医学图像采集设备发送的医学图像样本。
111.在本发明的一些实施例中,源域图像可以表现为街景图像,那么源域图像可以由街道上的监控设备进行采集,并由专业人士进行标注进而提供给分割网络训练装置,还可以从游戏视频中采集游戏引擎合成的街景图像作为源域图像。其中,医学图像指的是在医疗或医学研究中,以非侵入方式取得生命体或生命体某部分内部组织的图像,比如人体的脑部、肠胃、肝脏、心脏、喉咙和阴道等图像,这些图像可以是ct图像、核磁共振图像或者正子发射断层扫描影像等等。而生命体指的是有生命形态的独立个体,比如人或动物等。源域图像可以指的是已经由医学图像采集设备采集,通过各种途径获取到的图像,比如从数据库或网络等获取源域图像,源域图像可以是经由专业人员对图像进行特定意义标注的图像样本,也可以是未经任何处理的图像样本。
112.在本发明的一些实施例中,以分割网络进行人脸五官活体检测为例,源域数据集合为人脸图像集合,其中,在获取获得通过终端所采集的用户图像后,可以首先通过脸部检测的技术来框定用户脸部所在区域,并以此区域为中心扩大1.8倍,获得更多的背景内容,并对包括背景内容的脸部图像进行裁剪;例如:可以采用如下方式:采用人脸检测算法,框选目标对象的人脸位置;使用五官定位算法、标出人眼、嘴、鼻、等脸部的特征点;根据检测到的人脸位置截取包括背景内容的脸部图像。然后通过深度估计网络裁剪出来的真人人脸计算得到脸部对应的深度图。
113.在本发明的一些实施例中,当对媒体信息的图像帧进行识别时,利用本技术的分
割网络可以进行基于像素点的图片分类,得到各待播放视频帧中包含的视频物体图像,并且对视频物体图像的位置以及类别进行识别。
114.步骤402:分割网络训练装置通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络。
115.在本发明的一些实施例中,通过所述源域数据集合,对基础分割网络进行训练,得到经过训练的基础分割网络,可以通过以下方式实现:
116.确定所述源域数据集合中的图像数量、图像类别数量、图像尺寸数据;对所述图像类别数量、图像尺寸数据进行独热编码处理,形成源域图像特征向量;基于所述图像数量、所述图像类别数量、所述图像尺寸数据以及所述源域图像特征向量,确定所述基础分割网络对应的交叉熵损失函数;基于所述交叉熵损失函数,通过所述源域数据集合,对所述基础分割网络进行训练,得到经过训练的基础分割网络。其中,对于不同的使用场景来说,图像尺寸数据的取值也是不同的,例如对于医疗图像可以为肿瘤图像的高和直径。媒体信息的人物可以为长和宽,活体检测可以为长、宽、高,使用场景不同有不同的组合,用户可以灵活调整。
117.在本发明的一些实施例中,分割模型可以采用深度实验(deeplab)结构,包含但不仅限于deeplabv1、deeplabv2、deeplabv3以及deeplabv3+。其中,deeplabv2结构是一种用于图像分割的cnn模型结构,输入一张图片,输出原图同大小的掩码图,图中每个像素点的值表示这个像素属于的类别标签值。deeplabv3+结构是在deeplabv2的基础上改进后的一种用于图像分割的cnn模型结构,它在图像分割比赛中通常能够取得更好的成绩。cnn是神经网络模型的一种发展,用卷积层替代了人工神经网络中的全连接层结构,在各种计算机视觉领域中取得了非常优异的表现。
118.在本发明的一些实施例中,使用deeplabv2结构时,对于源域数据集以及无标签的目标域数据集可以通过公式1,利用交叉熵损失函数训练一个基础的分割模型:
[0119][0120]
其中,ns是源域的图像数量,h,w分别是图像的高和宽,c是类别数量。是独热编码one-hot的向量,其中,通过独热编码(one-hot encoding)对源域中不同类别数据进行编码,具体包括:使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
[0121]
步骤403:分割网络训练装置通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量。
[0122]
在本发明的一些实施例中,提取所述源域数据集合对应的第一原型向量,可以通过以下方式实现:
[0123]
通过所述基础分割网络,提取所述源域数据集合对应的源域特征向量;基于所述源域数据集合的特征标签、所述图像数量、所述图像类别数量、所述图像尺寸数据和所述源域特征向量,计算所述源域数据集合对应的第一原型向量。其中,当所使用的源域图像尺寸数据包括宽和高时,每一类的原型向量计算方式参考公式2:
[0124][0125]
其中,是提取的源域特征向量,y是源域数据集合的标签。
[0126]
步骤404:分割网络训练装置通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量。
[0127]
步骤405:分割网络训练装置根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数。
[0128]
参考图5,图5为本技术所提供的分割网络训练方法一个可选的流程示意图,可以理解地,图5所示的步骤可以由运行分割网络训练装置的各种电子设备执行,例如可以是如带有图像检测功能的专用终端、带有分割网络训练方法功能的服务器或者服务器集群,实现针对不同的使用场景中所适配的分割网络进行训练及部署。下面针对图5示出的步骤进行说明。
[0129]
步骤501:分割网络训练装置计算所述第一原型向量和所述目标特征向量的相似性函数。
[0130]
步骤502:分割网络训练装置获取所述标域数据集合的伪标签。
[0131]
步骤503:分割网络训练装置根据所述相似性函数、所述图像类别数量、所述图像尺寸数据和所述伪标签,确定迁移学习损失函数。
[0132]
步骤504:分割网络训练装置根据所述相似性函数、所述图像类别数量、所述图像尺寸数据和所述源域图像特征向量,确定类间约束损失函数。
[0133]
步骤505:分割网络训练装置基于所述迁移学习损失函数和所述类间约束损失函数,确定所述基础分割网络的迁移损失函数。
[0134]
其中,以分割网络对医疗图像的处理为例,对于一个目标域图像,是训练装置所提取的目标域特征,通过公式3可以计算每一个特征与原型特征的相似性函数:
[0135][0136]
对于目标域的数据,获得对应的伪标签则目标域数据集合到源域数据集合的迁移学习损失函数计算参考公式4:
[0137][0138]
为了实现源域的类间约束,提升分割网络的精确性,源域数据集合的类间损失函数计算参考公式5:
[0139][0140]
基础分割网络的迁移损失函数为上述两部分损失函数的加和,计算参考公式6:
[0141]
[0142]
参考图6,图6为本技术所提供的分割网络训练方法一个可选的流程示意图,其中,在图5所示处理过程的基础上,为了增加基础分割网络的迁移损失函数的可靠性,还可以采用标签的输出空间进行对比迁移,具体包括以下步骤:
[0143]
步骤5051:分割网络训练装置确定所述源域数据集合的标签输出空间的损失函数;
[0144]
步骤5052:分割网络训练装置基于所述标签输出空间的损失函数、所述迁移学习损失函数和所述类间约束损失函数,确定所述基础分割网络的迁移损失函数。
[0145]
其中,基础分割网络的迁移损失函数可以通过公式6计算:
[0146]
l
contra
=l
contrafeat
+l
contraout
ꢀꢀꢀ
公式6
[0147]
步骤406:分割网络训练装置通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络。
[0148]
在本发明的一些实施例中,通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络,可以通过以下方式实现:
[0149]
当所述目标域数据集合为医疗图像集合时,将所述医疗图像集合,代入所述基础分割网络的迁移损失函数;确定所述基础分割网络的迁移损失函数满足相应的收敛条件时所述基础分割网络的编码器和解码器对应所述更新参数;通过所述更新参数对所述基础分割网络进行调整,得到第一分割网络。
[0150]
步骤407:分割网络训练装置利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量。
[0151]
在本发明的一些实施例中,利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量,可以通过以下方式实现:
[0152]
确定控制更新速率的超参数;获取所述目标域数据集合中任一类型像素在不同更新阶段的像素数量;基于所述像素数量和所述超参数,基于所述目标特征向量对所述第一原型向量进行更新,得到所述第二原型向量。其中,利用目标域数据集合的向量对源域数据集合进行更新可以通过公式7实现:
[0153][0154]
其中,是指截止到上一次更新时属于类别c的像素数量,其中,类别c为目标域数据集合中的任一类别像素,对此本技术不做具体限制,是指当前更新时属于类别c的像素数量。但是,通过公式7所示的更新方式进行原型向量的更新时,由于的数量远远大于因此造成更新的原型向量没有充分吸收目标域数据集合的特征。为此,通过公式8可以实现动量的原型向量更新:
[0155][0156]
其中,m是一个超参数,用于控制更新的速率,用户可以根据分割网络的不同应用环境灵活调整超参数。
[0157]
步骤408:分割网络训练装置通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
[0158]
当分割网络训练完成后,即可以部署在服务器中,并对待处理的图像进行处理,参考图7,图7为本技术所提供的分割网络训练方法一个可选的流程示意图,具体包括以下步骤:
[0159]
步骤701:获取待处理的图像,其中,所述待处理图像包括至少以下之一:
[0160]
医疗图像、道路信息监控图像和媒体信息显示图像。
[0161]
步骤702:通过所述第二分割网络对所述待处理的图像,进行分割,得到图像分割结果。
[0162]
为了更好的说明本技术提供的分割网络训练方法的处理过程,下面以使用分割网络处理道路图像为例,对本技术所提供的分割网络训练方法的使用环境进行说明,参考图1的使用场景示意图,本发明所提供的分割网络训练方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中),具体使用场景本技术不做具体限制,其中,作为云服务提供给企业客户,帮助企业客户对不同的自动驾驶算法进行检测。
[0163]
在本发明的一些实施例中,参考图8,图8本发明实施例提供的分割网络训练方法一个可选的流程示意图,具体包括以下步骤:
[0164]
步骤801:获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签。
[0165]
步骤802:通过基础分割网络,提取所述源域数据集合对应的第一原型向量和所述目标域数据集合对应的目标特征向量。
[0166]
步骤803:根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数。
[0167]
步骤804:通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络。
[0168]
步骤805:利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量。
[0169]
步骤806:通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络。
[0170]
步骤807:部署第二分割网络,并获取道路信息监控图像。
[0171]
步骤808:通过所述第二分割网络对所述待处理的图像,进行分割,得到图像分割结果,并进行标记。
[0172]
参考图9,图9为本发明实施例中分割网络的效果示意图,其中,通过对分割结果进行标记,可以标记行人碰撞风险、车辆碰撞风险、交通拥堵状况、道路危险(积水、结冰、坑洼路面)、交通信号灯状态,也可以实时检测视角范围内的车辆与行人的位置和速度,统计路面实时交通流量;获取车辆的种类与位置、速度,行人的位置和速度等信息;还可以对车辆拥堵排队状态、车辆位置与种类、行驶方向、能见度(雾)、人和动物等道路信息监控图像中的信息进行检测。
[0173]
有益技术效果:
[0174]
本发明通过获取源域数据集合与目标域数据集合,其中,所述源域数据集合携带标签,所述目标域数据集合未携带标签;通过所述源域数据集合,对基础分割网络进行训
练,得到经过训练的基础分割网络;通过所述基础分割网络,提取所述源域数据集合对应的第一原型向量;通过所述基础分割网络,提取所述目标域数据集合对应的目标特征向量;根据所述第一原型向量和所述目标特征向量的相似性函数,进行对比迁移处理,确定所述基础分割网络的迁移损失函数;通过所述迁移损失函数,对所述基础分割网络进行调整,得到第一分割网络;利用所述目标特征向量对所述第一原型向量进行更新,得到第二原型向量;通过所述第二原型向量对所述第一分割网络进行调整,得到第二分割网络,由此,在兼顾了训练精确性的同时,使得分割网络的泛化能力以及数据处理能力更强,适应不同的数据处理环境,减少数据标注的成本,增强了分割网络的分类的鲁棒性,减少了分割网络容易过拟合的问题。
[0175]
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1