域适应学习系统的制作方法

文档序号:21849772发布日期:2020-08-14 17:24阅读:222来源:国知局
域适应学习系统的制作方法

相关申请的交叉引用

本申请是2018年2月6日在美国提交的题为“domainadaptationlearningsystem(域适应学习系统)”的美国临时申请no.62/627,179的非临时申请,该美国临时申请的全部内容通过引用并入于此。



背景技术:

(1)技术领域

本发明涉及一种用于使深度卷积神经网络适应的系统,并且更具体地,涉及用于在不需要任何新标签的情况下使在具有标签的源域上训练的深度卷积神经网络适应于目标域的系统。

(2)相关技术的描述

深度卷积神经网络(cnn)在许多图像理解任务(包括分类、分割、单目深度估计和字幕)方面都实现了最先进性能。这些网络需要大量(数以万计至数百万)训练图像,根据应用,训练图像可能相对容易收集,但是还需要对训练图像进行注释。人工注释通常用作期望网络学习以进行预测的真值(groundtruth)标签。获得人工注释/标记非常耗时、昂贵且无法很好地扩展。

域适应尝试通过以下方式来解决该问题:允许在现有标记的数据集上训练网络,然后使用来自目标域的具有最少或不具有标签/注释的图像使该网络适应于新图像域。cnn由两部分组成:将输入图像映射到特征空间的深度特征提取器、以及将特征映射到预期输出的线性分类器(或回归器)。

存在用于域适应的许多方法。例如,hoffman等人(参见并入的参考文献的列表,参考文献1)描述的方法涉及cnn特征提取器、线性分类器和cnn判别器。特征提取器从源域(例如,域“a”)图像和目标域图像(例如,域“b”)这两者中提取特征。使用分类器对来自源域的特征进行注释。这里,使用真值标签计算损失并向后传播以用于训练。注意,因为没有真值标签/注释可用,所以这是对于目标域图像是无法完成的。取而代之的是,将来自两个域的特征传递到被训练成在来自两个相应域的特征之间进行区分的判别器。同时,特征提取器被训练,因此判别器无法在这两个域之间进行区分。通过这种对抗处理,特征提取器学习提取为域不可知的特征,从而允许将分类器应用于两个域。

ghifary等人(参见参考文献2)利用用于训练的附加组件增强了标准特征提取器和分类器。这里,他们使用图像解码器,该图像解码器将特征映射回图像。通过要求这些特征能够重构目标域的输入图像,他们还将一些域不可知论(domainagnosticism)添加到模型。

zhu等人(参见参考文献3)的系统用于图像到图像平移任务,其中,给定源域中的图像的情况下,使得该图像看起来好像来自目标域。例如,给定在夏季期间拍摄的图像,使其看起来好像是在冬季期间拍摄的。

尽管存在用于域适应的方法,但是仍然需要一种用于基于域不可知特征进行转移学习的系统。



技术实现要素:

本发明涉及一种用于使深度卷积神经网络适应的系统,并且更具体地,涉及用于在不需要任何新标签的情况下使在具有标签的源域上训练的深度卷积神经网络适应于目标域的系统。所述系统包括一个或更多个处理器以及编码有可执行指令的非暂时性计算机可读介质,以使在执行所述可执行指令时,所述一个或更多个处理器执行多种操作。所述系统在经注释的源图像域上训练深度cnn。通过确定从经注释的源图像域和目标图像域映射到联合隐空间的域不可知特征并且使用所述域不可知特征将所述联合隐空间映射到所述目标图像域的注释,在不需要新注释的情况下使所述深度cnn适应于新目标图像域。

在另一方面中,所述联合隐空间对于所述经注释的源图像域与所述目标图像域之间的任何结构化噪声变化均是不变的。

在另一方面中,解码器添加回结构化噪声变化,以用于根据各个图像域在所述联合隐空间中的域不可知特征重构所述各个图像域。

在另一方面中,所述联合隐空间由多个辅助网络和损失函数正则化。

在另一方面中,在使用所述域不可知表示将所述联合隐空间映射到所述目标图像域的注释时,所述系统使用对抗设置,在所述对抗设置中,判别器尝试对所述联合隐空间中的域不可知特征是从所述经注释的源图像域生成的还是从所述目标图像域生成的进行分类。优化交叉熵损失函数,所述交叉熵损失函数被定义为所述判别器的正确分类的数量。

在另一方面中,在使用所述域不可知表示将所述联合隐空间映射到针对所述目标图像域的注释时,所述系统经由编码器将图像从其实际域编码到所述联合隐空间,其中,所述实际域是所述经注释的源图像域和所述目标图像域中的一者。经由解码器将所述图像解码到另一个域,使得生成合成图像,其中,所述另一个域是所述经注释的源图像域和所述目标图像域中的另一者。所述系统识别所述合成图像属于所述实际域还是所述另一个域。

在另一方面中,其中,所述系统将所述合成图像编码回所述联合隐空间,并且将所述合成图像解码回其实际域。

在另一方面中,基于所述目标图像域的所述注释控制装置。

在另一方面中,所述装置是自主驾驶交通工具的机械组件。

最后,本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括在非暂时性计算机可读介质上存储的计算机可读指令,所述计算机可读指令能够由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,计算机实现的方法包括使计算机执行这种指令并且执行所得到的操作的动作。

附图说明

结合参考以下附图,本发明的目的、特征以及优点将从本发明的各方面的以下详细描述变得显而易见,其中:

图1是示出了根据本公开的一些实施方式的用于适应深度卷积神经网络的系统的组件的框图;

图2是根据本公开的一些实施方式的计算机程序产品的示图;

图3是根据本公开的一些实施方式的转移感测系统(ts2)的高级系统架构的示图;

图4是根据本公开的一些实施方式的示出了到损失模块的路径的详细ts2系统架构的示图;

图5是示出了根据本公开的一些实施方式的训练之后的ts2性能的示图;

图6是例示了根据本公开的一些实施方式的使用处理器利用标签预测来控制装置的流程图;

图7a是例示了根据本公开的一些实施方式的训练阶段的流程图;

图7b是例示了根据本公开的一些实施方式的训练阶段的图7a的延续;以及

图8是例示了根据本公开的一些实施方式的图像处理系统的流程图。

具体实施方式

本发明涉及一种用于使深度卷积神经网络适应的系统,并且更具体地,涉及用于在不需要任何新标签的情况下使在具有标签的源域上训练的深度卷积神经网络适应于目标域。呈现以下描述以使本领域普通技术人员能够作出和使用本发明并将其结合到特定应用的背景中。多种修改以及不同应用中的多种用途对于本领域技术人员来说将是显而易见的,并且本文限定的总体构思可以应用于广泛方面。因此,本发明不旨在限于所呈现的各方面,而是涵盖与本文所公开的原理和新颖特征相一致的最广范围。

在下面的详细说明中,阐述了许多具体细节,以使得能够更加彻底地理解本发明。然而,本领域技术人员将明白,本发明可以在不限于这些具体细节的情况下实施。在其它情况下,公知结构和装置按框图形式示出而不被详细示出,以免模糊本发明。

读者应留意与本说明书同时提交的所有文件和文档,这些文件和文档与本说明书一起公开以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的替代特征来代替,除非另有明确说明。因此,除非另有明确说明,否则所公开的各个特征仅是典型系列的等同或相似特征的一个示例。

此外,权利要求中的未明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不被解释为在35u.s.c.第112节第6款中指定的“装置”或“步骤”条款。具体地,在本文的权利要求中使用“…的步骤”或“…的动作”不旨在援引35u.s.c.第112节第6款的规定。

在详细描述本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明的各个主要方面的说明。最后,提供本发明的各个实施方式的具体细节,以给出具体方面的理解。

(1)所并入的参考文献的列表

在本申请中引用和并入以下参考文献。为了清楚和方便起见,这些参考文献在本文中被列为读者的中心资源。下列参考文献通过引用并入于此,就像在本文中完全陈述一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用:

1.j.hoffman,d.wang,f.yu,andt.darrell,“fcnsinthewild:pixel-leveladversarialandconstraint-basedadaptation,”arxivpreprintarxiv:1612.02649,2016.

2m.ghifary,w.b.kleijn,m.zhang,d.balduzzi,andw.li,“deepreconstruction-classificationnetworksforunsuperviseddomainadaptation,”ineuropeanconferenceoncomputervision.springer,pp.597-613,2016.

3j-y.zhu,t.park,p.isola,anda.a.effos,“unpairedimage-to-imagetranslationusingcycle-consistentadversarialnetworks,”arxivpreprintarxiv:1703.10593,2017.

4a.gaidon,q.wang,y.cabon,ande.vig,“virtualworldsasproxyformulti-objecttrackinganalysis,”inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pp.4340-4349,2016.

5m.cordts,m.omran,s.ramos,t.rehfeld,m.enzweiler,r.benenson,u.franke,s.roth,andb.schiele,“thecityscapesdatasetforsemanticurbansceneunderstanding,”inproc.oftheieeeconferenceoncomputervisionandpatternrecognition(cvpr),2016.

6i.goodfellow,j.pouget-abadie,m.mirza,b.xu,d.warde-farley,s.ozair,a.courville,andy.bengio,“generativeadversarialnets,”inadvancesinneuralinformationprocessingsystems,pp.2672-2680,2014.

7x.mao,q.li,h.xie,r.y.lau,andz.wang,“multi-classgenerativeadversarialnetworkswiththe12lossfunction,”arxivpreprintarxiv:1611.04076,2016.

8.m.ariovsky,s.chintala,andl.bottou,“wassersteingan,”arxivpreprintarxiv:1701.07875,2017.

9f.yu,v.koltun,andt.funkhouser,“dilatedresidualnetworks,”arxivpreprintarxiv:1705.09914,2017.

10.g.huang,z.liu,k.q.weinberger,andl.vandermaaten,“denselyconnectedconvolutionalnetworks,”arxivpreprintarxiv:160806993,2016.

(2)主要方面

本发明的各个实施方式包括三个“主要”方面。第一方面是用于使深度卷积神经网络适应的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以结合到提供不同功能的各种各样的装置中。第二主要方面是使用数据处理系统(计算机)运行的通常采用软件形式的方法。第三主要方面是计算机程序产品。所述计算机程序产品通常表示存储在诸如光学存储装置(例如,光盘(cd)或数字通用盘(dvd))或磁存储装置(诸如,软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(rom)以及闪存型存储器。这些方面将在下文进行更详细说明。

图1提供了示出本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中,本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,这些指令使计算机系统100执行特定动作并呈现特定行为,诸如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一个方面中,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(asic)、可编程逻辑阵列(pla)、复杂可编程逻辑器件(cpld)或现场可编程门阵列(fpga)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“ram”)、静态ram、动态ram等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“rom”)、可编程rom(“prom”)、可擦除可编程rom(“eprom”)、电可擦除可编程rom(“eeprom”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行诸如在“云”计算中从在线数据存储单元取回的指令。在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如,接口110)。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统对接。由所述一个或更多个接口实现的通信接口可以包括有线通信技术(例如,串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如,无线调制解调器、无线网络适配器等)。

在一个方面中,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是可以包括字母数字键和/或功能键的字母数字输入装置(诸如键盘)。另选地,输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面中,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一个方面中,光标控制装置114使用诸如鼠标、轨迹球、触控板、光学跟踪装置或触摸屏的装置来实现。尽管如此,但在一个方面中,诸如响应于使用与输入装置112相关联的特殊键和键序列命令,光标控制装置114经由来自输入装置112的输入被引导和/或激活。在另选方面中,光标控制装置114被配置成由语音命令来引导或指导。

在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储装置(诸如,存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面中,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“hdd”)、软盘、光盘只读存储器(“cd-rom”)、数字通用盘(“dvd”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一个方面中,显示装置118可以包括阴极射线管(“crt”)、液晶显示器(“lcd”)、场发射显示器(“fed”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。

本文所提出的计算机系统100是根据一个方面的示例计算环境。然而,计算机系统100的非限制性示例并不严格限于是计算机系统。例如,一个方面规定了计算机系统100表示可以根据本文所述各个方面使用的一种数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单个数据处理环境。因此,在一个方面中,使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一个方面规定了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,诸如,在分布式计算环境中,由通过通信网络链接的远程处理装置执行任务,或者诸如,在分布式计算环境中,各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。

图2示出了具体实现本发明的计算机程序产品(即,存储装置)的示图。计算机程序产品被示出为软盘200或诸如cd或dvd的光盘202。然而,如先前提到的,计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或者单个可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、cd-rom以及闪存驱动器上。在任一种情况下,这些指令被编码在非暂时性计算机可读介质上。

(3)各个实施方式的具体细节

描述了用于域适应的通用框架,该通用框架允许在不需要目标域中的任何训练注释的情况下,在不同目标域上测试在源域上训练的深度神经网络。当前,深度卷积神经网络(cnn)在许多图像理解任务(包括:对象检测和分类(例如,行人检测、交通标志检测)、分割(例如,可驾驶表面分割)、单目深度估计(例如,3d视觉)和字幕(例如,自动图像和视频字幕系统))方面都实现了最先进性能。这些网络需要大量(例如,数以万计至数百万)训练图像,根据应用,该训练图像可能相对容易收集,但是还需要对训练图像进行注释。人工注释通常用作期望网络学习以进行预测的真值标签。获得人工注释/标记非常耗时、昂贵且无法很好地扩展。域适应尝试通过以下方式来解决该问题:允许在现有标记的数据集上训练网络,然后使用来自目标域的具有最少或不具有标签/注释的图像使该网络适应于新图像域。

图8示出了包括卷积神经网络(cnn)的图像处理系统(要素800)。cnn由两部分组成:将从目标域传感器(要素804)获得的输入图像映射到特征空间的深度特征提取器模块(要素802)、以及将特征映射到预期输出(诸如,已标记的目标域(要素808))的线性分类器(或回归器)模块(要素806)。如图8所示,特征提取器模块(要素802)由训练源域(要素810)训练。本文描述的发明是如下通用框架和系统,其添加了额外网络和损失,以帮助将特征提取器模块的学习正则化,以使其成为域不可知的(即,不是域特定的)。隐空间中的特征的域不可知性质强制网络仅提取两个域之间的共享知识。因此,该约束提高了知识(例如,分类、分割)从一个域到另一域的可转移性。

用于域适应的许多现有方法是作为框架的特例出现的。根据本公开的实施方式的方法包括通过重新设计已学习的特征提取器来改善域自适应性能的两种独特方式。首先,该系统通过要求从两个域提取的特征的分布是不可区分的(如由对抗判别器网络判断的)来改善域适应性能,这在下面详细描述。简而言之,训练对抗网络(图4,模块412),以将来自域x的特征与来自域y的特征区分开,并且编码器(图4,模块408和410)被约束成将域映射在特征空间(即,隐空间,图4,模块400)中,使得对抗模块412无法分辨域。这是hoffman等人(参见参考文献1)首先提出的,但仅这样并不能提供足够强的约束来使特征是完全域不可知的,因为可以以无限多种方式来匹配两个分布。

其次,该系统通过要求特征能够被很好地解码回图像(如通过源图像与解码后的图像之间的重构误差所测量的,图4,403)来改善域适应性能。这个想法最初是由ghifary等人(参见参考文献2)使用的,但是比本文所描述的用于恢复图像的方法简单得多。根据本公开的实施方式的图像解码处理与zhu等人(参见参考文献3)描述的图像解码处理相似;然而,zhu等人未将其用于域适应问题。

所公开的方法允许在不需要任何新标签的情况下,使在具有标签的源域上训练的深度卷积神经网络适应于目标域。例如,在自主驾驶应用中,需要训练语义分割网络以检测道路、汽车、行人等。训练这种分割网络需要各个情景的语义、逐个实例、密集的像素注释,这获取起来非常昂贵并且耗时。为了避免人工注释,大量工作集中在设计真值注释很容易获得的逼真模拟场景上。城市景观和虚拟kitti数据集是这种模拟的示例,其包括大量合成生成的驾驶情景以及真值像素级语义注释(参见参考文献4和5)。基于这种合成数据训练cnn并将其应用于仪表板上的相机(即,现实世界图像)将由于图像特性的巨大差别而给出非常差的性能。本文描述的发明允许在不需要任何新标签的情况下使这种网络适应于新图像数据。该方法优于现有最新技术(soa)方法并提供了相对于该soa方法的改进。

本文所描述的方法和系统广泛地可应用于训练标签在目标域中不可用的任何图像理解和感测任务。这些任务的其它示例包括:1)使用现有注释的rgb(红色、绿色、蓝色)图像训练的红外(ir)图像中的人类活动识别,以及2)在合成数据上训练的单目深度估计。图3示出了根据本发明的实施方式的系统的系统级架构。如图3所示,‘域不可知特征提取’300、‘根据不可知特征的域特定重构’302以及‘根据不可知特征的标签预测’304之间的相互作用使得框架能够同时从源域(即,具有注释的域‘x’306中的数据)中学习并适应于目标域(即,不具有注释的域‘y’308中的数据),以生成域‘y’的准确标签预测301。在一个实施方式中,准确标签预测是情景的像素级注释,诸如图3所示的,其中,不同颜色表明不同标签(例如,汽车、自行车、可驾驶表面)。

考虑来自源域(即,域x(要素306))的训练图像xi∈x(合成数据310)及其对应注释/标签ci∈c(注释312)。注意,ci可以是诸如分类时的图像等级,或者语义分割情况下的像素等级。另外,考虑目标域(即,域y(要素308))中的目标图像yj∈y(真实数据314),在该目标域中,不存在针对这些图像的对应注释。注意,该框架很容易扩展到目标域中存在针对较少图像的注释的场景。另外,假设源域与目标域(例如,要素306和308)中的图像之间不存在对应关系。缺乏对应关系假设使问题明显更具挑战性,并且是本文所描述的系统的独特能力之一。

图4示出了根据本公开的实施方式的ts2框架的详细系统架构。到损失模块的路径表示到这些模块的输入,该输入用于训练ts2。根据本公开的实施方式的方法背后的总体构思是找到用于源域和目标域(x和y)(要素306和308)的联合隐空间z(要素400),在该联合隐空间z中,表示是域不可知的。

为了阐明这一点,考虑以下场景:x(要素306)是晴天的驾驶情景/图像的域,并且y(要素308)是雨天的驾驶情景的域。尽管‘晴天’和‘雨天’是源域和目标域(要素306和308)的特性,但它们对于注释/分类任务(例如,道路的语义分割)而言确实是冗余变化,因为它们不应影响注释。将这种特性视为结构化噪声,目标是找到对于这种变化不变的隐空间z(要素400)。换句话说,域z(要素400)不应包含域特定特性,因此其应是域不可知的。例如,雨天驾驶情景中的雨被视为语义分割模块的冗余参数。类似地,白天与黑夜之间的光照变化是语义分割任务的冗余参数。在下文中,描述了使得能够找到这种域不可知隐空间的处理。

令从源域和目标域(要素306和308)到隐空间(要素400)的映射分别定义为fx:x→z和fy:y→z。按照图4,fx和fy是‘编码器x’(要素408)和‘编码器y’(要素410)模块。在框架中,这些映射由深度卷积神经网络(cnn)参数化。注意,在图像级任务的情况下,隐空间z∈z(要素400)的成员是高维向量,在像素级任务的情况下,则是特征图。另外,令h:z→c是将隐空间(要素400)映射到标签/注释(例如,分割中的像素级类标签:“汽车”、“行人”、“可驾驶表面”)的分类器(要素406)。考虑到源域x(要素306)的注释是已知的,可以容易地定义有监督损失函数以强制hfxxi=ci:

qc=ilchfxxi,ci,(1)(要素401)

其中,lc是适当损失(例如,分类和分割的交叉熵)。qc(要素401)表示测量分类误差。损失函数将事件或者一个或更多个可变因素(variable)的值映射到直观地表示与该事件相关联的某一“成本”的实数。优化问题试图使损失函数最小化。使上述损失函数最小化得到有监督学习的标准方法,该标准方法不涉及域适应。虽然该方法将得到在源域(要素306)中的图像xi∈x上表现良好的方法,但它往往在来自目标域(要素308)的图像yj∈y上表现不佳。原因是域z(要素400)偏向于域x(要素306)中的结构化噪声(‘晴天’)的分布,并且域y(要素308)中的结构化噪声(‘雨天’)混淆了分类器(要素406)h(·)。

为了避免这种混淆,需要隐空间z(要素400)是域不可知的,因此隐空间z对域特定结构化噪声不敏感。为了获得这种隐空间(要素400),引入了各种辅助网络和损失,以帮助正则化隐空间(要素400)并因此实现鲁棒的h(·)。辅助网络和损失路径在图4中示出。下文是对正则化损失的单个组成的描述。

1.需要z(要素400)来保留目标图像(要素308)和源图像(要素306)的核心信息,并且仅丢弃结构化噪声。为了对隐空间(要素400)施加这种约束,首先定义将隐空间(要素400)中的特征分别映射到源域和目标域(要素306和308)的解码器gx:z→x(要素402)和gy:z→y(要素404)。假设如果z(要素400)留存了域的关键/核心信息并且仅丢弃了结构化噪声,则解码器(要素402和404)应该能够添加回该结构化噪声并根据各个图像在隐空间z(要素400)中的特征表示来重构各个图像。换句话说,要求gx(fx·)和gx(fx·)接近恒等函数/映射(即,gxfxx=x和gyfyy=y)。该约束导致以下损失函数:

qid=ilidgxfxxi,xi+jlidxyfyyj,yj,(2)(要素403)

其中,lid(·,·)是逐像素图像损失,诸如如下定义的lp范数:

lpgxfxx,x=xgxfxx-xpdx1p.qid(要素403)等效于测量重构误差。

2.理想地,隐空间z(要素400)是域不可知的,这意味着源域和目标域(要素306和308)的特征表示不应包含域特定信息。为了实现这一点,使用对抗设置,其中,判别器dz:z→cx,cy尝试分类隐空间z∈z(要素400)中的特征是从域x(要素306)生成的还是从y(要素308)生成的,其中,cx和cy是二维域标识符独热向量。然后可以将损失函数定义为判别器的正确猜测的数量(即,域不可知论等同于欺骗判别器),因此损失函数可以用公式表示为:

qz=ilc(dzfxxi,cx)+jlcdzfyyj,cy,(3)(要素405)

其中,lc(·,·)是交叉熵损失函数。qz(要素405)表示测量分布差异。

3.为了进一步确保映射fx、fy、gx和gy一致,定义了半周期对抗损失。来自目标域(要素308)的图像首先经由编码器y(要素410)被编码到隐空间,然后经由解码器x(要素402)被解码到源域(要素306)以生成“假”图像。此外,来自源域(要素306)的图像首先经由编码器x(要素408)编码到隐空间,然后经由解码器y(要素404)解码到目标域(要素308)以生成“假”图像。接下来,定义判别器dx:x→{cx,cy}和dy:y→{cx,cy},以识别图像为“假”(从其它域生成)还是为“真”(属于实际域)。为了用公式表示这一点,半周期损失函数写为:

qd=ilcdygyfxxi,cx+jlc(dxgxfyyj,cy.(4)(要素407)

qd表示测量分布差异。

4.考虑到源域和目标域(要素306和308)中的图像之间不存在对应关系,需要确保两个域中的在语义上相似的图像(例如,具有相似内容的图像,如相似驾驶情景或相似类的图像)投影到隐空间(要素400)中彼此接近的位置。为确保这一点,定义了全周期损失,其中在半周期损失gxfyyj或gy(fx(xi))中生成的“假”图像被编码回隐空间(要素400),然后被解码回其原始空间。整个周期应等同于恒等映射。该损失可以用公式表示如下:

qcyc=ilid(gx(fygyfxxi),xi)+jlid(gy(fx(gxfyyj,yj).(5)(要素409)

qcyc(要素409)表示测量重构误差。

最后,通过组合这些单个损失,将总体损失定义为:

q=λcqc+λzqz+λdqd+λidqid+λcycqcyc.(6)

然后,按照自适应学习速率以端到端的方式经由随机梯度下降(sgd)方法对上述总体损失函数进行优化。图4示出了上文定义的各个损失函数的路径。判别网络dx、dy和dz与编码器(要素408和410)和解码器(要素402和404)一起以交替优化的方式进行训练。生成对抗网络(gan)文献中已经提出了许多不同损失方案(包括二进制交叉熵损失(bce)(参见参考文献6)、最小二乘损失(lsgan)(参见参考文献7)和wasserstein损失(wgan)(参见参考文献8)),并且这些损失方案中的任何一种对于任务都是令人满意的。

下文示出了用于域适应的各种先前方法如何作为本文所述方法的特例。设置λid=λcyc=λd=o并且fx=fy将导致参考文献1的工作结果。通过设置λid=λcyc=λd=λz=o并且fx=fy,恢复参考文献2的工作结果。通过设置λc=λz=o,恢复参考文献3的工作结果。根据本公开的实施方式的模型中的卷积网络是可互换的,但是从实验研究中发现,通过将扩张型紧密连接网络(即,扩张型紧密网)用于编码器实现最佳性能,其中通过在密集网架构(参见参考文献10)中用扩张型卷积(参见参考文献9)取代步长卷积来获得该扩张型紧密连接网络。如参考文献3中所描述的,使用简单多层残差块,然后使用解卷积层用于解码器。针对判别器,按照参考文献3,使用一些卷积层。

本文所述的ts2系统是在虚拟kitti数据集上训练的,该虚拟kitti数据集是真实照片合成视频数据集,其被设计用于学习和评估计算机视觉模型以进行多种视频理解任务:对象检测和多对象跟踪、情景级和实例级语义分割、光流和深度估计(参见参考文献4)。虚拟kitti包含50个高分辨率单目视频(21260帧),这些单目视频是在不同成像和天气条件下从城市设置中的五个不同虚拟世界生成的。具有语义分割注释的“晴天”天气条件的视频被用作源域(要素306)‘x’,并且不具有语义分割注释的“雨天”天气条件的视频被用作目标域(要素308)‘y’。

图5示出了本文所述的训练之后的ts2框架中的不同路径的结果。简而言之,路径401强制将隐空间作为域x的判别空间,这意味着应正确标记/分类图像。路径403通过将所提取的特征约束为能够恢复域x和y中的原始图像,强制隐空间保留域x和y中的信息。路径405强制隐空间是域不可知的,而路径407强制域到域图像平移(例如,雨天到晴天,或者黑夜到白天的图像平移;参见图5)。最后,路径409强制编码器和解码器具有周期一致性,这意味着将输入图像从域x平移到域y,然后从域y平移回域x应当导致恢复输入图像,并且反之亦然。可以看出,qc、qd和qcyc(要素401、407和409)均已被正确训练,并且映射fx、fy、gx和gy实现了预期效果。如图4所示,要素401示出了正确标记输入图像,要素407示出了正确执行域到域平移,并且要素409示出了映射是周期一致的。注意,从域x(要素500)生成的图像在它们从gyfxxi计算的意义上是“假”图像,但它们看起来却非常像“真实”雨天图像。

图7a和图7b示出了根据本公开的实施方式的深度cnn的训练。在该处理的开始(要素700)之后,存在两种路径:一种路径源于经注释的源域x(要素702),并且另一路径源于未注释的目标域y(要素704)。经由源神经编码器对经注释的源域x(要素702)进行编码(要素704)。经由目标神经编码器对未注释的目标域y(要素704)进行编码(要素706)。图7a中描述的处理遵循针对图4描述的内容。在利用梯度下降(或者在这种情况下利用随机梯度下降(sgd))算法训练任何机器学习算法时,图7b例示了用于识别在本文所述的系统中完成训练的终止准则。在这种情况下,可以经由各种协议来实现终止(结束(要素710)),其中一种协议是将总损失值(要素712)与预定义阈值(要素714)进行比较。系统确定损失是否小于阈值(要素716)。如果损失(要素712)低于或等于该阈值(要素714),则学习处理终止(要素710)。如果损失(要素712)大于阈值(要素714),则算法通过经由源和目标的编码器和解码器以及分类器向后传播而使损失最小化来朝向减小损失函数(要素712)采取另一步骤(要素716)。然后,该处理通过一系列学习迭代(要素718)返回到开始(要素700)。

根据本公开的实施方式的本发明对于用于交通工具制造商的全自主导航系统具有特别的价值。ts2将大大减少训练其感知和感测算法所需的经注释的现实世界训练数据量。此外,得益于其域不可知特征提取能力,ts2在新的或看不见的条件(诸如新城市或少见的天气条件(例如,雪、雾、雨))中导航时可以产生更鲁棒的结果。

ts2框架获得的目标图像域的注释可以用于在不同天气条件(例如,雨、雪、雾)下和照明条件(例如,弱光、强光)下检测和识别对象(诸如交通工具、行人和交通标志)。因此,注释可以用于引起与控制自主驾驶交通工具的组件有关的自动操作。

图6是例示了使用处理器104利用目标图像的注释来控制装置600的流程图。可以经由处理器104控制的装置600的非限制性示例包括机动交通工具或机动交通工具组件(电气的、非电气的、机械的),诸如制动器、转向机构、悬架或安全装置(例如,安全气囊、安全带张紧器等)。此外,交通工具可以是无人驾驶飞行器(uav)、自主自动驾驶地面交通工具、或由驾驶员或由远程操作员控制的人工操作交通工具。例如,在对象检测和识别时,系统可以使自主驾驶交通工具根据所识别的对象执行符合驾驶参数的驾驶操作/操纵(诸如转向或另一命令)。例如,如果系统识别出骑行者、另一交通工具或行人,则本文描述的系统可以使交通工具操纵/操作被执行为避免与该骑行者或交通工具(或在驾驶时应规避的任何其它对象)发生碰撞。系统可以使自主驾驶交通工具应用功能移动响应(诸如制动操作,然后进行转向操作),以将交通工具重定向为远离对象,从而避免碰撞。

其它适当的响应可以包括以下中的一项或更多项:转向操作、加速或减速的油门操作、或维持航向和速度不变的决策。响应可以适用于避免碰撞、提高行驶速度或提高效率。如本领域技术人员可以理解的,其它装置类型的控制也是可能的。因此,给定所检测到的特定对象和实施所述系统的环境,存在自主驾驶交通工具可以启动的许多自动化动作。例如,所述方法可以应用于边境安全(例如,在夜间检测走私者)、情报、监视和侦察(isr),无人机、自主驾驶交通工具、以及自主驾驶系统中的感知和安全性(例如,在制造环境中检测人与机器人的交互)。

最后,虽然已经根据多个实施方式对本发明进行了说明,但本领域普通技术人员应当容易地认识到,本发明可以在其它环境中具有其它应用。应注意,可以有许多实施方式和实现。此外,所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外,“用于…的装置”的任何用语旨在引发要素和权利要求的装置加功能的解读,而未特别使用“用于…的装置”用语的任何要素不应被解读为装置加功能要素,即使权利要求以其它方式包括了“装置”一词。此外,虽然已经按特定顺序陈述了特定方法步骤,但这些方法步骤可以按任何期望的顺序进行,并且落入本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1