这是2016年12月30日提交的、题名为“zero-shotlearningusingmulti-scalemanifoldalignment”的美国临时专利申请no.62/440,898的非临时申请,其全部内容通过引用并入于此。
本发明涉及一种用于识别未见过且未经训练的图案的系统。并且更具体地,涉及利用用于流形对准的局部多尺度(multi-scale)图形变换来识别未见过且未经训练的图案的系统。
背景技术:
零样本(zero-shot)学习能够解决任务,尽管没有接收到该任务的任何训练示例。零样本学习通过利用图案的语义属性描述,使得能够在没有训练的情况下识别未见过或未经训练的图案(例如,图像或视频中的物体)。这对许多应用来说很有用,包括使自主驾驶平台能够继续在它们以前从未经历过的新情况下运行。最近在零样本学习方面的工作探索了抑制来自自动生成的文本数据的噪声的方法,一种与人工标注属性相比对于真实世界应用具有更大希望的途径。然而,这些方法遭受两个主要限制。首先,视觉特征与语义特征之间的关联处理被分离成需要分开优化的几个独立步骤,第二,这些方法中的大多数方法依赖图形上的k个最近邻参数选择,其对噪声非常敏感。
基于属性的分类被建议用于零样本学习,其通过在低级特征上并入语义属性作为中间层,以便学习并分类与训练数据不相交的新类。有用于零样本学习方法的两种类型的语义表示:(i)人工标注属性,和(ii)自动语义属性。人工标注属性通常是人工定义的,其中,来自同一类的各个实例具有相同属性。语义信息是利用针对英语维基百科文章训练的skip-gram神经网络模型生成的word2vec数据集表示(参见并入参考文献列表中的参考文献no.4),其中,任何类的文本名称被投影以得到其单词矢量表示。
零样本学习的早期方法,从参考文献no.5开始,使用人工标注属性。最近的方法已经解决了人工标注在实际应用中的限制,以便推进到全自动化基于属性的系统。利用自动生成的语义表示从实践方面来说显然是有利的,然而,这种自动语义特征通常非常嘈杂。参考文献no.3通过利用多视图典型相关分析的多视图对准处理提出了一种多视图直推(multi-viewtransductive)设置。参考文献no.6中描述了另一种方法,该方法建议利用基于l2,1的目标函数来抑制来自文本数据的噪声。然而,即使利用深度学习特征,上述所有方法的性能都是有限的。
因此,持续需要一种学习视觉属性与语义属性之间的相关性作为能够抑制噪声的单个处理的系统。
技术实现要素:
本发明涉及识别未见过且未经训练的图案的系统。并且更具体地,涉及利用流形对准的局部多尺度图形变换来识别未见过且未经训练的图案的系统。所述系统包括一个或更多个处理器以及编码有可执行指令的非暂时性计算机可读介质,使得当执行该可执行指令时,所述一个或更多个处理器执行多个操作。所述系统基于来自输入数据的视觉特征集生成图形,所述输入数据包括有标签实例(labeledinstance)和没有标签的未见过的实例。基于所述视觉特征集,将所述输入数据的语义表示指派为图形信号,其中,各个语义表示包括坐标维度(coordinatedimension)。利用直接在谱图小波(sgw)域中应用的正则化方法将所述语义表示与所述输入数据的视觉表示对准。使用所述语义表示来生成所述未见过的实例的标签。
在另一方面,所述系统以这样的方式生成所述图形,即,使得在所述图形中用节点表示有标签实例和未见过的实例,并且所述节点之间的加权边基于视觉特征之间的距离。采用与所述有标签实例的属性和未见过的实例的属性相对应的图形信号的形式,将所述输入数据指派给所述图形。通过在所述语义表示的每个坐标维度中施加平滑度来对准所述视觉表示和语义表示。
在另一方面,针对有标签实例s={xs,ys}和具有未见过的实例的目标类
在另一方面,所述正则化法接收按述维度r的所述语义表示
在另一方面,所述未见过实例表示自主驾驶车辆要通过的新环境状况,其中,对所述未见过实例的标签进行估计使得所述自主驾驶车辆能够在已知环境状况之外有效地运行。
在另一方面,所述未见过实例表示自主驾驶车辆要通过的新区域,其中,对所述未见过实例的标签进行估计使得所述自主驾驶车辆能够在已知区域之外有效地运行。
在另一方面,无人驾驶飞行器(uav)使用所述未见过实例的所述估计标签在uav运行期间识别物体和行为中的至少一个。
在另一方面,在生成所述标签方面,所述系统关联至少一个未见过实例与新交通标志,并且使关联车辆根据所述新交通标志执行行驶操作。
在另一方面,所述装置是车辆组件,并且控制所述装置导致车辆操纵。
最后,本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,该计算机可读指令可通过具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选的是,所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的行为。
附图说明
根据下面结合参照附图对本发明各个方面的详细描述,本发明的目的、特征以及优点将变清楚,其中:
图1是描绘根据本公开一些实施方式的识别未见过且未经训练的图案的系统的组件的框图;
图2是根据本公开一些实施方式的计算机程序产品的例示图;
图3是例示根据本公开一些实施方式的针对未见过的数据的同一类k个最近邻的、比较噪声数据和去噪数据的平均百分比的标绘图;
图4a是例示根据本公开一些实施方式的第一噪声语义维度的标绘图;
图4b是例示根据本公开一些实施方式的第一噪声语义维度的去噪结果的标绘图;
图4c是例示根据本公开一些实施方式的第二噪声语义维度的标绘图;
图4d是例示根据本公开一些实施方式的第二噪声语义维度的去噪结果的标绘图;
图5是例示根据本公开一些实施方式的正则化之前和之后的word2vec的分类准确度的表。
图6是例示根据本公开一些实施方式的比较现有技术方法与本系统的分类准确度结果的表;
图7是例示根据本公开一些实施方式的识别未见过且未经训练的图案的处理的流程图;以及
图8是例示根据本公开一些实施方式的利用未见过实例的标签来控制装置的流程图。
具体实施方式
本发明涉及一种识别未见过且未经训练的图案的系统。并且更具体地,涉及利用流形对准的局部多尺度图形变换来识别未见过且未经训练的图案的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的背景中。各种修改例以及不同应用方面的多种用途对于本领域技术人员来说是显而易见的,并且本文定义的一般原理可以被应用于广泛的方面。因此,本发明不旨在限于所呈现的方面,而是符合与本文所公开原理和新颖特征相一致的最广范围。
在下面的详细描述中,阐述了许多具体细节,以便提供对本发明的更详尽理解。然而,本领域技术人员应当明白,本发明可以在不受限于这些具体细节的情况下实践。在其它情况下,公知结构和装置按框图形式而不是按细节示出,以便避免模糊本发明。
将读者的注意引向与本说明书同时提交的所有文件和文档,并且所述文件和文档可以利用本说明书开放以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书中公开的所有功能(包括任何所附权利要求、摘要以及附图)可以用服务相同、等同或相似目的的另选特征来代替,除非另有明确说明。因此,除非另有明确说明,所公开的每个特征仅仅是通用系列的等同或相似特征中的一个例子。
而且,权利要求书中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何部件不被解释为如在35u.s.c.section112,paragraph6中指定的“装置”或“步骤”条款。特别地,在本文的权利要求书中使用“…的步骤”或“……的动作”不旨在援引35u.s.c.112,paragraph6的规定。
在详细描述本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明各个主要方面的描述。最后,提供本发明各个实施方式的具体细节以取得对具体方面的理解。
(1)并入参考文献列表
贯穿本申请引用且并入以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此,就像在此完全陈述的一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用。
1.hammond,d.k.,vandergheynst,p.andgribonval,r.waveletsongraphsviaspectralgraphtheory.appliedandcomputationalharmonicanalysis,30(2),pp.129-150,2011。
2.changpinyo,s.,chao,w.,gong,b.,andsha,f.synthesizedclassifiersforzero-shotlearning.proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition(cvpr),lasvegas,nv,2016。
3.fu,y.,hospedales,t.m.,xiang,t.andgong,s.transductivemulti-viewzero-shotlearning.ieeetransactionsonpatternanalysisandmachineintelligence,37(11),pp.2332-2345,2015。
4.mikolov,t.,sutskever,i.,chen,k.,corrado,g.s.,anddean,j.distributedrepresentationsofwordsandphrasesandtheircompositionality,advancesinneuralinformationprocessingsystems.2013。
5.lampert,c.h.,nickisch,h.andharmeling,s.attribute-basedclassificationforzero-shotvisualobjectcategorization.ieeetransactionsonpatternanalysisandmachineintelligence,36(3),pp.453-465,2014。
6.qiao,r.,liu,l.,shen,c.,andvandenhengel,a.lessismore:zero-shotleamingfromonlinetextualdocumentswithnoisesuppression.proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition(cvpr),lasvegas,nv,june2016。
7.shuman,d.i.,narang,s.k.,frossard,p.,ortega,a.andvandergheynst,p.theemergingfieldofsignalprocessingongraphs:extendinghigh-dimensionaldataanalysistonetworksandotherirregulardomains.ieeesignalprocessingmagazine,30(3),pp.83-98,2013。
8.deutsch,s.,andortega,a.,andmedioni,g.manifolddenoisingbasedonspectralgraphwavelets,internationalconferenceonacoustics,speechandsignalprocessing,2016。
9.hein,m.andmaier,m.manifolddenoising,advancesinneuralinformationprocessingsystems,2006。
10.xian,y.,akata,z.,sharma,g.,nguyen,q.,hein,m.andschiele,b.latentembeddingsforzero-shotclassification.arxivpreprintarxiv:1603.08895,2016。
11.zhang,z.andsaligrama,v.zero-shotlearningviasemanticsimilarityembedding.inproceedingsoftheieeeinternationalconferenceoncomputervision,pp.4166-4174,2015。
12.ng,a.y.,jordan,m.i.andweiss,y.onspectralclustering:analysisandanalgorithm.advancesinneuralinformationprocessingsystems,2,pp.849-856,2002。
13.b.j.freyandd.dueck.clusteringbypassingmessagesbetweendatapoints.science,315:2007,2007。
14.c.h.lampert,h.nickisch,ands.harmeling.learningtodetectunseenobjectclassesbybetweenclassattributetransfer.inieeeconferenceoncomputervisionandpatternreeognition(cvpr),2009。
15.b.romera-paredesandp.h.torr.anembarrassinglysimpleapproachtozero-shotlearning.proceedingsofthe32ndinternationalconferenceonmachinelearning(icml),2015。
16.e.kodirov,t.xiang,z.-y.fu,ands.gong.unsuperviseddomainadaptationforzero-shotlearning.iniccv,2015。
17.z.akata,s.reed,d.walter,h.lee,andb.schiele.evaluationofoutputembeddingsforfine-grainedimageclassification.inieeecomputervisionandpatternrecogmtion,2015。
18.s.t.roweis,l.k.saul,andg.e.hinton.globalcoordinationoflocallinearmodels.inadvancesinneuralinformationprocessingsystems,december3-8,2001,vancouver,britishcolumbia,canada。
(2)主要方面
本发明的各种实施方式包括三个“主要”方面。第一个方面是一种识别未见过且未经训练的图案的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是通常采用软件的形式的方法,其利用数据处理系统(计算机)进行操作。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在诸如光存储装置(例如,光盘(cd)或数字万用盘(dvd))或诸如软盘或磁带的磁存储装置的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制例包括:硬盘、只读存储器(rom)以及闪速型存储器。这些方面将在下面进行更详细描述。
图1中提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,所述指令使计算机系统100执行特定动作并展现特定行为,如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(asic)、可编程逻辑阵列(pla)、复杂可编程逻辑器件(cpld)或现场可编程门阵列(fpga)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“ram”)、静态ram、动态ram等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“rom”)、可编程rom(“prom”)、可擦除可编程rom(“eprom”)、电可擦除可编程rom(“eeprom”)、闪速存储器等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选的是,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取得的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口,如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是字母数字输入装置(如键盘),其可以包括字母数字键和/或功能键。另选的是,输入装置112可以是除字母数字输入装置之外的其它输入装置。在一方面,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面,光标控制装置114利用诸如鼠标器、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现。前述尽管如此,但在一方面,光标控制装置114经由来自输入装置112的输入(诸如响应于使用与输入装置112相关联的特殊键和键序列命令)而被指引和/或激活。在另选方面,光标控制装置114被配置成通过语音命令指引或引导。
在一方面,计算机系统100还可以包括一个或更多个可选计算机可用数据存储装置,如与地址/数据总线102联接的存储装置116。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“hdd”)、软盘、光盘只读存储器(“cd-rom”)、数字万用盘(“dvd”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一方面,显示装置118可以包括阴极射线管(“crt”)、液晶显示器(“lcd”)、场发射显示器(“fed”)、等离子体显示器或适于显示视频和/或图形图像及用户可识别的字母数字字符的任何其它显示装置。
本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制例并不严格受限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用通过计算机执行的诸如程序模块之类的计算机可执行指令来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一方面提供了本技术的一个或更多个方面通过利用一个或更多个分布式计算环境来实现,诸如任务由通过通信网络链接的远程处理装置执行的环境,或者诸如各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中的环境。
图2中描绘了具体实施本发明的计算机程序产品(即,存储装置)的例示图。该计算机程序产品被描绘为软盘200或诸如cd或dvd的光盘202。然而,如先前提到,该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子装置(即,编码到计算机芯片中的计算机操作)。所述“指令”被存储在任何非暂时性计算机可读介质上,如存储在计算机的存储器中或软盘、cd-rom以及闪存驱动器上。无论如何,这些指令被编码在非暂时性计算机可读介质上。
(4)各个实施方式的具体细节
这里描述的是利用基于图形上的局部化多尺度变换的独特流形对准框架来解决零样本学习(zsl)问题的系统。零样本学习通过利用图案的语义属性描述,使得能够在没有训练的情况下识别未见过或未经训练的图案(例如,图像或视频中的物体)。这对许多应用来说很有用,包括启用自主驾驶平台(例如,要通过新区域的自动驾驶汽车、探索地图上未标明区域的无人驾驶飞行器)继续在它们以前从未经历过的新情况下运行。采用独特多尺度流形对准方法(如下面详细描述的),其基于对于固定语义属性,相似的视觉特征很可能具有相似的语义属性的假设。
为了促进视觉表示视图与语义表示视图之间的共享,实现了视觉特征与语义表示之间的独特对准框架,其基于谱图小波(参见参考文献no.1,对谱图小波的描述)。谱图小波(sgw)是在图形上而不是在连续坐标系中定义的基函数。sgw可以用于有效地表示图形上的信号。sgw是利用位于顶点和谱域中的多尺度图形变换来计算的。如下详细描述的,sgw的多尺度特性为学习视觉特征与语义表示之间的共享信息提供了一个自然平台。
在本文描述的系统中采用sgw基于以下假设:对于固定语义属性,具有相似视觉特征的实例很可能具有相似语义表示。实例是要识别的样本。例如,在图像识别应用中,它们可以是物体(桌子、椅子、汽车、人等)、活动(坐、跑、跳等)以及场景(山脉、海滩、森林)。在根据本公开实施方式的方法中,零样本学习问题中的视觉表示与语义表示之间的这种基本关系直接通过基于视觉特征将语义属性指派为图形顶部上的图形信号来实现。注意,本文所述方法利用所有无标签数据和分类来加热直推设置(在异构数据集之间传递知识),并且利用流形假设严格监督测试数据的学习处理。
虽然根据本公开实施方式的方法类似于参考文献no.2和no.3中公开的联合视觉-语义特征空间对准方法,但是针对零样本学习的问题,其基于当前知识首先使用局部化多尺度图形变换以进行流形对准。通过将正则化直接应用于sgw系数本身,在无监督设置中执行对准,sgw系数被视为局部图形信号。这里描述的框架的一个优点是其允许局部地对准视觉-语义空间,同时考虑联合视觉-语义属性空间的细粒度正则性质。此外,学习视觉属性与语义属性之间的相关性被统一到单个处理中,而在大多数现有的零样本学习方法中,其被划分成许多独立的步骤,如参考文献no.3中所描述的。
(3.1)问题表述和模型假设
零样本学习问题中常见的问题表述如下,参考文献no.3中进行了描述。假设给出具有ns个有标签实例s={xs,ys}的cs个类和具有nt个无标签实例t={xt,yt}的ct个目标类。训练数据和测试数据的每个实例分别由d维度视觉特征xs∈xs和xt∈xt表示。zs和zt是源数据和测试数据的类标签矢量,并且假设训练实例和测试实例不相交。
由于对于测试实例而言,通常不给出语义表示yt,因此它们可以利用来自源数据集的投影函数来估计(参见参考文献no.3和no.5)。在这种设置下,零样本学习的问题是在给定xt和
(3.2)方法
鉴于该问题表述,目标是估计未见过的实例zt的标签。这个任务可以通过学习视觉表示与语义表示之间的关系,并且然后利用语义表示来估计未见过的数据来实现。在于此描述的方法中,明确假设这样的约束,即,针对固定属性坐标维度,相似的视觉特征很可能具有相似的语义属性。
为了在该框架中应用这些模型假设,构造一图形,其中,实例由图形中的节点表示,并且这些节点之间的加权边基于视觉特征之间的距离。采用与实例的属性相对应的图形信号fr()的形式,将数据指派给图形(即,对于语义属性的每个维度r,将
图形信号处理工具(在参考文献no.7中描述的)非常适合解决这个问题,因为在根据本公开实施方式的框架中,假设在图形上连接起来的顶点很可能具有相似的图形信号值(它们是语义属性的坐标维度)。一旦构造了图形,就通过直接在谱图小波域中应用的正则化来执行视觉和语义特征空间的对准(参见参考文献no.8中对sgw域的描述)。在零样本学习问题的背景下,本文所述方法的优点在于其允许局部地对准视觉和语义空间,同时考虑联合视觉-语义流形空间的全局属性。
(3.3)正则化算法的描述
在利用将语义表示指派为图形信号来构造图形之后,利用拉普拉斯算子的低阶多项式计算sgw变换。sgw变换确保sgw系数定位在顶点域中,因为对于其中dg(m,n)=k的图形上的任何两个点m和n,其中,dg是图形上两点之间的最短距离路径,如果k>j,则存在lk(i,j)=0(参见参考文献no.1)。保留所有缩放系数,其对应于低频信息,并且针对语义表示空间中的每个坐标,将tichonov正则化(参见参考文献no.9)应用于每一个sgw频带。按尺度2≤s(j)≤s(j),针对每个流形尺度和每个sgw频带,将tikhonov正则化直接应用于sgw系数ψfr(s)。应注意到,针对图形的扩散处理的一个步骤等同于求解tichonov正则化。因此,本文所公开的方法基本上利用图形信号来解决图形上的扩散处理,所述图形信号是在视觉空间和语义空间中均被定位的sgw系数。利用采用伪代码的频谱图小波进行零样本学习的正则化法在下面的算法1和算法2中示出。
算法1:对准算法
输入:数据集,有标签实例s={xs,ys}和目标未见过类实例
1.基于视觉特征xs,xt,如在参考文献no.1中那样利用余弦相似度来构造无向仿射图(undirectedaffinitygraph)w,并且根据w来构造拉普拉斯算子l;
2.对于r←1至d,do
3.将所述语义表示在维度r中的对应坐标值
4.进行
5.利用在算法2(下面描述)中给出的正则化法,直接在sgw域
6.利用谱聚类对新实例进行分类(参见参考文献no.12)。
输出:正则化的语义空间
算法2:正则化算法
输入:按维度r的语义表示
1.保留低通缩放系数。针对每个分辨率2≤j≤j,构造拉普拉斯算子
2.对于j←2至j,do
3.按尺度s(j).,针对拉普拉斯算子
4.利用谱聚类或仿射传播对新实例进行分类(参见参考文献no.13中对仿射传播的描述)。
输出:正则化的语义空间
(3.4)实验研究
(3.4.1)实验设置
对awa(具有属性的动物)数据集执行实验研究,该数据集是用于零样本学习的最流行且广泛使用的数据集之一。awa由50类动物构成(30,475个图像)。其具有用于零样本学习的源/测试分割,其中提供10个类和6,180个图像作为测试数据集。为了表示视觉特征,使用了深度学习预训练的googlenet特征(参见参考文献no.10和no.12)。在大多数报告结果中,竞争(competing)法使用深度学习功能,如googlenet(参见参考文献no.10)和vgg-verydeep-19(参见参考no.11)来表示视觉特征。对于语义表示,使用word2vec公共数据集,其中每个实例由100维度语义矢量表示。注意,word2vec数据集是根据大型无标签文本语料库自动构造的(参见参考文献no.4),其采用词矢量的形式,没有额外的人工标注。类似于零样本学习中的直推法,如在参考文献no.3中所述那样,通过初始估计测试数据的语义表示开始研究,这可以利用dap(直接属性预测)方案或iap(间接属性预测)方案来完成(参见参考文献no.3和no.5)。注意,训练数据的语义信息被传播至联合嵌入空间,以在不相交的类之间共享信息。
在根据本公开实施方式的方法中使用的对测试集的语义表示的初始估计可以视为求解图形上的偏微分方程(pde)的初始条件,所述图形的图形信号由sgw系数定义,它们定位在联合语义-视觉域中。所描述的对准方法用于严格无监督的设置中,使得仅利用视觉和语义测试数据来构造所述图形,为此没有使用标签。在所有实验中,将j=4尺度用于sgw变换,并且将k=20个最近邻居参数用于仿射图。
(3.4.2)噪声抑制的有效性
本文所描述的方法首先在利用awa数据集测量图形去噪对来自同一类的k个最近邻的识别率的影响方面进行验证。word2vec表示通常是非常嘈杂的,这使得流形对准过程对于使用对准来求解域移位问题(参见参考文献no.2和no.3)的当前零样本学习方法非常具有挑战性。对于测试数据中的每个点,报告来自同一语义类的k个最近邻的百分比,并且报告测试集中所有实例的平均准确度。
所述图形被构造如下。首先,构造k=10最近邻图形,其基于深度学习特征空间中的多个观察之间的距离。然后,在训练数据集中的每个见过的(训练)数据点与其k个最近视觉近邻之间添加k=10个边缘。
图3是示出有噪声的word2vec语义空间(由未填充的条形表示)和在针对宽范围的k最近邻参数利用本文所公开的正则化处理之后(由填充的条形表示)、针对k∈{1,3,...,37},评估的、来自同一未见过的类的正确的相同类k个最近邻的平均百分。可以看出,在使用本发明的方法进行对准之后,与噪声语义空间相比,来自同一个未见过的类的k个最近邻的平均百分比显著提高,这表明了对准处理的有效性和鲁棒性。此外,由于谱图小波的多分辨率特性,正则化法对于宽泛范围的k个最近邻选择表现良好。
图4a至图4d示出了根据本公开实施方式的方法的有效性的例示。图4a和图4c示出了awa数据集的测试噪声语义表示word2vec的两个不同坐标维度。图4b和图4d示出了对应的去噪word2vec语义坐标维度。针对去噪word2vec语义表示的两个不同坐标维度,利用本文公开的正则化法获得该结果,其对应于awa数据集。注意,10个测试类(按标签号排序以供视觉化)具有某一规则性。可以看出,在应用正则化法后,去噪语义维度(semanticdimension)被显著去噪并且示出逐段平滑结构。实例的索引按其标签排序以供清晰视觉化。
(3.4.3)与现有技术的比较
接下来,在awa数据集上测试该方法,并将结果与现有技术进行比较。基于测试数据的语义表示的分类准确度测试该方法的性能,并与关于噪声语义属性的分类准确度进行比较。为了评估分类准确度,对正则化语义数据执行谱聚类(参见参考文献no.12),并与关于噪声语义属性的分类性能进行比较。图5是比较正则化之前和之后的word2vec的分类准确度的表。如可以在图5中看出,在利用根据本公开实施方式的方法执行正则化之后,与噪声语义空间相比,属于同一个未见过的类的k个最近邻的平均百分比显著提高。
图6的表中描绘了在零样本学习中,与现有技术方法相比,利用本文所述方法的分类准确度结果。每个方法所使用的对应语义表示在括号中注明,其中“a”对应于人工标注属性,“w”对应于word2vec或其它自动语义表示。可以看出,本文所述方法优于现有技术,并且明显优于使用自动化文本处理的所有现有方法,包括直推多视图零样本学习(tmzl)。另外,利用仿射传播(在参考文献no.1中描述)对该方法进行了测试,这是一种基于置信传播的流行聚类方法,其不需要预先指定数据中的聚类数。利用仿射传播,本文所述方法优于现有技术并证明了其有效性。
图7是描绘本文所述系统的流程图。如上详细描述的,基于输入数据中的视觉特征生成图形(要素700)。基于视觉特征将输入数据的语义表示指派为图形信号(要素702)。利用正则化法将语义表示对准输入数据的视觉表示(要素704)。将语义表示用于估计输入数据中未见过的实例的标签(要素706)。
在实施方式中,未见过的实例是系统未针对真正训练过的特定物体、项目或特征,但包括系统被训练过的特征。例如,未见过的实例可能是图像识别系统未经过训练的一种环境状况,诸如环形交叉路口、施工区域、越野路径或车道、停车场或室内导航环境。然而,这个未见过的实例可能包括系统训练过的功能。对于环形交叉路口的情况来说,训练过的特征可能包括弯曲的道路、十字路口、带有环形交叉路口符号的标志和/或道路标记。在停车场或车道的情况下,训练过的特征可能包括箭头、用于交叉路口的标色线或停放的汽车。在室内导航环境的情况下,即使房间的尺寸和形状以前没有训练过,训练过的特征也可能包括地板、墙壁以及天花板。在施工区域的情况下,训练过的特征可能包括锥桶、危险或绕行标志、表面上的橙色着色、施工工人和/或车辆、手持停车标志等。
系统可以基于已知视觉特征生成图形。语义表示可以基于视觉特征被指派为图形信号,并且可以利用正则化法将语义表示对准输入数据的视觉表示。然后,可以使用语义表示来生成未见过的实例的标签。例如,系统可以使用锥桶、绕行标志、橙色着色以及施工工人的语义表示,将该区域标注为施工区域。系统可以在没有针对施工地带进行过训练的情况下或者仅针对与当前施工地带显著不同的有限的一组施工地带进行过训练的情况下来获得该标签。
图8是例示使用处理器800,利用用于未见过的实例的标签来控制装置802的流程图。可以经由处理器800控制的装置802的非限制例和用于未见过的实例的标签的非限制例包括车辆或车辆组件,诸如制动器、转向机构、悬架或安全装置(例如,安全气囊、安全带张紧器等)。而且,车辆可以是无人驾驶飞行器(uav)、自主驾驶地面车辆,或者由驾驶员或远程操作员控制的人工操作车辆。如本领域技术人员应当清楚,也可以控制其它装置类型。
本发明提供了将自主驾驶车辆操作扩展至新情况和道路状况的关键功能。其将使自主驾驶车辆能够在地图精心标注和控制的地理区域和状况之外有效运行(例如,新交通标志、新区域、新道路类型,或者在训练时间内未观察到的新物体类)。例如,在为未见过的实例生成标签时,本文所述系统可以将未见过的实例与新交通标志相关联,并使自主驾驶车辆根据新交通标志执行与驾驶参数一致的驾驶操作/操纵。例如,如果标志是停车标志,那么系统可以使自主驾驶车辆应用诸如制动操作的功能响应,以停下车辆。其它恰当响应可以包括转向操作、加速或减速的油门操作,或者保持航向和速度而不改变的决定中的一个或更多个。所述响应可以适于规避碰撞、提高行进速度或提高效率。
而且,本文所述系统改进了用于无人驾驶飞行器(uav)地面站的自动化智能、监控、侦察(isr)软件,其可以仅利用人工生成的口头描述来识别新物体和行为,诸如不常见的车辆(像推土机)或不常见的车辆编队/模式。它们从未在传感器数据中被观察到并经过训练以进行分类。然而,通过匹配它们的从已知物体和行为数据中学习到的语义属性{伪装、装甲、武器、轨道、车轮},系统会生成正确分类的物体或行为标签。这将使得能够在时间关键任务中迅速采取行动。
另外,可以使得能够在可能包含新物体和行为的新区域中实现自主驾驶uav飞行和探测,减少针对这些新示例的训练时间(例如,从收集的数据中提取特征并训练可以对新物体和行为进行分类的分类器,需要几个小时到几天),并且减少uav操作所需的人力。零样本学习还可以应用于移动威胁检测(通过检测新的安全威胁)、多模态活动识别(通过分类新的活动模式)以及许多其它学习应用。
最后,虽然本发明已经根据几个实施方式进行了描述,但本领域普通技术人员应当容易地认识到本发明在其它环境中可以具有其它应用。应注意到,许多实施方式和实现都是可以的。而且,下面的权利要求书绝不是旨在将本发明的范围限制成上述具体实施方式。另外,“用于…的装置(means)”的任何陈述都旨在唤起对部件和权利要求的装置加功能的解读,而不具体使用陈述“用于…的装置(means)”的任何部件不是旨在被解读为装置加功能组件,即使权利要求以其它方式包括了单词“装置(means)”。而且,虽然已经按次序陈述了方法步骤,但该方法步骤可以按任何希望次序发生并且落入本发明的范围内。