基于对二进制卷积神经网络特征进行提升的目标识别的制作方法

文档序号:13080333阅读:314来源:国知局
基于对二进制卷积神经网络特征进行提升的目标识别的制作方法与工艺



背景技术:

目标识别可以包括标识图像或图像的视频序列中的目标的任务。这样的目标识别技术可以具有宽范围的应用。例如,人体识别应用可以包括监控、机器人技术、汽车驾驶和对年长者的护理。此外,人体识别对于诸如行人检测、人体跟踪、人体标识、人姿势估计、人动作识别、基于图像的人群搜索等之类的计算机视觉应用而言可以是重要的。因此,开发自动化计算机视觉系统应用于执行图像或视频中的目标识别可以是日益重要的。

例如,在人体识别中,当前的技术一般可以划分成两个类别:基于手工制作特征的技术和基于深度学习特征的技术。基于手工制作特征的技术可以使用手动设计的特征,诸如方向梯度直方图(hog)特征、hog和局部二进制图案的组合(hog-lbp)特征、颜色自相似(css)特征或多尺度hog特征和可变形部分模型(hog-dpm),以描述人体外观。此外,基于深度学习特征的技术可以在目标识别实现方式中采用深度卷积神经网络(cnn)。这样的深度cnn实现方式的结果指示在具有挑战性的场景中,从大尺度数据集习得的分层神经特征在处置复杂目标识别任务(包括人体识别)方面可以比基于手工制作特征的技术更加鲁棒,所述具有挑战性的场景诸如姿势中的改变、照明条件中的改变、视点中的改变、具有部分遮挡的目标等。

然而,这样的深度cnn实现方式可能包括数以亿计的参数或更多的参数和复杂的前馈计算,这在实现期间对设备施加沉重的负担。例如,一些深度cnn实现方式可以包括6千万浮点参数,这花费大约232mb的存储器空间。这样的密集的存储器和计算要求可能使这样的深度cnn实现方式不适合于许多实现方式,特别是在移动设备实现方式中。

以高准确性并且以较少的计算和存储器资源要求来执行目标识别可以是有利的。正是关于这些和其他考虑,需要目前的改进。这样的改进在对执行目标识别的期望变得更加普遍时可能变得关键。

附图说明

在本文中描述的材料通过示例的方式而不是通过限制的方式在随附各图中图示。为了图示的简化和清楚,在各图中图示的元件不一定按照比例绘制。例如,为了清楚,可能相对于其他元件而夸大一些元件的尺寸。此外,在被认为适当的情况下,在各图之中重复参考标记以指示对应或类似的元件。在各图中:

图1图示了用于执行目标识别的示例设备;

图2图示了用于执行目标识别训练和用于执行目标识别的示例系统;

图3图示了示例深度卷积神经网络;

图4是图示了用于训练强分类器的示例过程的流程图;

图5图示了用于提供目标识别的示例系统,其包括卷积神经网络层和强分类器;

图6是图示了用于提供目标识别的示例过程的流程图;

图7是用于提供目标识别的示例系统的说明图;

图8是示例系统的说明图;以及

图9图示了全部依照本公开的至少一些实现方式布置的示例设备。

具体实施方式

现在参照随附各图来描述一个或多个实施例或实现方式。虽然讨论了具体的配置和布置,但是应当理解到,这仅仅出于说明目的而做出。相关领域技术人员将认识到,可以在不脱离描述的精神和范围的情况下采用其他配置和布置。对相关领域技术人员将显然的是,在本文中描述的技术和/或布置还可以在除了在本文中描述的之外的各种其他系统和应用中采用。

虽然以下描述阐述可以在诸如例如片上系统(soc)架构之类的架构中明示的各种实现方式,但是在本文中描述的技术和/或布置的实现方式不限于特定架构和/或计算系统,并且可以由用于类似目的的任何架构和/或计算系统实现。例如,采用例如多个集成电路(ic)芯片和/或封装的各种架构,和/或各种计算设备和/或消费者电子(ce)设备,诸如机顶盒、智能电话等,可以实现在本文中描述的技术和/或布置。此外,虽然以下描述可能阐述众多具体细节,诸如系统组件的逻辑实现方式、类型和相互关系、逻辑划分/整合选择等,但是所要求保护的主题可以在没有这样的具体细节的情况下实践。在其他实例中,可能并未详细示出某种材料,诸如例如控制结构和完整的软件指令序列,以便不使在本文中公开的材料模糊。

在本文中公开的材料可以实现在硬件、固件、软件或其任何组合中。在本文中公开的材料还可以实现为存储在机器可读介质上的指令,所述机器可读介质可以由一个或多个处理器读取和执行。机器可读介质可以包括用于以由机器(例如计算设备)可读的形式存储或传输信息的任何介质和/或机构。例如,机器可读介质可以包括只读存储器(rom);随机存取存储器(ram);磁盘存储介质;光学存储介质;闪存设备;电气、光学、声学或其他形式的传播信号(例如载波、红外信号、数字信号等)和其他。

在说明书中对“一个实现方式”、“实现方式”、“示例实现方式”等的引用指示所描述的实现方式可以包括特定特征、结构或特性,但是每一个实施例可能不一定包括所述特定特征、结构或特性。而且,这样的短语不一定是指相同的实现方式。此外,当结合实施例来描述特定特征、结构或特性时,所主张的是,结合其他实现方式来实现这样的特征、结构或特性在本领域技术人员的知识范围内,无论本文是否明确描述了所述实现方式。

在本文中描述的方法、设备、装置、计算平台和制品涉及对用于目标识别的二进制卷积神经网络特征进行提升(boosting)。

如以上所描述的,深度卷积神经网络(cnn)可以提供鲁棒的目标识别结果。然而,这样的深度cnn实现方式可以包括数以亿计的参数或更多的参数和密集的前馈计算,这在实现期间对设备施加沉重的负担。如在本文中讨论的,cnn层可以被提供以生成二进制卷积神经网络特征(例如二进制神经特征),可以将其提供给强分类器以用于生成用于输入图像数据的目标标签。这样的cnn层和强分类器的实现可以仅包括深度cnn的存储器和计算要求的一部分而同时维持或改进目标识别结果。

在在本文中讨论的一些实施例中,目标识别可以包括基于输入图像数据经由一个或多个卷积神经网络层而生成二进制神经特征的集合。所述二进制神经特征的集合可以与响应图的预定子集相关联,使得二进制神经特征的集合经由一个或多个卷积神经网络层的实现而生成以提供与这样的响应图相关联的结果。此外,响应图的子集可以是经由所述一个或多个卷积神经网络层的实现和/或经由包括所述一个或多个卷积神经网络层的完整卷积神经网络的实现可得到的可用响应图的子集。例如,所述一个或多个卷积神经网络层可以通过在训练阶段期间从完整的深度卷积神经网络排除卷积神经网络层和/或响应图来生成。

在实现阶段期间,可以对二进制神经特征的集合应用强分类器以生成用于输入图像的目标标签。这样的目标标签可以由其他设备模块或应用用于各种目的,诸如目标跟踪、设备安全、建筑物安全、机器人技术、监控、汽车驾驶等。例如,在人体识别情境中,这样的人体识别目标标签可以用于杏仁检测、人体跟踪、人体标识、人姿势估计、人动作或活动识别、对于年长者的护理、基于图像的人群搜索等。在一些示例中,强分类器可以在实现阶段中基于经由完整的卷积神经网络生成的可用响应图而进行训练或生成,使得在训练阶段期间生成强分类器和响应图的子集。例如,可以选择响应图的子集(例如可以在实现期间生成最有判别力的二进制神经特征的响应图的组合)并且可以经由提升技术来生成强分类器。照此,在本文中讨论的示例可以提供目标识别,诸如经由对二进制cnn特征进行提升的人体识别。包括卷积神经网络层和强分类器的这样的卷积神经网络的实现可以以相比于深度cnn实现方式而言更少的存储器要求(例如大约14mb)和更低的计算成本来提供改进的目标识别准确性。

图1图示了依照本公开的至少一些实现方式布置的用于执行目标识别的示例设备100。如图1中所示,设备100可以包括卷积神经网络(cnn)层模块101和强分类器模块102。设备100可以是任何合适的形状因子设备,诸如个人计算机、膝上型计算机、平板计算机、平板手机、智能电话、数码相机、游戏控制台、可穿戴设备、显示设备、多合一设备、二合一设备等。例如,设备100可以执行如在本文中讨论的目标识别。

如所示,cnn层模块101可以接收图像数据103(例如输入图像数据)。图像数据103可以包括任何合适的图像或成像数据。在一些示例中,图像数据103可以从图像传感器、图像信号处理器等接收。例如,图像数据103可以包括用于输入图像的每一个像素的输入像素值,并且可以为颜色空间的每一个通道提供输入像素值,诸如用于rgb(红绿蓝)颜色空间中的输入图像数据的r(红色)、g(绿色)和b(蓝色)值。尽管关于rgb颜色空间进行讨论,但是输入像素值可以是在任何合适的颜色空间中,诸如yuv(y亮度、u色度和v色度)颜色空间、ycbcr(亮度、蓝色差异和红色差异)颜色空间、cmyk(青色、品红、黄色、密钥或黑色)颜色空间等。此外,图像数据103可以包括用于任何类型的输入图像的用于任何数目的像素的值。例如,输入图像可以包括静态图像、视频的图像帧、其部分等。在一些示例中,图像数据103可以是经空间归一化的图像数据,使得图像数据的大小可以是恒定的并且由cnn层模块101预确定。如在本文中讨论的,在一些示例中,图像数据103可以以225×225像素的大小进行空间归一化。然而,图像数据103可以是任何合适的大小。

如所示,cnn层模块101可以接收图像数据103并且cnn层模块101可以生成一组二进制神经特征104。cnn层模块101可以从图像传感器、图像处理器、存储器或任何其他源接收图像数据103。cnn层模块101可以使用任何一种或多种合适的技术生成二进制神经特征104。例如,cnn层模块101可以包括多个cnn层,其实现图像数据103(例如在第一层)或响应图数据(例如在后续层)等上的卷积核。此外,这样的cnn层可以可选地实现修正线性单元、最大池化操作、局部响应归一化等,以生成响应图数据。cnn层模块101可以生成作为代表一个或多个响应图的数据的二进制神经特征104,如本文中进一步讨论的。例如,这样的二进制神经特征104可以包括与来自经由cnn层模块101实现的cnn层的任何层的一个或多个响应图相关联的数据。

在一些示例中,二进制神经特征103可以经由cnn层的最终层生成,所述cnn层经由cnn层模块101实现。例如,可以完全评估经由cnn层模块101实现的一个或多个cnn层(例如可以应用卷积核的完整集合),并且可以部分地评估经由cnn层模块101实现的最终cnn层,使得仅所选卷积核(例如与可用响应图中的响应图的子集相关联)可以应用于生成二进制神经特征104。然而,如所讨论的,在其他示例中,这样的二进制神经特征104可以包括在经由cnn层模块101实现的其他层(例如经完全评估的层)处生成的二进制神经特征。cnn层模块101可以向强分类器模块101和/或设备100的存储器(未示出)提供二进制神经特征104。

强分类器模块102可以从cnn层模块101或存储器接收二进制神经特征104,并且强分类器模块102可以基于二进制神经特征104而生成目标标签105。目标标签105可以是任何合适的目标检测标签。例如,在身体识别情境中,目标标签105可以包括身体识别目标标签,诸如人的标签、背景(例如不是所识别的身体)的标签、中体或躯干的标签、头部的标签、下身或腿部的标签等。如在本文中讨论的,设备100可以提供包括人体识别的目标识别。然而,设备100可以提供任何合适的目标识别,诸如动物或宠物识别、汽车识别、手部识别、姿势识别等。

强分类器模块102可以使用任何一种或多种合适的技术确定目标标签105。例如,强分类器模块102可以向二进制神经特征104应用强分类器以生成目标标签105。在一些示例中,经由强分类器模块102实现的强分类器可以在训练阶段中基于可用响应图池和图像训练数据而生成,如本文中进一步讨论的。例如,提升技术可以基于与可用响应图池相关联的二进制神经特征池而实现,使得二进制特征池针对图像训练数据中的图像而生成。例如,二进制特征池和已知图像训练数据的已知分类可以定义支持向量机以确定预定响应图的集合和强分类器。

图2图示了依照本公开的至少一些实现方式布置的用于执行目标识别训练和用于执行目标识别的示例系统。如图2中所示,cnn层模块101和强分类器模块102可以在训练阶段211中的生成、开发、训练或准备之后在实现阶段212中提供。例如,系统200可以提供目标识别系统,诸如人体识别系统等。如所示,系统200可以包括深度cnn准备模块201、二进制神经特征池确定模块202、提升模块203和cnn层/特征图减少模块204。如所示,系统200可以包括经由预先训练和精细调谐构建的深度cnn206(例如如经由深度cnn准备模块201所提供的)、用作候选弱分类器的二进制神经特征池207,以及基于经由提升模块203(例如通过应用提升技术)确定最有判别力的二进制神经特征组合(例如二进制神经特征208的集合)习得的强分类器210。例如,仅深度cnn206的部分可以被保留以用于经由设备100的cnn层101的实现。被保留以用于经由cnn层101的实现的深度cnn206的所述部分可以包括在例如实现阶段212期间生成二进制神经特征104的集合所需要的那些层和那些特征图。

如所示,可以接收训练数据205以用于经由深度cnn准备模块201预先训练和精细调谐深度cnn206。深度cnn准备模块201可以使用任何一种或多种合适的技术来生成和/或训练深度cnn206。在一些示例中,深度cnn准备模块201可以预先训练和精细调谐cnn模块以生成深度cnn206。例如,预先训练可以训练关于(例如训练数据205的)外部大尺度数据集的初始模型。此外,精细调谐可以适配初始模型以拟合(例如训练数据205的)对象数据集。在示例人体识别实现方式中,预先训练可以基于1,000类别视觉分类数据集而执行,包括大约120万图像,诸如imagenet数据集,并且精细调谐可以在人员数据集上执行,诸如法国国立信息与自动化研究院(inria)人员数据集。然而,与任何合适的对象识别相关联的任何合适的训练数据205可以经由系统200实现。

图3图示了依照本公开的至少一些实现方式布置的示例深度卷积神经网络206。如图3中所示,在一些示例中,深度cnn206可以包括8-层深度cnn模型,其具有层302、303、304、305、306、308、309和310。在所图示的示例中,深度cnn206包括5个卷积层302-306和3个完全连接的层308-310。并且如所示,卷积层302-306可以跟随有修正线性单元(relu)、最大池化和/或局部响应归一化(lrn)的各种组合。例如,如所示,relu、最大池化和lrn312可以位于层301与302之间,relu、最大池化和lrn315可以位于层302与303之间,relu318可以位于层303与304之间,relu321可以位于层304与305之间,并且relu和最大池化324可以位于层305与306之间。

例如,如所示,深度cnn206可以接收输入图像数据或输入层301,包括经空间归一化的图像数据,使得,如所标记的,输入层301可以是225×225像素,并且可以包括3个颜色平面(例如红色、绿色和蓝色颜色平面)。然而,任何大小和颜色空间输入层可以经由深度cnn206实现。

同样如所示,卷积层302可以接收输入层301(例如具有225×225×3的输入大小)和经由卷积层302应用的卷积核,并且relu、最大池化和lrn312可以提供具有55×55×96的输出大小的特征图313。例如,在卷积层302处,诸如卷积核311之类的多个卷积核可以应用于输入层301。这样的卷积核可以与例如输入层301卷积。在一些实例中,这样的卷积核可以被表征为滤波器、卷积滤波器、颜色滤波器等。例如,在卷积层302处应用的多个卷积核可以包括步幅为2的96个7×7卷积核(例如其中每一个卷积核与96个55×55特征图313中的一个相关联)。例如,随后于应用诸如卷积核311之类的卷积核,relu、最大池化和lrn312可以应用于生成特征图313。在一些示例中,relu、最大池化和lrn312可以包括relu、步幅为2的3×3最大池化和大小为5的lrn。此外,如本文中使用的,特征图可以包括经由这样的处理生成的数据和/或特征图可以用于指示可以经由这样的处理做出的向量或特征等。例如,在实现期间,特征图可以实现成使得特征图可以被实现或数据填充等以生成特征向量、特征、二进制神经特征、分层神经特征等。

如图3中所示,卷积层303可以接收特征图313(例如卷积层303可以接收输入大小为55×55×96的输入)和经由卷积层303应用的卷积核,并且relu、最大池化和lrn315可以提供输出大小为13×13×256的特征图316。例如,在卷积层303处,诸如卷积核314之类的多个卷积核可以应用于特征图313。随后,relu、最大池化和lrn315可以应用于生成特征图316。例如,卷积核可以包括256个5×5卷积核(例如其中每一个卷积核与256个13×13特征图316中的一个相关联),最大池化可以包括步幅为2的3×3最大池化,并且lrn的大小可以为5。

卷积层304可以接收特征图316(例如卷积层304可以接收输入大小为13×13×256的输入)和经由卷积层304应用的卷积核,并且relu318可以提供输出大小为13×13×384的特征图319。例如,在卷积层304处,诸如卷积核317之类的多个卷积核可以应用于特征图316。随后,relu318可以应用于生成特征图319。例如,卷积核可以包括384个3×3卷积核(例如其中每一个卷积核与384个13×13特征图319相关联)。

卷积层305可以接收特征图319(例如卷积层305可以接收输入大小为13×13×384的输入)和经由卷积层305应用的卷积核,并且relu321可以提供输出大小为13×13×384的特征图322。例如,在卷积层305处,诸如卷积核320之类的多个卷积核可以应用于特征图319。随后,relu321可以应用于生成特征图322。例如,卷积核可以包括384个3×3卷积核(例如其中每一个卷积核与384个13×13特征图322相关联)。

卷积层306可以接收特征图322(例如卷积层306可以接收输入大小为13×13×384的输入)和经由卷积层306应用的卷积核,并且relu324可以提供输出大小为6×6×256的特征图325。例如,在卷积层306处,诸如卷积核323之类的多个卷积核可以应用于特征图322。随后,relu和最大池化324可以应用于生成特征图325。例如,卷积核可以包括256个3×3卷积核(例如其中每一个卷积核与256个6×6特征图325相关联),并且最大池化可以包括步幅为2的3×3最大池化。

如所讨论的,深度cnn206可以具有5个卷积层302-306,其具有所描述的实现细节。然而,在其他示例中,深度cnn可以包括任何数目的卷积层(例如3至8个卷积层等),其具有任何实现细节。例如,卷积核的不同数目的卷积层、大小或形状、步幅、卷积核的数目、不同卷积层处的relu单元、最大池化操作和lrn操作的不同组合等可以用于生成深度cnn206。

如所示,响应图325可以经由可选的重塑操作326进行重塑,并且作为响应图307(例如响应图307还可以表征为特征图、特征向量、二进制神经特征、分层神经特征等)被提供给完全连接的层308-310以生成目标标签350。例如,完全连接的层308可以接收6×6×256=9,216维输入向量(请参照响应图325),并且完全连接的层308可以具有4,096个输出和6×6×256×4096个神经参数(例如排斥1-d偏置项)。完全连接的层309可以提供4,096个输出和4096×4096个神经参数(例如排除1-d偏置项)。完全连接的层310可以包括1,000个输出(例如具有总和为1的相应概率值的1,000个目标标签)和4096×1000个神经参数(例如排除1-d偏置项)。例如,完全连接的层308、309可以提供完全连接和加权的网络节点,并且完全连接的层310可以提供完全连接的柔性最大值传输函数等。尽管讨论了具有所描述的实现细节的3个完全连接的层308-310,但是可以经由深度cnn206提供或实现具有任何实现细节的任何数目的完全连接的层。在一些示例中,目标标签350可以包括具有来自完全连接的层310的1,000个目标标签输出的最高概率值的目标标签。

如所讨论的,尽管深度cnn206可以提供高准确性目标识别结果9例如人体识别结果等),但是可能深度cnn206的实现很可能在存储器空间和计算复杂度方面是昂贵的,特别是在移动设备中。例如,深度cnn206可能包括超过6千万浮点参数,其花费大约237mb的存储器,这可能在实现期间在设备上施加沉重的负担。例如,这样的参数中的大部分可能在完全连接的层308-310内(例如在一些实现方式中,这样的参数的大约88%至90%)。此外,在一些实例中,由于在卷积层302-306处执行的交叉通道计算,响应图307可以高度抽象而且高度相关。例如,在一些实例中,来自响应图307和/或响应图313、316、319、322、325之中的最有判别力的响应图(例如可以舍弃其他)可以用于经由强分类器的高质量执行目标识别(例如取代完全连接的层308-310),如本文关于强分类器模块102、强分类器210和强分类器508所讨论的。

返回到图2,如所示,深度cnn206可以被提供给二进制神经特征池确定模块202和cnn层/特征图减少模块204。例如,二进制神经特征池确定模块202可以确定二进制神经特征池207,提升模块203可以基于二进制神经特征池207和提升技术的实现而确定二进制神经特征208的集合,并且cnn层/特征图减少模块204可以消除深度cnn206的任何不需要的层和/或深度cnn204的任何不需要的响应图以生成cnn层209以用于经由cnn层模块101的实现。例如,深度cnn204的不需要的层和/或不需要的响应图可以是生成二进制特征104的集合所不需要的那些层和/或响应图(例如使用深度cnn206的所有可用响应图的完全连接的层可以被仅使用深度cnn206的可用响应图的子集的强分类器取代)。

如所讨论的,深度cnn206可以被提供给二进制神经特征池确定模块202,其可以确定二进制神经特征池207。二进制神经特征池确定模块202可以使用任何一种或多种合适的技术来确定二进制神经特征池207。例如,在卷积层302-306中的每一个处生成的每一个通道(例如响应图313、316、319、322、325中的每一个响应图)可以表示一种输入图像图案(例如如经由输入层301所提供的)。任何这样的通道或响应图(例如响应图313、316、319、322、325)可以提供用于二进制神经特征池207的候选二进制神经特征。在示例中,所有这样的通道或响应图(例如响应图313、316、319、322、325)可以提供二进制神经特征池207。在其他示例中,这样的通道或响应图(例如响应图313、316、319、322、325)的子集可以提供二进制神经特征池207。在一些示例中,来自深度cnn206的最终卷积层的响应图(例如卷积层306的响应图325)可以具有可用响应图的最多表达力(例如通道)。在示例中,来自仅深度cnn206的最终卷积层的响应图(例如卷积层306的响应图325)可以提供二进制神经特征池207。在图3的示例中,这样的二进制神经特征池207可以包括256个通道(例如响应图),其中每一个通道或响应图包括6×6个元素(请参照图2),使得二进制神经特征池207包括响应图325(例如与响应图325相关联的二进制神经特征,请参照图3)。然而,二进制神经特征池207可以包括来自深度cnn206的任一个或多个层的响应图的任何组合。

如所示,二进制神经特征池确定模块202可以向提升模块203提供二进制神经特征池207。提升模块203可以接收二进制神经特征池208并且提升模块203可以生成一组二进制神经特征208和强分类器210。例如,二进制神经特征208可以包括经由深度cnn206可得到的最有叙述性的二进制神经特征。此外,强分类器210可以经由强分类器模块102实现,其可以在实现阶段212期间评估二进制神经特征104以生成目标标签105。例如,二进制神经特征104可以类似于二进制神经特征208,使得二进制神经特征104经由用于生成二进制神经特征208的相同响应图生成。例如,这样的响应图可以经由cnn层101在实现阶段212期间实现。

提升模块203可以使用任何一种或多种合适的技术来生成一组二进制神经特征208和强分类器210。例如,提升模块203可以自动选择二进制神经特征208以用于使用在目标识别中。例如,提升模块203可以应用提升技术以提供二进制神经特征池207以生成二进制神经特征208(例如,并且还指示相关联的响应图)和强分类器210。在一些示例中,提升模块203可以生成一组二进制神经特征208和强分类器210,如图4中所图示的。

图4是图示了依照本公开的至少一些实现方式布置的用于训练强分类器的示例过程400的流程图。过程400可以包括如图4中图示的一个或多个操作401-403。过程400可以由设备(例如设备100、在本文中讨论的任何其他设备或系统或外部训练设备,诸如计算机设备等)执行以训练强分类器和选择响应图的子集以用于如在本文中讨论的实现。过程400或其部分可以针对任何训练集合、强分类器等而重复。如所讨论的,由于用于生成响应图的交叉计算过程,可能存在二进制神经特征池207之中的强相关和相当多的冗余。过程400可以应用提升以提供支持向量机(svm)分类器作为候选弱分类器并且在它们(例如二进制神经特征208)之中通过提升找到最有判别力的二进制神经特征组合并且习得强分类器(例如强分类器210)。

如所示,过程400可以从起始操作401在操作402“加载训练集合”处开始,其中可以加载训练数据集合。这样的训练数据可以包括任何合适的训练数据,诸如代表用于多个训练图像数据的二进制神经特征池(诸如二进制神经特征池207)的已知的或所生成的二进制神经特征,以及用于这样的训练图像数据的已知目标标签结果。在一些示例中,这样的训练集合可以经由cnn层(诸如cnn层302-306等)生成。例如,训练集合可以包括如关于等式(1)-(4)所示的训练数据:

训练集合:

(1)

(2)

(3)

(4)

其中t可以是训练集合,x可以是36维实向量,y可以是+1或-1,其指示x所属于的类或类别,i可以是计数器变量,并且n可以是训练图像的数目。如所讨论的,在说明性示例中,x可以是36维的,表示响应图325的维度6×6(请参照图3),然而x可以是表示相关联的响应图的维度的任何合适的大小。

过程400可以在操作403“定义svm分类器”处继续,其中可以定义支持向量机(svm)分类器。这样的svm分类器可以使用任何一种或多种合适的技术来定义。这样的svm分类器可能已经经由例如深度cnn206的预先训练和精细调谐进行了训练。例如,svm分类器可以被定义为如关于等式(5)和(6)所示:

svm分类器:

(5)

(6)

其中g可以是svm分类器,m可以是用于二进制神经特征池中的256个响应图或通道和因此256个svm分类器的计数器变量,并且可以基于x而分类成+1或-1。如所讨论的,在说明性示例中,可以存在与256个响应图325相关联的256个svm分类器(请参照图3),然而,在其他示例中,可能存在任何合适数目的响应图和相关联的svm分类器。

过程400可以在操作404“初始化样本权重并且设置目标出错率和最大值迭代”,其中可以初始化样本权重并且可以设置目标出错率和最大迭代数目。这样的样本权重可以使用任何一种或多种合适的技术来初始化。例如,这样的样本权重可以被初始化为相等的值并且使得样本权重总和为一。目标出错率可以包括在此以下处理将结束的任何合适的出错率。例如,目标出错率可以选择成使得可以确定处理中所实现的出错率以满足特定错误质量度量等。例如,目标出错率可以是阈值出错率等。在一些示例中,目标出错率可以是小的,使得可以期望到逼近零的出错率。此外,可以使用任何一种或多种合适的技术来设置最大迭代数目。在一些示例中,最大迭代数目可以为大约10,000次迭代或更多。例如,可以如等式(7)和(8)中所示的那样初始化样本权重并且可以设置最大迭代数目:

初始化样本权重:

(7)

最大迭代

k=最大迭代(8)

其中d可以是样本权重,并且k可以是最大迭代数目。

过程400可以在操作405“确定svm分类器的经加权的分类出错率”处继续,其中可以针对svm分类器确定经加权的分类出错率。经加权的分类出错率可以使用任何一种或多种合适的技术来确定。例如,经加权的分类出错率可以如关于等式(9)所示的那样确定:

(9)

其中err可以是经加权的分类错误,k可以是针对当前迭代的计数器(例如当前迭代可以是最大k迭代中的迭代k),并且i可以如果svm分类器被误分类x则返回值1并且否则返回值0的指示符函数。

过程400可以在操作406“选择具有最小出错率的svm分类器作为新的弱分类器”处继续,其中可以选择具有最小出错率的svm分类器作为新的弱分类器。具有最小出错率的svm分类器可以使用任何一种或多种合适的技术来确定,诸如比较svm分类器之中的出错率并且标识具有最小出错率的svm分类器。例如,具有最小出错率的svm分类器可以如关于等式(10)所示的那样确定:

(10)

其中m可以是新的弱分类器,并且argmin可以是返回与最小错误相关联的幅角的最小幅角函数。例如,如果新的弱分类器在迭代k处被确定,弱分类器可以被添加到经由过程400确定的强分类器。

过程400可以在操作407“确定新的弱分类器的权重”处继续,其中可以针对在操作406处确定的新的弱分类器而确定权重。新的弱分类器的权重可以使用任何一种或多种合适的技术来确定。例如,新的弱分类器的权重可以如关于等式(11)所示的那样确定:

(11)

其中α可以是新的弱分类器的权重。

过程400可以在操作408“形成强分类器并且利用新权重确定出错率”处继续,其中可以形成或较新强分类器并且可以确定具有新的权重的强分类器的出错率。例如,强分类器可以基于在直至当前迭代的迭代中生成的弱分类器(例如当前可用的那些弱分类器)而形成或较新。此外,具有针对新的弱分类器的新的权重的强分类器的出错率可以使用任何一种或多种合适的技术来确定。例如,强分类器可以如关于等式(12)所示的那样生成或较新,并且具有针对新的弱分类器的新的权重的强分类器的出错率可以如关于等式(13)所示的那样确定:

(12)

(13)

其中g可以是强分类器,sign可以是提供目标标签和/或执行分类的符号函数,f可以是计数器变量,err可以是强分类器的出错率,并且i可以是如所讨论的指示符函数。

过程400可以在判定操作409“错误<oer”处继续,其中可以做出关于强分类器的出错率是否小于在操作404处设置的目标出错率(oer)的确定。如果是这样,过程400可以在结束操作411处结束。例如,如果在针对强分类器的当前迭代中达到小于预定阈值的出错率,可以停止进一步处理。在一些示例中,可以达到为零的出错率。如果不是,过程400可以在判定操作410“迭代k”处继续,其中可以做出关于当前迭代k是否是最大迭代k的确定(例如已经达到最大迭代数目)。如果是这样,过程400可以在结束操作411处结束。如果不是,过程400可以在操作412处继续以用于继续的处理。

例如,过程400可以在操作412“较新样本权重”处继续,其中可以较新如在操作404处初始化的样本权重。样本权重可以使用任何一种或多种合适的技术来较新。样本权重可以例如提供用于舍弃具有低准确性(例如,以及低权重)的分类器并且保留具有高准确性(例如,以及高权重)的那些以用于在最终强分类器中的潜在包括。例如,可以如关于等式(14)和(15)所示的那样较新样本权重:

(14)

(15)

其中可以是经较新的样本权重。

过程400可以在操作413“k=k+1”处继续,其中迭代计数器变量可以增加,并且在操作405处继续,其中可以重复如在本文中讨论的处理。例如,操作405-408可以重复以基于最大迭代数目k而生成出错率为零或具有最小出错率的强分类器。

如所讨论的,过程400可以用于生成强分类器和定义一组二进制神经特征(例如二进制神经特征208)。过程400可以重复任何次数以用于训练集合、任何数目的目标识别类型(例如人类目标识别、动物或重复目标识别等)等。

返回到图2,可以向cnn层/特征图减少模块204提供二进制神经特征208,并且可以向强分类器模块102提供强分类器210以用于经由设备100的实现。cnn层/特征图减少模块204可以接收二进制神经特征208和cnn层/特征图减少模块204可以通过基于二进制神经特征208而消除其部分来减少深度cnn206。

例如,cnn层/特征图减少模块204可以减少深度cnn206以生成cnn层209以用于经由设备100的cnn层模块101的实现。cnn层/特征图减少模块204可以使用任何一种或多种合适的技术来减少深度cnn206以生成cnn层209。例如,cnn层/特征图减少模块204可以从深度cnn206消除完全连接的层,照此,这样的完全连接的层可以在实现阶段212期间被强分类器模块102取代。此外,cnn层/特征图减少模块204可以通过从深度cnn206消除任何不需要的卷积层来减少深度cnn206。例如,如果不需要深度cnn206的最后的卷积层或多个最后的卷积层以生成二进制神经特征104,可以在形成cnn层209中消除这样的不需要的卷积层。然而,如果甚至需要来自最后的卷积层的单个响应图,在最后的卷积层之前的深度cnn206的卷积层可能需要保留和完全实现。

同样,cnn层/特征图减少模块204可以通过从深度cnn206的最终卷积层消除响应图来减少深度cnn206。例如,如所讨论的,二进制神经特征208可以包括二进制神经特征池207的子集。此外,所说明性示例中,所有二进制神经特征208基于最后的卷积层来确定。在这样的示例中,可以舍弃除了与二进制神经特征208相关联的那些之外的响应图(例如不需要的响应图)。

如所示,cnn层/特征图减少模块204可以生成cnn层209以用于经由cnn层模块101的实现,如在本文中讨论的。这样的经由cnn层模块101和强分类器模块102的设备100的实现可以以显著减少的存储器使用和计算资源消耗而提供高质量目标标签结果。卷积神经网络层和强分类器的示例实现关于图5来图示。

图5图示了依照本公开的至少一些实现方式布置的用于提供目标识别的示例系统500,包括卷积神经网络层502-506和强分类器508。例如,卷积神经网络层502-506可以经由cnn层模块101实现,并且强分类器508可以经由强分类器模块102实现。如图5中所示,在一些示例中,系统500可以包括5个卷积层502-506。并且如所示,卷积层502-506可以跟随有修正线性单元(relu)、最大池化和/或局部响应归一化(lrn)的各种组合。例如,如所示,系统500可以接收输入图像数据或输入层501,包括经空间归一化的图像数据,使得如所标记的,输入层301可以是225×225像素,并且可以包括3个颜色平面(例如红色、绿色和蓝色颜色平面等)。然而,如所讨论的,任何大小和颜色空间输入层可以经由系统500实现。例如,输入层501可以基于图像数据103生成,或者输入层501可以是图像数据103等。

如所示,卷积层502-505可以实现卷积核311、314、317和320和/或relu、最大池化和lrn312、relu、最大池化和lrn315、relu318、relu321以及relu和最大池化324,如关于图3所讨论的。为了呈现的清楚性起见,将不重复这样的细节。而且,如关于图3所讨论的,不同的实现细节(例如卷积层的不同数目、卷积核的大小或形状、步幅、卷积核的数目、relu单元、最大池化操作和lrn操作在不同卷积层处的不同组合等)可以经由系统500提供。

同样如所示,在最终或最后的卷积层506处,多3×3卷积核,诸如卷积核511,以及relu和最大池化324可以应用于卷积层505处的响应图322以生成包括减少数目的响应图(例如大约7至18个响应图)的响应图512,响应图具有6×6个特征。例如,如所讨论的,响应图512可以与二进制神经特征208相关联,使得仅可用响应图中的响应图512的子集(例如响应图325和/或与深度cnn206相关联的其他响应图)需要被评估以提供目标标签105。例如,二进制神经特征可以基于与输入层501相关联的图像数据与响应图512相关联地生成。

这样的二进制神经特征(例如响应图512)可以可选地经由重塑操作509进行重塑并且作为二进制神经特征507被提供给强分类器508。如图5中所示并且与图3形成对照的,仅受限数目的二进制神经特征(例如大约7至18个二进制神经特征的集合)被提供给强分类器508。任何数目的二进制神经特征,诸如大约5至20个神经特征或7至18个神经特征等,可以经由二进制神经特征507来提供。例如,神经特征的数目可以在强分类器508的训练期间确定,如在本文中讨论的。强分类器508可以实现如关于图4所讨论的那样训练的强分类器,例如以基于二进制神经特征507生成目标标签105。

尽管在图5中示出经由卷积层506生成所有响应图512和/或二进制神经特征507,但是响应图512和/或二进制神经特征507可以经由卷积层502-506中的任一个生成,使得经由卷积层506生成至少一个响应图/二进制神经特征(例如如果没有经由卷积层506生成响应图/二进制神经特征,将由于在系统500中不需要而消除卷积层506)。例如,响应图512和/或二进制神经特征507中的一个或多个可以来自卷积层502、卷积层503、卷积层504、卷积层505或其任何组合。

如所讨论的,cnn层模块101和强分类器模块102的实现可以以显著减少的存储器使用和计算资源消耗来提供高准确性目标标签结果。例如,在人类识别情境中,针对如在本文中讨论的深度cnn和包括cnn卷积层和强分类器的系统而评估针对inria人员数据集测试情况的结果。例如,对inria人员数据集行人图像进行分段以便将每一个行人图像分段成相同大小的3个重叠的方形部分。例如,对于具有高度方面512个像素和宽度方面256个像素的行人图像,对图像进行分段以生成图像的顶部以表示“头部和肩部”、中部以表示“身体”和底部以表示“腿部和脚部”。每一个段可以分别标记为“pos1”、“pos2”和“pos3”。在背景图像上实现相同的过程,并且将所有经分段的背景图像标记为“bg”。由于inria人员数据集包括2474个行人图像和5000个背景图像,因此生成分别被标记为“pos1”、“pos2”和“pos3”的2474个图像和被标记为“bg”的15000个图像。此外,行人和背景图像被放大至512×512像素并且将其大小调整成256×256像素。将调整大小的行人标记为“pos0”。基于这样的技术,分别生成7个不同的人体识别任务:“pos0对比bg”、“pos1对比bg”、“pos2对比bg”、“pos3对比bg”、“pos1对比pos2”、“pos1对比pos3”和“pos3对比pos2”。将每一个任务的样本随机地划分成训练和测试集合,并且生成经精细调谐的8-层深度cnn模型。对于作为第一完全连接的层的输入的256个响应图中的每一个(例如响应图325),针对每一个任务训练7个svm分类器。对于每一个svm分类器,随机地选择样本中的五分之四以用于训练,并且其余(例如五分之一)用于测试。相同的评估协议被应用于深度cnn技术和cnn层/强分类器技术。表1总结了这样的评估的结果。

表1:深度cnn技术与cnn层/强分类器技术之间的性能比较。

如经由表1所示,cnn层/强分类器技术可以提供以得到如相比于8-层深度cnn技术的7个所讨论的人体识别任务中的更高的识别准确性。此外,cnn层/强分类器技术的模型大小为大约14mb,其仅为8-层深度cnn技术的大小的大约12.24%。

图6是图示了依照本公开的至少一些实现方式布置的用于执行目标识别的示例过程600的流程图。过程600可以包括如图6中图示的一个或多个操作601和602。过程600可以形成目标识别过程的至少部分。作为非限制性示例,过程600可以形成在实现阶段期间由如在本文中讨论的设备100执行的目标识别过程的至少部分。此外,本文将参照图7的系统700来描述过程600。

图7是依照本公开的至少一些实现方式布置的用于执行目标识别的示例系统700的说明图。如图7中所示,系统700可以包括一个或多个中央处理单元(cpu)701、图形处理单元702和存储器储存703。并且如所示,图形处理单元702可以包括cnn层模块101和强分类器模块102。这样的模块可以实现成执行如在本文中讨论的操作。在系统700的示例中,存储器储存703可以存储输入图像数据、cnn层数据、二进制神经特征、目标标签、图像层数据、响应图数据、卷积核数据、relu数据、最大池化数据、lrn数据、强分类器数据、样本权重等。

如所示,在一些示例中,cnn层模块101和强分类器模块102可以经由图形处理单元702来实现。在其他示例中,cnn层模块101和强分类器模块102中的一个或二者或部分可以经由中央处理单元701或系统700的图像处理单元(未示出)实现。在再其他的示例中,cnn层模块101和强分类器模块102中的一个或二者或部分可以经由成像处理管线、图形管线等来实现。

图形处理单元702可以包括任何数目和类型的图形处理单元,其可以提供如在本文中讨论的操作。这样的操作可以经由软件或硬件或其组合来实现。例如,图像处理单元702可以包括专用于操纵从存储器储存703获得的图像数据、cnn数据、强分类器等的电路。中央处理单元701可以包括任何数目和类型的处理单元或模块,其可以提供用于系统700的控制和其他高级功能和/或提供如在本文中讨论的任何操作。存储器储存703可以是任何类型的存储器,诸如易失性存储器(例如静态随机存取存储器(sram)、动态随机存取存储器(dram)等)或非易失性存储器(例如闪存等)等。在非限制性示例中,存储器储存703可以由高速缓存存储器来实现。在实施例中,cnn层模块101和强分类器模块102中的一个或二者或部分可以经由图形处理单元702的执行单元(eu)来实现。eu可以包括例如可编程逻辑或电路,诸如可以提供多种多样的可编程逻辑功能的一个或多个逻辑核。在实施例中,cnn层模块101和强分类器模块102中的一个或二者或部分可以经由专用硬件实现,诸如固定功能电路等。固定功能电路可以包括专用逻辑或电路,并且可以提供一组固定功能进入点,其可以映射到专用逻辑以用于固定目的或功能。在一些实施例中,cnn层模块101和强分类器模块102中的一个或二者或部分可以经由专用集成电路(asic)来实现。asic可以包括定制成执行在本文中讨论的操作的集成电路。

返回到图6的讨论,过程600可以在操作601“基于输入图像数据而生成与响应图的预定子集相关联的二进制神经特征的集合)处开始,其中,经由一个或多个卷积神经网络层,可以基于输入图像数据而生成一组二进制神经特征。如所讨论的,输入图像数据可以包括经空间归一化的图像数据,并且二进制神经特征可以包括分层神经特征、特征矢量、响应图数据等。例如,二进制神经网络特征的集合可以与响应图的预定子集相关联,所述预定子集与所述一个或多个卷积神经网络层相关联。例如,如经由图形处理单元702实现的cnn层模块101可以基于输入图像数据生成二进制神经特征的集合。例如,如经由图形处理单元702实现的cnn层模块101可以实现所述一个或多个卷积神经网络层。

在一些示例中,响应图的预定子集(例如与二进制神经特征104相关联的那些)可以来自与包括卷积神经网络层的完整卷积神经网络(例如深度cnn)相关联的多个可用响应图(例如与二进制神经特征池207相关联的那些和/或附加的响应图,诸如所有可用的响应图)。例如,除了所讨论的卷积神经网络层之外,完整卷积神经网络可以包括附加的卷积神经网络层和/或在如在本文中讨论的实现之前消除的完全连接的神经网络层。

在一些示例中,卷积神经网络层可以包括一个或多个经完全评估的卷积神经网络层(例如卷积层502-505)和经部分评估的卷积神经网络层(例如卷积层506)。在一些示例中,二进制神经特征的集合可以经由经部分评估的卷积神经网络层(例如卷积层506)生成。在其他示例中,二进制神经特征的集合可以经由经部分评估的卷积神经网络层(例如卷积层506)和经完全评估的卷积神经网络层(例如卷积层502-506)中的一个或多个而生成。例如,二进制神经特征的集合可以通过经由卷积神经网络层中的一个或多个卷积神经网络层应用卷积核和修正线性单元、最大池化操作或局部响应归一化中的一个或多个来生成。

处理可以在操作602“对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签”处继续,其中可以对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签。目标标签可以是任何合适类型的目标标签,诸如人体目标识别标签。例如,如经由图形处理单元702实现的强分类器模块102可以应用在训练阶段期间训练的强分类器以生成用于输入图像数据的目标标签。

如所讨论的,cnn层和强分类器可以应用于输入图像数据以生成目标标签。在一些示例中,cnn层和强分类器可能已经在训练阶段期间被生成或训练等。例如,可以生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络(例如深度cnn),可以基于完整卷积神经网络而生成可用响应图池,并且可以从可用响应图池确定响应图的预定子集(例如可以选择最有判别力的响应图以用于实现)。此外,在一些示例中,可以基于响应图的预定子集而从完整的卷积神经网络消除所述一个或多个完全连接的神经网络层和多个第一响应图以生成所述一个或多个卷积神经网络层。在一些示例中,确定响应图的预定子集可以包括应用提升技术以基于响应图的预定子集而生成强分类器。

过程600可以提供用于基于输入图像数据而生成目标标签。过程600可以针对任何数目的输入图像、输入针等而串行或并行重复任何次数。如所讨论的,过程600可以提供高质量目标识别结果并且在实现中(例如如关于系统700所实现的)可以提供降低的存储器和计算要求。

在本文中描述的系统的各种组件可以实现在软件、固件和/或硬件和/或其任何组合中。例如,设备100、系统700、系统800或设备900的各种组件可以至少部分地由计算片上系统(soc)的硬件提供,诸如可以在计算系统中发现的,所述计算系统诸如例如计算机、膝上型计算机、平板计算机或智能电话。例如,这样的组件或模块可以经由多核soc处理器来实现。本领域技术人员可以认识到,在本文中描述的系统可以包括附加的组件,其并未在对应图中进行描绘。

虽然在本文中讨论的示例过程的实现方式可以包括以所图示的次序示出的所有操作着手进行,但是本公开在这方面不受限,并且在各种示例中,本文中的示例过程的实现方式可以仅包括所示出的操作的子集、以与所图示的不同的次序执行的操作或附加的操作。

此外,在本文中讨论的操作中的任一个或多个可以响应于由一个或多个计算机程序产品提供的指令而着手进行。这样的程序产品可以包括提供指令的信号承载介质,所述指令在由例如处理器执行时可以提供在本文中描述的功能。计算机程序产品可以以任何形式的一个或多个机器可读介质来提供。因此,例如,包括一个或多个图形处理单元或处理器核的处理器可以响应于由一个或多个机器可读介质传达至处理器的程序代码和/或指令或指令集而着手进行本文中的示例过程的一个或多个块。一般地,机器可读介质可以以程序代码和/或指令或指令集的形式来传达软件,其可以使得在本文中描述的设备和/或系统中的任一个实现如在本文中讨论的设备100、系统700、系统800或设备900或任何其他模块或组件的至少部分。

如在本文中描述的任何实现方式中所使用的,术语“模块”是指配置成提供在本文中描述的功能的软件逻辑、固件逻辑、硬件逻辑和/或电路的任何组合。软件可以体现为软件包、代码和/或指令集或指令,并且“硬件”,如在在本文中描述的任何实现方式中所使用的,可以包括例如单固或以任何组合的硬接线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储由可编程电路执行的指令的固件。模块可以共同地或单独地体现为电路,其形成更大系统的部分,所述更大系统例如集成电路(ic)、片上系统(soc)等。

图8是依照本公开的至少一些实现方式布置的示例系统800的说明图。在各种实现方式中,系统800可以是计算系统,尽管系统800不限于该情境。例如,系统800可以被整合到个人计算机(pc)、膝上型计算机、超级膝上型计算机、平板计算机、平板手机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、电视、智能设备(例如智能电话、智能平板计算机或智能电视)、移动互联网设备(mid)、消息传递设备、数据通信设备、外围设备、游戏控制台、可穿戴设备、显示设备、多合一设备、二合一设备等。

在各种实现方式中,系统800包括耦合到显示器820的平台802。平台802可以从诸如(多个)内容服务设备830或(多个)内容递送设备840之类的内容设备或者其他类似内容源(诸如相机或相机模块等)接收内容。包括一个或多个导航特征的导航控制器850可以用于与例如平台802和/或显示器820交互。以下更加详细地描述这些组件中的每一个。

在各种实现方式中,平台802可以包括芯片组805、处理器810、存储器812、记忆装置814、图形子系统815、应用816和/或无线电设备818的任何组合。芯片组805可以提供处理器810、存储器812、记忆装置814、图形子系统815、应用816和/或无线电设备818之间的互相通信。例如,芯片组805可以包括能够提供与记忆装置814的互相通信的记忆装置适配器(未描绘)。

处理器810可以被实现为复杂指令集计算机(cisc)或精简指令集计算机(risc)处理器、x86指令集兼容处理器、多核或任何其他的微处理器或中央处理单元(cpu)。在各种实现方式中,处理器810可以包括(多个)双核处理器、(多个)双核移动处理器等。

存储器812可以被实现为易失性存储器设备,诸如但不限于随机存取存储器(ram)、动态随机存取存储器(dram)或静态ram(sram)。

记忆装置814可以被实现为非易失性存储设备,诸如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接存储设备、闪存、备有电池的sdram(同步dram)和/或网络可访问存储设备。在各种实现方式中,记忆装置814可以包括用于当例如包括多个硬盘驱动器时增加针对有价值数字媒体的存储性能增强保护的技术。

图形子系统815可以执行诸如静止图像之类的图像或视频的处理以用于显示。图形子系统815可以是例如图形处理单元(gpu)、视觉处理单元(vpu)或图像处理单元。在一些示例中,图形子系统815可以执行如在本文中讨论的扫描图像渲染。模拟或数字接口可以用于通信耦合图形子系统815和显示器820。例如,接口可以是高清晰度多媒体接口、显示端口、无线hdmi和/或无线hd顺从技术中的任一个。图形子系统815可以被整合到处理器810或芯片组805中。在一些实现方式中,图形子系统815可以是通信耦合到芯片组805的独立设备。

在本文中描述的图像处理技术可以被实现在各种硬件架构中。例如,图像处理功能可以被整合在芯片组内。替代地,可以使用分立的图形和/或图像处理器和/或专用集成电路。作为又一实现方式,图像处理可以由包括多核处理器的通用处理器来提供。在其他实施例中,功能可以被实现在消费者电子设备中。

无线电设备818可以包括能够使用各种适合的无线通信技术发射和接收信号的一个或多个无线电设备。这样的技术可以涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(wlan)、无线个域网(wpan)、无线城域网(wman)、蜂窝网络和卫星网络。在跨这样的网络进行通信时,无线电设备818可以依照以任何版本的一个或多个适用标准进行操作。

在各种实现方式中,显示器820可以包括任何平板监视器或显示器。显示器820可以包括例如计算机显示屏、触摸屏显示器、视频监视器、类电视的设备和/或电视。显示器820可以是数字和/或模拟的。在各种实现方式中,显示器820可以是全息显示器。显示器820还可以是可接收视觉投影的透明表面。这样的投影可以传达各种形式的信息、图像和/或对象。例如,这样的投影可以是用于移动增强现实(mar)应用的视觉叠加。在一个或多个软件应用816的控制之下,平台802可以在显示器820上显示用户接口822。

在各种实现方式中,(多个)内容服务设备830可以由任何国家的、国际和/或独立的服务来托管且因此经由例如因特网而对平台802来说可访问。(多个)内容服务设备830可以耦合到平台802和/或显示器820。平台802和/或(多个)内容服务设备830可以耦合到网络860以向网络860和从网络860传送(例如发送和/或接收)媒体信息。(多个)内容递送设备840也可以耦合到平台802和/或显示器820。

在各种实现方式中,(多个)内容服务设备830可以包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的支持因特网的设备或器具、以及能够在内容提供者与平台802和/或显示器820之间经由网络860或直接地单向或双向传送内容的任何其他类似设备。将领会到,可以经由网络860传送向和从系统800中的组件和内容提供者中的任一个单向和/或双向地传送内容。内容的示例可以包括任何媒体信息,包括例如视频、音乐、医疗和游戏信息等。

(多个)内容服务设备830接收包括媒体信息、数字信息和/或其他内容的诸如有线电视节目之类的内容。内容提供者的示例可以包括任何有线或卫星电视或者无线电或因特网内容提供者。所提供的示例并不意在以任何方式限制依照本公开的实现方式。

在各种实现方式中,平台802可以从具有一个或多个导航特征的导航控制器850接收控制信号。导航控制器850的导航特征可以用于例如与用户接口822交互。在各种实施例中,导航控制器850可以是定点设备,其可以是允许用户将空间(例如连续且多维的)数据输入到计算机中的计算机硬件组件(特别地,人类接口设备)。诸如图形用户接口(gui)之类的许多系统以及电视和监视器允许用户使用身体姿势控制数据并向计算机或电视提供数据。

导航控制器850的导航特征的移动可以通过在显示器上显示的指针、光标、聚焦环或其他视觉指示器的移动而被重复在显示器(例如显示器820)上。例如,在软件应用816的控制之下,位于导航控制器850上的导航特征可以被映射到在例如用户接口822上显示的虚拟导航特征。在各种实施例中,导航控制器850可能不是分离的组件,而是被整合到平台802和/或显示器820中。然而,本公开不限于在本文中示出或描述的元素或者不被限制在在本文中示出或描述的情境中。

在各种实现方式中,驱动器(未示出)可以包括使用户能够例如在初始启动之后、在被启用时利用按钮触摸来立即开启和关闭像电视之类的平台802的技术。甚至当平台被“关闭”时,程序逻辑可以允许平台802将内容流式传输到媒体适配器或其他(多个)内容服务设备830或(多个)内容递送设备840。此外,芯片组805可以包括针对例如5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动器可以包括用于集成图形平台的图形驱动器。在各种实施例中,图形驱动器可以包括高速外围组件互连(pci)图形卡。

在各种实现方式中,可以整合系统800中示出的任一个或多个组件。例如,可以整合平台802和(多个)内容服务设备830,或者可以整合平台802和(多个)内容递送设备840,或者例如可以整合平台802、(多个)内容服务设备830和(多个)内容递送设备840。在各种实施例中,平台802和显示器820可以是集成单元。例如,可以整合显示器820和(多个)内容服务设备830,或者可以整合显示器820和(多个)内容递送设备840。这些示例不意在限制本公开。

在各种实施例中,系统800可以被实现为无线系统、有线系统或这二者的组合。当被实现为无线系统时,系统800可以包括适于通过无线共享介质进行通信的组件和接口,诸如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等。无线共享介质的示例可以包括无线频谱的部分,诸如rf频谱等。当被实现为有线系统时,系统800可以包括适于通过有线通信介质进行通信的组件和接口,诸如输入/输出(i/o)适配器、将i/o适配器与对应的有线通信介质连接的物理连接器、网络接口卡(nic)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、线缆、金属引线、印刷电路板(pcb)、背板、开关结构、半导体材料、双绞线、同轴线缆、光纤等。

平台802可以建立一个或多个逻辑或物理通道来传送信息。信息可以包括媒体信息和控制信息。媒体信息可以指代表示意在用于用户的内容的任何数据。内容的示例可以包括例如来自语音对话的数据、视频会议、流式传输的视频、电子邮件(“电邮”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等。来自语音对话的数据可以是例如话音信息、静默时段、背景噪声、舒适噪声、音调等。控制信息可以指代表示意在用于自动化系统的命令、指令或控制字的任何数据。例如,控制信息可以用于将媒体信息路由通过系统或者指示节点以预定的方式处理媒体信息。然而,实施例不限于图8中示出或描述的元素或者不被限制在图8中示出或描述的情境中。

如以上所描述的,系统800可以以变化的物理样式或形状因子体现。图9图示了依照本公开的至少一些实现方式布置的示例小形状因子设备900。在一些示例中,系统1100可以经由设备900实现。在其他示例中,设备100、系统700、系统800或设备900或其部分可以经由设备900实现。在各种实施例中,例如,设备900可以被实现为具有无线能力的移动计算设备。例如,移动计算设备可以指代具有处理系统和诸如一个或多个电池之类的移动电源或电力供应的任何设备。

移动计算设备的示例可以包括个人计算机(pc)、膝上型计算机、超级膝上型计算机、平板计算机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、电视、智能设备(例如智能电话、智能平板计算机或智能移动电视)、移动互联网设备(mid)、消息传递设备、数据通信设备、相机等。

移动计算设备的示例还可以包括布置成由人穿戴的计算机,诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、腰带夹计算机、臂带计算机、鞋计算机、衣物计算机以及其他可穿戴计算机。在各种实施例中,例如,移动计算设备可以被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管可能作为示例利用被实现为智能电话的移动计算设备描述了一些实施例,但是可以领会到,也可以使用其他无线移动计算设备来实现其他实施例。实施例不限于该情境中。

如图9中所示,设备900可以包括具有正面901和背面902的外壳。设备900包括显示器904、输入/输出(i/o)设备906以及集成天线908。设备900还可以包括导航特征99。i/o设备906可以包括用于将信息输入到移动计算设备中的任何适合的i/o设备。i/o设备906的示例可以包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、麦克风、扬声器、语音识别设备和软件等。还可以通过麦克风(未示出)将信息输入到设备900中,或者信息可以通过语音识别设备来数字化。如所示,设备900可以包括整合到设备900的背面902(或其他地方)中的相机905(例如包括镜头、孔和成像传感器)和闪存910。在其他示例中,相机905和闪存910可以整合到设备900的正面901中或者可以提供正面和背面相机二者。相机905和闪存910可以是相机模块的组件以将引起处理成流式传输的视频的图像数据,所述流式传输的视频被输出到显示器904和/或例如从设备900经由天线908远程传送。

可以使用硬件元件、软件元件或这二者的组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑器件(pld)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(api)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可以依照任何数目的因素而变化,诸如期望的计算速率、功率水平、耐热性、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其他设计或性能约束。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的有代表性的指令来实现,所述机器可读介质表示处理器内的各种逻辑,该逻辑当被机器读取时使该机器构造用于执行在本文中描述的技术的逻辑。称作“ip核”的这样的表示可以存储在有形、机器可读介质上且供应到各种消费者或制造设施以加载到实际上制作逻辑或处理器的构造机器中。

虽然已经参照各种实现方式描述了本文中阐述的某些特征,但是该描述不意图以限制性含义来解释。因此,在本文中描述的实现方式的各种修改,以及对本公开属于的领域中的技术人员显然的其他实现方式被视为处于本公开的精神和范围内。

在一个或多个第一实施例中,一种用于执行目标识别的计算机实现方法包括:经由一个或多个卷积神经网络层,基于输入图像数据生成二进制神经特征的集合,其中二进制神经网络特征的集合与响应图的预定子集相关联,所述响应图的预定子集与所述一个或多个卷积神经网络层相关联,并且对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签。

关于第一实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图。

关于第一实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图,其中完整卷积神经网络还包括附加的卷积神经网络层和一个或多个完全连接的神经网络层。

关于第一实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层。

关于第一实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层,其中二进制神经特征的集合经由经部分评估的卷积神经网络层而生成。

关于第一实施例,输入图像数据包括经空间归一化的图像数据,并且其中二进制神经特征的集合包括多个特征向量。

关于第一实施例,生成二进制神经特征的集合包括经由所述一个或多个卷积神经网络层中的第一卷积神经网络层,应用卷积核以及修正线性单元、最大池化操作或局部响应归一化中的至少一个。

关于第一实施例,目标标签包括人体识别目标标签。

关于第一实施例,所述方法还包括基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,以及从可用响应图池确定响应图的预定子集。

关于第一实施例,所述方法还包括基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,从可用响应图池确定响应图的预定子集,以及基于响应图的预定子集而从完整卷积神经网络消除所述一个或多个完全连接的神经网络层和多个第一响应图以生成所述一个或多个卷积神经网络层。

关于第一实施例,所述方法还包括基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,以及从可用响应图池确定响应图的预定子集,其中确定响应图的预定子集包括应用提升技术以基于响应图的预定子集而生成强分类器。

在一个或多个第二实施例中,一种用于执行目标识别的系统包括配置成接收输入图像数据的存储器和耦合到存储器的图形处理单元,图形处理器单元经由一个或多个卷积神经网络层,基于输入图像数据生成二进制神经特征的集合,其中二进制神经网络特征的集合与响应图的预定子集相关联,所述响应图的预定子集与所述一个或多个卷积神经网络层相关联,并且对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签。

关于第二实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图。

关于第二实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图,其中完整卷积神经网络还包括附加的卷积神经网络层和一个或多个完全连接的神经网络层。

关于第二实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层。

关于第二实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层,其中图形处理单元生成二进制神经特征的集合包括图形处理单元经由经部分评估的卷积神经网络层而生成二进制神经特征的集合。

关于第二实施例,输入图像数据包括经空间归一化的图像数据,并且其中二进制神经特征的集合包括多个特征向量。

关于第二实施例,图形处理单元生成二进制神经特征的集合包括图形处理单元经由所述一个或多个卷积神经网络层中的第一卷积神经网络层,应用卷积核以及修正线性单元、最大池化操作或局部响应归一化中的至少一个。

关于第二实施例,目标标签包括人体识别目标标签。

关于第二实施例,图形处理单元还基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,并且从可用响应图池确定响应图的预定子集。

关于第二实施例,图形处理单元还基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,从可用响应图池确定响应图的预定子集,并且基于响应图的预定子集而从完整卷积神经网络消除所述一个或多个完全连接的神经网络层和多个第一响应图以生成所述一个或多个卷积神经网络层。

关于第二实施例,图形处理单元还基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,并且从可用响应图池确定响应图的预定子集,其中图形处理单元确定响应图的预定子集包括图形处理单元应用提升技术以基于响应图的预定子集而生成强分类器。

在一个或多个第三实施例中,一种用于执行目标识别的系统包括:用于经由一个或多个卷积神经网络层,基于输入图像数据生成二进制神经特征的集合的部件,其中二进制神经网络特征的集合与响应图的预定子集相关联,所述响应图的预定子集与所述一个或多个卷积神经网络层相关联,用于对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签的部件,以及用于提供与输入图像相关联的目标标签的部件。

关于第三实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图。

关于第三实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图,其中完整卷积神经网络还包括附加的卷积神经网络层和一个或多个完全连接的神经网络层。

关于第三实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层。

关于第三实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层,其中二进制神经特征的集合经由经部分评估的卷积神经网络层而生成。

关于第三实施例,输入图像数据包括经空间归一化的图像数据,并且其中二进制神经特征的集合包括多个特征向量。

关于第三实施例,用于生成二进制神经特征的集合的部件包括用于经由所述一个或多个卷积神经网络层中的第一卷积神经网络层,应用卷积核以及修正线性单元、最大池化操作或局部响应归一化中的至少一个的部件。

关于第三实施例,目标标签包括人体识别目标标签。

关于第三实施例,所述系统还包括用于基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络的部件,用于基于完整卷积神经网络而生成可用响应图池的部件,以及用于从可用响应图池确定响应图的预定子集的部件。

关于第三实施例,所述系统还包括用于基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络的部件,用于基于完整卷积神经网络而生成可用响应图池的部件,用于从可用响应图池确定响应图的预定子集的部件,以及用于基于响应图的预定子集而从完整卷积神经网络消除所述一个或多个完全连接的神经网络层和多个第一响应图以生成所述一个或多个卷积神经网络层的部件。

关于第三实施例,所述系统还包括用于基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络的部件,用于基于完整卷积神经网络而生成可用响应图池的部件,以及用于从可用响应图池确定响应图的预定子集的部件,其中用于确定响应图的预定子集的部件包括用于应用提升技术以基于响应图的预定子集而生成强分类器的部件。

在一个或多个第四实施例中,至少一种包括多个指令的机器可读介质,所述指令响应于在计算设备上执行而使得计算设备通过以下来执行目标识别:经由一个或多个卷积神经网络层,基于输入图像数据生成二进制神经特征的集合,其中二进制神经网络特征的集合与响应图的预定子集相关联,所述响应图的预定子集与所述一个或多个卷积神经网络层相关联,并且对二进制神经特征的集合应用强分类器以生成用于输入图像数据的目标标签。

关于第四实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图。

关于第四实施例,响应图的预定子集来自与包括卷积神经网络层的完整卷积神经网络相关联的多个可用响应图,其中完整卷积神经网络还包括附加的卷积神经网络层和一个或多个完全连接的神经网络层。

关于第四实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层。

关于第四实施例,所述一个或多个卷积神经网络层包括多个经完全评估的卷积神经网络层和经部分评估的卷积神经网络层,其中二进制神经特征的集合经由经部分评估的卷积神经网络层而生成。

关于第四实施例,输入图像数据包括经空间归一化的图像数据,并且其中二进制神经特征的集合包括多个特征向量。

关于第四实施例,生成二进制神经特征的集合包括经由所述一个或多个卷积神经网络层中的第一卷积神经网络层,应用卷积核以及修正线性单元、最大池化操作或局部响应归一化中的至少一个。

关于第四实施例,目标标签包括人体识别目标标签。

关于第四实施例,所述机器可读介质还包括指令,所述指令响应于在计算设备上执行而使得计算设备通过以下来执行目标识别:基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,并且从可用响应图池确定响应图的预定子集。

关于第一实施例,所述机器可读介质还包括指令,所述指令响应于在计算设备上执行而使得计算设备通过以下来执行目标识别:基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,从可用响应图池确定响应图的预定子集,并且基于响应图的预定子集而从完整卷积神经网络消除所述一个或多个完全连接的神经网络层和多个第一响应图以生成所述一个或多个卷积神经网络层。

关于第四实施例,所述机器可读介质还包括指令,所述指令响应于在计算设备上执行而使得计算设备通过以下来执行目标识别:基于训练图像数据而生成至少包括所述一个或多个卷积神经网络层和一个或多个完全连接的神经网络层的完整卷积神经网络,基于完整卷积神经网络而生成可用响应图池,以及从可用响应图池确定响应图的预定子集,其中确定响应图的预定子集包括应用提升技术以基于响应图的预定子集而生成强分类器。

在一个或多个第五实施例中,至少一个机器可读介质可以包括多个指令,所述指令响应于在计算设备上被执行而使得计算设备执行根据以上实施例中的任一个的方法。

在一个或多个第六实施例中,一种装置可以包括用于执行根据以上实施例中的任一个的方法的部件。

将认识到,实施例不限于如此描述的实施例,而是可以利用修改和更改来实践而不脱离随附权利要求的范围。例如,以上实施例可以包括特征的特定组合。然而,以上实施例在这方面不受限,并且在各种实现方式中,以上实施例可以包括仅着手进行这样的特征的子集、着手进行不同次序的这样的特征、着手进行这样的特征的不同组合,和/或着手进行除了明确列出的那些特征之外的附加特征。因此,应当参照随附权利要求连同这样的权利要求有权享有的等同物的完整范围一起来确定实施例的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1