图像检测方法、装置、系统和计算机可读介质与流程

文档序号：16070675发布日期：2018-11-24 13:10阅读：132来源：国知局

本发明涉及图像检测技术领域，更具体地涉及一种图像检测方法、装置、系统和计算机可读介质。

背景技术

对于图像中某对象的检测(例如人脸检测)，常采用的工具是神经网络。神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据，神经网络能够学习出数据中难以总结的隐藏特征，从而完成多项复杂的任务，如人脸检测，图片分类，物体检测，动作追踪，自然语言翻译等。神经网络已被人工智能界广泛应用。

作为通用物体检测的子问题的人脸检测吸引了学界和工业界的大量兴趣，可应用于互联网金融、在线认证、安防、智能监控等多个领域，成为了人工智能发展最蓬勃的领域之一。人脸检测中最广泛应用的是卷积神经网络。尽管卷积神经网络使得人脸检测达到较高的精确度，其也存在一些缺陷，例如带来了更高的计算复杂度，导致在移动端设备部署时会消耗更大电量，对处理器速度较慢的设备更是无法达到实时检测。

技术实现要素：

为了解决上述问题，本发明提出了一种关于图像检测的方案，其不仅可以用于人脸检测，也可以用于任何目标对象的检测。下面简要描述本发明提出的关于图像检测的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种图像检测方法，所述图像检测方法包括：接收待检测图像；利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应；以及对所述待检测区域进行所述目标对象的检测。

在本发明的一个实施例中，所述图像检测方法还包括：在对所述待检测区域进行所述目标对象的检测之前，将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在本发明的一个实施例中，所述将包含重叠部分的待检测区域进行合并进一步包括：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

在本发明的一个实施例中，所述待检测区域的尺寸与所述目标对象的尺寸相对应包括：大目标对象对应于大区域，小目标对象对应于小区域。

在本发明的一个实施例中，所述图像检测方法还包括：在对所述待检测区域进行所述目标对象的检测之前，将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在本发明的一个实施例中，所述目标对象区域预测神经网络为能够预测图像中包含所述目标对象的区域的轻量型神经网络。

在本发明的一个实施例中，所述目标对象区域预测神经网络的训练基于带有所述目标对象的位置标注的图像数据。

在本发明的一个实施例中，所述目标对象为人脸。

根据本发明另一方面，提供了一种图像检测装置，所述图像检测装置包括：接收模块，用于接收待检测的待检测图像；预测模块，用于利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应；以及检测模块，用于对所述待检测区域进行所述目标对象的检测。

在本发明的一个实施例中，所述图像检测装置还包括：区域合并模块，用于将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在本发明的一个实施例中，所述图像检测装置还包括：尺寸重设模块，用于将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在本发明的一个实施例中，所述区域合并模块进一步用于：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

在本发明的一个实施例中，所述待检测区域的尺寸与所述目标对象的尺寸相对应包括：大目标对象对应于大区域，小目标对象对应于小区域。

在本发明的一个实施例中，所述目标对象区域预测神经网络为能够预测图像中包含所述目标对象的区域的轻量型神经网络。

在本发明的一个实施例中，所述目标对象区域预测神经网络的训练基于带有所述目标对象的位置标注的图像数据。

在本发明的一个实施例中，所述目标对象为人脸。

根据本发明又一方面，提供了一种图像检测系统，所述图像检测系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的图像检测方法。

根据本发明再一方面，提供了一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的图像检测方法。

根据本发明实施例的图像检测方法、装置、系统和计算机可读介质基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的与目标对象的尺寸相对应的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像检测方法、装置、系统和计算机可读介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的图像检测方法的示意性流程图；

图3示出根据本发明另一实施例的图像检测方法的示意性流程图；

图4示出根据本发明实施例的图像检测装置的示意性框图；

图5示出根据本发明另一实施例的图像检测装置的示意性框图；以及

图6示出根据本发明实施例的图像检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的图像检测方法、装置、系统和计算机可读介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用户期望的图像(例如照片、视频等)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的部件采集待检测图像，并将采集的待检测图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的图像检测方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端。

下面，将参考图2描述根据本发明实施例的图像检测方法200。如图2所示，图像检测方法200可以包括如下步骤：

在步骤s210，接收待检测图像。

在一个实施例中，所接收的待检测图像可以为包括待检测的目标对象的图像。在一个示例中，目标对象可以为任意一种类别或多种类别的对象(如人脸、动物、各种物体等)。

在一个示例中，所接收的待检测图像可以为图像采集装置实时采集的原始图像或者对原始图像经过图像预处理之后获得的图像。在其他示例中，所接收的待检测图像也可以为来自任何源的图像。此处，所接收的待检测图像可以为静态的单帧图像数据，也可以为动态的多帧视频数据。

在步骤s220，利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含所述目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应。

在一个实施例中，目标对象区域预测神经网络为能够预测图像中包含或可能包含目标对象的区域的神经网络。例如，人脸区域预测神经网络为能够预测图像中包含或可能包含人脸的区域的神经网络。

在一个示例中，可以采用带有目标对象位置标注的图像数据来训练目标对象区域预测神经网络。例如，可以采用带有人脸位置标注的图像数据来训练人脸区域预测神经网络。

在一个示例中，目标对象区域预测神经网络为轻量型神经网络。轻量型神经网络需要训练的参数少，数据处理速度快。因此，利用轻量型神经网络能够快速高效地预测待检测图像中包含目标对象的区域，提高预测处理的效率，从而提高整个图像检测的效率。

在一个实施例中，目标对象区域预测神经网络所预测的待检测图像中的包含目标对象的区域(也就是待检测区域)的尺寸与待检测图像中的目标对象的尺寸相关联(或相对应)，即，尺寸小的目标对象对应于小区域，中等尺寸的目标对象对应于中区域，尺寸大的目标对象对应于大区域。示例性地，大区域的尺寸范围可以在192×192到384×384之间，例如可将大区域的尺寸定义为256×256；中区域的尺寸范围可以在96×96到192×192之间，例如可将中区域的尺寸定义为128×128；小区域的尺寸范围可以在32×32到96×96之间，例如可将小区域的尺寸定义为64×64。

目标对象区域预测神经网络所输出的预测结果即作为将实施图像检测的区域，如下一步骤将描述的。

在步骤s230，对所述待检测区域进行所述目标对象的检测。

在一个实施例中，可采用针对该目标对象的检测器来对待检测图像中的待检测区域实施对该目标对象的检测。例如，可采用人脸检测器来对待检测图像中的待检测区域实施人脸检测。此外，训练该目标对象的检测器所使用的数据也可以被使用以用于训练前述的目标对象区域预测神经网络，从而节省获取训练数据的时间和成本。

由于在步骤s220中预测出了待检测图像中包含目标对象的区域，故在步骤s230中仅对预测出的区域进行目标对象的检测即可，无需对整个待检测图像进行检测，这样可以大大减小运算量和计算复杂度，提高图像检测的效率。此外，步骤s220中预测出待检测区域与目标对象的尺寸相对应，尺寸小的目标对象对应于小区域，中等尺寸的目标对象对应于中区域，尺寸大的目标对象对应于大区域，因此进行目标对象检测时仅预测目标对象尺寸大小的区域，无需检测任何多余的区域，进一步减少了运算量。

基于上面的描述，根据本发明实施例的图像检测方法基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的与目标对象的尺寸相对应的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。

在一个实施例中，根据本发明实施例的图像检测方法还可以包括如下步骤(未在图2中示出)：在对所述待检测区域进行所述目标对象的检测之前，将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在经目标对象区域预测神经网络所预测的所述待检测图像中的待检测区域中，可能包含重叠的区域，可以将包含重叠部分的区域合并，以减少碎片区域，整体上减少需要检测的区域，进一步减少计算量，提高图像检测的速度。

在又一个实施例中，根据本发明实施例的图像检测方法还可以包括如下步骤(未在图2中示出)：在对所述待检测区域进行所述目标对象的检测之前，将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在待测图像中可能包括各种尺寸的目标对象。不同尺寸的目标对象可导致预测出的包含该目标对象的待检测区域尺寸的不同。换言之，待检测图像中待检测区域的尺寸可以与待检测图像中的目标对象的尺寸相关联，如前文所述的。可以根据需求(例如考虑计算量、检测精确度等需求)设置预设尺寸，如果所预测出的待检测区域的尺寸大于该预设尺寸，可将该待检测区域重设为等于或小于该预设尺寸的大小的区域以用于目标对象的检测。例如，以前述的小区域的尺寸的大小作为预设尺寸，可将前述的大区域和中区域均重设为小区域。这是因为，较大尺寸的目标在被调整为小尺寸目标时仍然能够较容易被检测到，因此可将大区域的尺寸重设为较小的尺寸以进行目标对象的检测，可以进一步减少计算量，从而进一步提高图像检测的速度。

下面参考图3描述根据本发明实施例的图像检测方法300。如图3所示，图像检测方法300可以包括如下步骤：

在步骤s310，接收待检测图像。

在步骤s320，利用训练好的目标对象区域预测神经网络预测待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应。

在步骤s330，将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在步骤s340，将待检测区域中大于预设尺寸的区域重设为等于或小于预设尺寸的区域以用于目标对象的检测。

在步骤s350，对待检测区域进行目标对象的检测。

其中，步骤s310、s320和s350分别与上文中结合图2所描述的图像检测方法200的步骤s210、s220和s230类似，步骤s330和步骤s340分别与上文描述的两个实施例中的步骤类似，为了简洁，此处不再赘述。值得注意的是，图像检测方法300可以不包括上述步骤中的全部而得以实现。例如，图像检测方法300可以仅包括步骤s310、s320、s330和s350，或者仅包括步骤s310、s320、s340和s350。此外，图像检测方法300的上述步骤中的顺序也可以根据需要进行调整。例如，步骤s330也可以位于步骤s340之后。

在一个实施例中，步骤s330中将包含重叠部分的待检测区域进行合并可以进一步包括：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

例如，对于同尺寸(大，中，小)区域，初始选定任意区域，并遍历其他所有区域。若存在某区域与该区域重叠大于预定阈值，则合并两区域，并将选定区域设为合并后区域，从待选集合中删除合并前区域。若没有任何区域重叠大于阈值，则将选定区域加入输出集合，并从剩余待选区域中选定任意区域，并重复上述合并过程。

上述合并过程可以高效地合并包含重叠部分的待检测区域，并且重复的迭代过程易于实现。

基于上面的描述，根据本发明实施例的图像检测方法基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的与目标对象的尺寸相对应的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。此外，根据本发明实施例的图像检测方法还可将待检测区域中包含重叠部分的区域合并、和/或将大尺寸区域重设为小尺寸区域，使得最终用于进行图像检测的区域进一步得到精简，从而进一步提高图像检测的速度和效率。

以上示例性地描述了根据本发明实施例的图像检测方法。示例性地，根据本发明实施例的图像检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的图像检测方法处理速度快，可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的图像检测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的图像检测方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图4描述本发明另一方面提供的图像检测装置。图4示出了根据本发明实施例的图像检测装置400的示意性框图。

如图4所示，根据本发明实施例的图像检测装置400包括接收模块410、预测模块420以及检测模块430。所述各个模块可分别执行上文中结合图2描述的图像检测方法的各个步骤/功能。以下仅对图像检测装置400的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

接收模块410用于接收待检测图像。预测模块420用于利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应。检测模块430用于对所述待检测区域进行所述目标对象的检测。接收模块410、预测模块420以及检测模块430均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个实施例中，接收模块410所接收的待检测图像可以为包括待检测的目标对象的图像。在一个示例中，目标对象可以为任意一种类别或多种类别的对象(如人脸、动物、各种物体等)。

在一个示例中，接收模块410所接收的待检测图像可以为图像采集装置实时采集的原始图像或者对原始图像经过图像预处理之后获得的图像。在其他示例中，接收模块410所接收的待检测图像也可以为来自任何源的图像。此处，接收模块410所接收的待检测图像可以为静态的单帧图像数据，也可以为动态的多帧视频数据。

在一个实施例中，预测模块420所利用的目标对象区域预测神经网络为能够预测图像中包含或可能包含目标对象的区域的神经网络。例如，当需要进行人脸检测时，预测模块420采用人脸区域预测神经网络，人脸区域预测神经网络为能够预测图像中包含或可能包含人脸的区域的神经网络。

在一个示例中，目标对象区域预测神经网络的训练可以基于带有目标对象位置标注的图像数据。例如，可以采用带有人脸位置标注的图像数据来训练人脸区域预测神经网络。

在一个示例中，预测模块420所利用的目标对象区域预测神经网络为轻量型神经网络。轻量型神经网络需要训练的参数少，数据处理速度快。因此，利用轻量型神经网络能够快速高效地预测待检测图像中包含目标对象的区域，提高预测处理的效率，从而提高整个图像检测的效率。

在一个实施例中，目标对象区域预测神经网络所预测的待检测图像中的包含目标对象的区域(也就是待检测区域)的尺寸与待检测图像中的目标对象的尺寸相关联(或相对应)，即，尺寸小的对象对应于小区域，中等尺寸的目标对象对应于中区域，尺寸大的目标对象对应于大区域。示例性地，大区域的尺寸范围可以在192×192到384×384之间，例如可将大区域的尺寸定义为256×256；中区域的尺寸范围可以在96×96到192×192之间，例如可将中区域的尺寸定义为128×128；小区域的尺寸范围可以在32×32到96×96之间，例如可将小区域的尺寸定义为64×64。

在一个实施例中，检测模块430可采用针对该目标对象的检测器来对待检测图像中的待检测区域实施对该目标对象的检测，或者检测模块430可以实现为该目标对象的检测器。例如，当需要检测人脸时，检测模块430可采用人脸检测器来对待检测图像中的待检测区域实施人脸检测，或者检测模块430可以实现为人脸检测器。此外，训练该目标对象的检测器所使用的数据也可以被使用以用于训练前述的目标对象区域预测神经网络，从而节省获取训练数据的时间和成本。

由于预测模块420预测出了待检测图像中包含目标对象的区域，故检测模块430仅对预测出的区域进行目标对象的检测即可，无需对整个待检测图像进行检测，这样可以大大减小运算量和计算复杂度，提高图像检测的效率。此外，预测模块420预测出待检测区域与目标对象的尺寸相对应，尺寸小的目标对象对应于小区域，中等尺寸的目标对象对应于中区域，尺寸大的目标对象对应于大区域，因此检测模块430进行目标对象检测时仅预测目标对象尺寸大小的区域，无需检测任何多余的区域，进一步减少了运算量。

基于上面的描述，根据本发明实施例的图像检测装置基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。

在一个实施例中，根据本发明实施例的图像检测装置还可以包括区域合并模块(未在图4中示出)，其用于将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在预测模块420所预测的所述待检测图像中的待检测区域中，可能包含重叠的区域，区域合并模块可以将包含重叠部分的区域合并，以减少碎片区域，整体上减少检测模块430需要检测的区域，进一步减少计算量，提高图像检测的速度。

在又一个实施例中，根据本发明实施例的图像检测装置还可以包括尺寸重设模块(未在图4中示出)，其用于将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在待测图像中可能包括各种尺寸的目标对象。不同尺寸的目标对象可导致预测出的包含该目标对象的待检测区域尺寸的不同。换言之，待检测图像中待检测区域的尺寸可以与待检测图像中的目标对象的尺寸相关联，如前文所述的。可以根据需求(例如考虑计算量、检测精确度等需求)设置预设尺寸，如果所预测出的待检测区域的尺寸大于该预设尺寸，尺寸重设模块可将该待检测区域重设为等于或小于该预设尺寸的大小的区域以用于目标对象的检测。例如，以前述的小区域的尺寸的大小作为预设尺寸，可将前述的大区域和中区域均重设为小区域。这是因为，较大尺寸的目标在被调整为小尺寸目标时仍然能够较容易被检测到，因此可将大区域的尺寸重设为较小的尺寸以进行目标对象的检测，可以进一步减少计算量，从而进一步提高图像检测的速度。

下面结合图5描述根据本发明另一实施例的图像检测装置500。

如图5所示，根据本发明实施例的图像检测装置500包括接收模块510、预测模块520、区域合并模块540、尺寸重设模块550以及检测模块530。所述各个模块可分别执行上文中结合图3描述的图像检测方法的各个步骤/功能。

其中，接收模块510、预测模块520和检测模块530分别与上文中结合图4所描述的图像检测装置400的接收模块410、预测模块420和检测模块430类似，区域合并模块540和尺寸重设模块550分别与上文描述的两个实施例中的区域合并模块和尺寸重设模块类似，为了简洁，此处不再赘述。值得注意的是，图像检测装置500可以不包括上述模块中的全部而得以实现。例如，图像检测装置500可以仅包括接收模块510、预测模块520、区域合并模块540以及检测模块530，或者仅包括接收模块510、预测模块520、尺寸重设模块550以及检测模块530。

在一个实施例中，区域合并模块540将包含重叠部分的待检测区域进行合并可以进一步包括：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

上述合并过程可以高效地合并包含重叠部分的待检测区域，并且重复的迭代过程易于实现。

基于上面的描述，根据本发明实施例的图像检测装置基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的与目标对象的尺寸相对应的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。此外，根据本发明实施例的图像检测装置还可将待检测区域中包含重叠部分的区域合并、和/或将大尺寸区域重设为小尺寸区域，使得最终用于进行图像检测的区域进一步得到精简，从而进一步提高图像检测的速度和效率。

图6示出了根据本发明实施例的图像检测系统600的示意性框图。图像检测系统600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的图像检测方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的图像检测方法的相应步骤，并且用于实现根据本发明实施例的图像检测装置中的相应模块。此外，图像检测系统600还可以包括图像采集装置(未在图6中示出)，其可以用于采集待检测图像。当然，图像采集装置不是必需的，可直接接收来自其他源的待检测图像的输入。

在一个实施例中，在所述程序代码被处理器620运行时使得图像检测系统600执行以下步骤：接收待检测图像；利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应；以及对所述待检测区域进行所述目标对象的检测。

在一个实施例中，在所述程序代码被处理器620运行时还使得图像检测系统600执行以下步骤：在对所述待检测区域进行所述目标对象的检测之前，将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在一个实施例中，在所述程序代码被处理器620运行时还使得图像检测系统600执行的所述将包含重叠部分的待检测区域进行合并进一步包括：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

在一个实施例中，所述待检测区域的尺寸与所述目标对象的尺寸相对应包括：大目标对象对应于大区域，小目标对象对应于小区域。

在一个实施例中，在所述程序代码被处理器620运行时还使得图像检测系统600执行以下步骤：在对所述待检测区域进行所述目标对象的检测之前，将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在一个实施例中，所述目标对象区域预测神经网络为能够预测图像中包含所述目标对象的区域的轻量型神经网络。

在一个实施例中，所述目标对象区域预测神经网络的训练基于带有所述目标对象的位置标注的图像数据。

在一个实施例中，所述目标对象为人脸。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像检测方法的相应步骤，并且用于实现根据本发明实施例的图像检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含接收待检测图像的计算机可读的程序代码，另一个计算机可读存储介质包含预测所述待检测图像中包含目标对象的与所述目标对象的尺寸相对应的区域以作为待检测区域的计算机可读的程序代码，又一个计算机可读存储介质包含对所述待检测区域进行所述目标对象的检测的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的图像检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的图像检测方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：接收待检测图像；利用训练好的目标对象区域预测神经网络预测所述待检测图像中包含目标对象的区域以作为待检测区域，且所述待检测区域的尺寸与所述目标对象的尺寸相对应；以及对所述待检测区域进行所述目标对象的检测。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：在对所述待检测区域进行所述目标对象的检测之前，将包含重叠部分的待检测区域进行合并以生成合并后的待检测区域替换所述包含重叠部分的待检测区域。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行的所述将包含重叠部分的待检测区域进行合并进一步包括：从所述目标对象区域预测神经网络预测的待检测区域集合中选定任意区域作为选定区域，并遍历其他所有区域；确定所述其他所有区域中是否存在与所述选定区域之间的重叠大于预定阈值的待合并区域；如果存在所述待合并区域，则将所述待合并区域与所述选定区域合并，并从所述待检测区域集合中删除所述待合并区域和所述选定区域，并将合并后的区域作为新的选定区域重复执行上述操作；如果不存在所述待合并区域，则将所述选定区域加入用于执行所述目标对象的检测的输出集合，并从剩余待检测区域中选定任意区域作为新的选定区域重复上述操作。

在一个实施例中，所述待检测区域的尺寸与所述目标对象的尺寸相对应包括：大目标对象对应于大区域，小目标对象对应于小区域。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：在对所述待检测区域进行所述目标对象的检测之前，将所述待检测区域中大于预设尺寸的区域重设为等于或小于所述预设尺寸的区域以用于所述目标对象的检测。

在一个实施例中，所述目标对象区域预测神经网络为能够预测图像中包含所述目标对象的区域的轻量型神经网络。

在一个实施例中，所述目标对象区域预测神经网络的训练基于带有所述目标对象的位置标注的图像数据。

在一个实施例中，所述目标对象为人脸。

根据本发明实施例的图像检测装置中的各模块可以通过根据本发明实施例的图像检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的图像检测方法、装置、系统以及存储介质基于训练好的目标对象区域预测神经网络预测图像中包含目标对象的与目标对象的尺寸相对应的区域作为待检测区域，使得大量无用的背景区域被除去，大大减小了对目标对象的检测处理区域，从而能够显著提高图像检测的速度和效率。此外，根据本发明实施例的图像检测方法、装置、系统以及存储介质还可将待检测区域中包含重叠部分的区域合并、和/或将大尺寸区域重设为小尺寸区域，使得最终用于进行图像检测的区域进一步得到精简，从而进一步提高图像检测的速度和效率。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖特特
技术所有人：北京旷视科技有限公司;北京迈格威科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。