检测视频图像中的目标的方法和装置的制作方法

文档序号:6579568阅读:124来源:国知局
专利名称:检测视频图像中的目标的方法和装置的制作方法
技术领域
本发明涉及图像处理技术,具体地,涉及一种检测视频图像中的目标的方法和装置。
背景技术
图像中的物体检测技术是计算机视觉的一个重要分支。同一类物体之间存在或多 或少的外形上的差异,在成像时受到光照、视角、姿态等多重因素的影响在图像中可能产生 出截然不同的状态,这给图像中的物体检测技术带来很大困难。视频图像中的物体检测技术又有其自身的特点,一般来说视频图像的图像质量要 差许多,分辨率低、存在运动模糊、噪点显著等,给目标检测带来了新的困难。当目标的检测 和分类在视频图像中进行时,由于图像质量的下降和运动模糊等噪声的存在,处理性能会 有较大下降。

发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理 解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。根据本发明的一个方面,提供了一种检测视频图像中的目标的方法,所述方法包 括帧检测步骤对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目 标及其置信度;及合并步骤对所述多帧图像中的第一候选目标及其置信度进行合并,得 到目标帧中的一个或多个第二候选目标。根据本发明的另一方面,提供了一种检测视频图像中的目标的装置,该装置包括 目标检测与分类器,用于对视频序列中包括目标帧的多帧图像进行检测,以得到一个或多 个第一候选目标及其置信度;以及合并模块,用于对所述多帧图像中的第一候选目标的置 信度进行合并,以得到目标帧中的一个或多个第二候选目标。另外,本发明的实施例还提供了用于实现上述检测视频图像中的目标的方法的计 算机程序。此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述检测视频图像中的目标的方法的计算机程序代码。


参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。图1-6分别是示出了根据本发明实施例的检测视频图像中的目标的方法的示意性流程图;图7和图8是示出了检测视频图像中的目标的方法的一个应用示例的流程图;图9-13分别是示出了根据本发明实施例的检测视频图像中的目标的装置的示意 性框图;图14是示出了根据本发明一个实施例的目标检测与分类器的结构的示意性框 图;图15是示出了目标检测与分类器的一个应用示例的示意性框图;及图16是示出用于实现本发明的计算机的结构的示例性框图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。图1是示出了根据本发明的一个实施例的检测视频图像中的目标的方法的示意 流程图。如图1所示,该方法可包括下文所述的步骤SlOl和S103。步骤SlOl用于对多帧图像进行检测,也称为帧检测步骤。具体而言,在该步骤中, 在获取要检测的视频图像序列中的包括目标帧的多帧图像后,对多帧图像分别进行检测, 得到一个或多个候选目标(为了叙述方便,下文中称为第一候选目标)及其置信度。在步骤S103中,将在步骤SlOl中检测到的所述多帧图像中的第一候选目标及其 置信度进行合并,从而得到目标帧中的一个或多个候选目标(为了叙述方便,下文中称为 第二候选目标)。步骤S103也称为合并步骤。所获取的多帧图像可以是在时间上连续的,也可以是在时间上不连续的。为了方 便叙述,假设对视频序列中的P帧图像Image0, ... , Imagei,... , Imagep^1分别进行处理,其 中Imagei为目标帧,P为整数且P > 1,i = 0,· · ·,P-1。例如,可以利用目标帧Imagei之前的 多帧图像ImageH,Image^2,· · ·,也可以利用该帧之后的多帧图像Imagei+1,Imagei+2,· · ·, 还可以利用该帧前后的多帧图像... ,Image^2, Image^1, Imagei+1, Imagei+2, · · ·。选取的图 像帧数也可以根据实际应用而定。应理解,本发明不应被视为局限于任何具体的实施例或 示例。还应理解,可以采用目标检测与分类器对图像进行检测。所述目标检测与分类器 可以采用任何适当的技术来实现,这里省略对它的描述。作为一个示例,检测得到的候选目标的信息可以包括各候选目标在每帧图像中的 位置、尺寸和置信度等。在一个示例中,目标检测与分类器在对输入的图像样本进行处理后 可以输出响应值,例如,所述响应值可以是一个0到1之间的数,当然,也可以是其他数值。 根据所述响应值,可以确定相应的置信度的值。可以采用任何适当的方法、利用所述响应值 来确定目标或候选目标的置信度,这里不再赘述。在一个示例中,所采用的目标检测与分类器可以用固定尺寸的图像样本作为输 入。在该情况下,输入到目标检测与分类器且可为目标检测与分类器接受的图像样本在原图像中的位置及其尺寸即可作为输出的候选目标在原图像中的位置及尺寸。在一个示例中,将检测到的所述多帧图像中的第一候选目标及其置信度进行合并 的步骤可以包括根据在步骤SlOl中所检测到的第一候选目标在各帧图像中的位置和尺 寸,将各图像中位置相邻、尺寸相近的候选目标的置信度合并。在本文所描述的各实施例和/或示例中,所述目标或者候选目标可以是静止目 标,也可以是运动目标。在运动目标的情况下,同一目标在多个图像帧中的位置和尺寸是 变化的。例如,当目标由远及近时,其在按时间顺序排列的各图像中的尺寸会越来越大,而 所检测到的其在各图像中位置也会根据其运动方向而变化;反之亦然。在静止目标的情况 下,在对包括该静止目标的多帧图像进行检测时,由于图像质量等因素,也可能导致检测到 的位置在各种图像中略有不同。在本文所描述的各实施例和/或示例中,所谓的“位置相邻尺寸相近”是指在各帧 图像中检测到的候选目标所对应的区域具有相邻的中心位置和大小相近的尺寸。例如,中 心位置相邻可以指各中心位置相差一个或多个像素,本领域的技术人员可以理解,像素数 可以根据实际需要检测的目标状态(如运动速度、方向等)而定。这里不一一列举。又如, 尺寸相近可以指尺寸相差一个或多个像素。本领域的技术人员可以理解,这里相差的像素 数可以根据实际需要检测的目标状态(如目标大小、运动速度等)而定。这里不一一列举。 作为一个例子,取决于应用的场景,例如可以先验地知晓对象的可能路径和可能速度,则可 以据此设定相邻帧之间视为同一目标的候选目标的中心位置和尺寸变化的范围。在一个示例中,还可以根据步骤S103中的合并结果来确定在目标帧(如图像 Imagei)中是否存在目标。例如,如果合并结果大于或等于某一预定的阈值(称为第一阈 值),则确定在图像Imagei的相应位置上存在目标;否则,则确定在图像Imagei的相应位置 上不存在目标。在某些情况下,P帧图像中的某些帧图像中可能没有检测到对应的候选目标。在 这些情况下,在进行合并时,可以默认对这些帧进行检测得到的置信度值为0。在一个示例中,对置信度进行合并的步骤可以包括计算各置信度的和。在另一个 示例中,对置信度进行合并的步骤可以包括将各置信度归一化,并对归一化后的置信度求 和或求平均值。在一个示例中,对置信度进行合并的步骤可以包括计算各置信度的平均 值。应理解,在此所述的对置信度进行合并的方法仅仅是示例性的,并非意欲将本发明限制 于此。在本发明的范围内,本领域的普通技术人员可以利用各种其他适当的合并方法(例 如计算直方图等)对所述置信度进行合并。在上述方法中,通过综合连续多帧图像(如Image0, ... , Imagei,... , Imagep^1)的 检测和分类信息来得到其中目标帧(如Imagei)的结果。这样,对该帧单独进行检测时置 信度较低的响应可以通过前后帧的支持而得到强化,从而能够被检测出来。而随机性出现 的虚假响应也会因为得不到连续帧的持续支持而被抑制。与仅仅利用单帧图像相比,利用 连续的视频图像序列可提高检测或分类的效果。在一个示例中,为了检测多类目标,可以采用包括多个子分类器的目标检测与分 类器。图14示出了这种目标检测与分类器的示意性结构框图。如图14所示,该目标检测 和分类器可以包括N个子分类器(N> 1),其中每个子分类器可以检测一类目标。子分类 器的数量N可以根据实际应用中需要检测的目标类别的数量来设置。另外,本领域的普通技术人员应理解,上述及下文实施例和或示例中的子分类器可以采用任何适用的技术来实 现,这里省略了对它们的详细描述。在一个示例中,当使用用于检测不同类别的目标的多个子分类器时,还可以判定 目标的类别。例如,当将某个图像样本输入多个子分类器后,如果某个子分类器输出一定的 置信度而其他子分类器输出的置信度为0,则可以根据输出该置信度的子分类器所对应的 类别来确定目标的类别,而该置信度则作为该目标的置信度。如果有多于一个的子分类器 输出一定的置信度,则可以根据最大置信度值所对应的类别(即输出最大置信度值的子分 类器所对应的类别)来确定该目标的类别;在这种情况下,可以将最大的置信度作为该目 标的置信度,也可以将各子分类器输出的置信度值合并。如果存在两个或更多个置信度值 与最大值相等且分别对应于不同的类别,则可将此目标的类别属性标记为“不确定”,在这 种情况下,可以将最大的置信度作为该目标的置信度,也可以将各子分类器输出的置信度 值合并。另外,在对置信度的合并处理中可以忽略各候选目标的属性。例如,在对所检测到 的多帧图像中的第一候选目标及其置信度进行合并时,可以将各第一候选目标的置信度合 并,而不考虑其目标属性。又如,在对于某个图像样本存在多于一个的子分类器输出一定的 置信度的情况下,可以将这些子分类器输出的各置信度合并作为相应候选目标的置信度, 而不考虑各子分类器的属性。对置信度进行合并的方法可以如前所述的那样进行求和、求 平均值、对归一化后的置信度求和或求平均值等,这里不一一列举。在该方法中,由于综合了多帧图像的检测信息,因此,对目标类别属性的检测具有 良好的鲁棒性。另外,应当注意,上文中所谓的“第一候选目标”和“第二候选目标”以及下文将要 提到的“第三候选目标”和“第四候选目标”等用语仅仅是为了区分处理过程中不同阶段的 检测和处理结果,与候选目标的类别无关。图2是示出了根据本发明的另一实施例的检测视频图像中的目标的方法的示意 流程图。图2所示的实施例与图1所示的实施例类似。不同之处在于,在图2所示的实施 例中,在该对各帧图像进行检测的过程中还包括对每帧图像进行遍历处理,从而使得检测 结果更准确。在步骤S201中,利用预定的窗口(下文称作第一窗口)以预定的步长(下文称作 第一步长)对多帧图像中的每帧图像进行遍历,并对所得到的每个窗口图像进行检测,得 到一个或多个候选目标(下文称第三候选目标)及其置信度。为了叙述方便,步骤S201也 称为第一遍历步骤。在步骤S203中,将位置相邻尺寸相近的第三候选目标及其置信度合并,作为第一 候选目标及其置信度。为了叙述方便,步骤S203也称为第一遍历结果合并步骤。当在步骤S201和S203中对多帧图像中的每帧图像进行了上述遍历与合并处理之 后,则执行步骤S205。步骤S205与图1所示的步骤S103类似,这里不再赘述。在该实施例中,对每帧图像进行遍历,并将对得到的所有窗口图像的检测结果合 并,作为对该图像的检测结果。作为一个示例,遍历所使用的窗口的尺寸可以根据所使用的 目标检测与分类器能够检测的图像样本的尺寸来确定。假设在图像的某一区域中存在待检测的目标,则在对该图像进行遍历时该目标可能会被多个遍历窗口“框”到。换言之,可能 会有多个窗口图像包含该目标的全部或部分,对这些窗口图像进行检测则可得到对应于该 同一目标的多个第三候选目标及其置信度。这些第三候选目标即属于位置相邻尺寸相近的 候选目标。在这种情况下,可以在步骤S203中将这些位置相邻尺寸相近的第三候选目标及 其置信度合并。上文中已经说明了对置信度进行合并的方法,这里不再赘述。在一个示例中,在执行了步骤S203之后,所述方法还可以包括一个第一判断步 骤。具体而言,在第一判断步骤中,判断位置相邻尺寸相近的第三候选目标的置信度的合并 结果是否小于某一预定的阈值(称为第二阈值),如果是,则丢弃该合并结果,否则保留该 合并结果,作为第一候选目标的置信度。所得到的第一候选目标所对应的区域可以与具有 最大置信度的第三候选目标的区域相对应,还可以覆盖所有对应的第三候选目标的区域。在图2所示的实施例中,利用窗口对每帧图像作遍历,处理过程比图1所示的实施 例复杂,但检测结果更为准确。在一个示例中,所述窗口可以是矩形窗口,其尺寸可以根据 实际需要而定。所述第一步长也可以根据实际需要而定,例如,该步长可以是一个或多个像 素,还可以与当前窗口的尺寸成比例关系。所述遍历的顺序和方式也是任意的,可以是从左 到右、从上到下的,还可以是从右到左、从下到上的。本发明对此不作任何限制。图3是示出了根据本发明的另一实施例的检测视频图像中的目标的方法的示意 流程图。图3所示的实施例与图2所示的实施例相似。不同之处在于,在图3的实施例中, 在进行了第一遍历步骤之后,对可能存在目标的区域还要更精细的遍历,从而使检测结果 更为准确。如图3所示,步骤S301-S302与图2所示实施例中的步骤S201-S203相似,分别为
第一遍历步骤和第一遍历结果合并步骤,这里不再重复。在步骤S305中,根据步骤S303 (即第一遍历结果合并步骤)中得到的合并结果, 建立每帧图像的一个或多个关注区域ROI (Regions OfInterest)。每个关注区域ROI覆盖 与相应的第三候选目标的合并结果对应的区域。步骤S305也可以称为关注区域建立步骤。在步骤S307中,利用预定的窗口(下文称作第二窗口)以预定的步长(下文称作 第二步长)对每个关注区域进行遍历,对所得到的每个窗口图像进行检测,得到一个或多 个候选目标(下文称为第四候选目标)。步骤S307也可以称为第二遍历步骤。在一个实施例中,可以通过将与合并结果对应的区域适当地扩大来确定每个关注 区域,即适度扩大第二遍历的范围。这样,能够进一步降低漏检和误检的可能性,因此能够 进一步提高检测的准确度。例如,如果与合并结果对应的区域是矩形的,则可以根据目标的 大小、运动速度和方向等将该区域在长度和宽度上分别扩展一个或多个像素,从而获得对 应的关注区域。又如,如果与合并结果对应的区域是圆形的,则可以根据目标的大小、运动 速度和方向等将该区域在半径扩展一个或多个像素,从而获得对应的关注区域。第二遍历的方式可以与步骤S201中的第一遍历的方式相似,这里不再赘述。第二 窗口在尺寸或形状上可以与第一窗口相同,也可以不同。为了进行更精细的遍历,第二步长 可以小于第一步长。在其他示例中,第二步长也可以等于或大于第一步长。在一个示例中, 可以避免重复遍历,即,在第一窗口和第二窗口大小相同而步长不同的情况下,避免重复搜 索已经搜索过的窗口位置,从而加快处理的速度。在步骤S309中,将位置相邻尺寸相近的第三候选目标和第四候选目标及其置信度合并,作为第一候选目标及其置信度。步骤S309也称为第二遍历结果合并步骤。步骤S311与步骤S205或S103相同,这里不再赘述。在一个示例中,在执行了步骤S303之后、执行步骤S305之前,所述方法还可以包 括第一判断步骤。具体而言,在第一判断步骤中,判断位置相邻尺寸相近的第三候选目标 的置信度的合并结果是否小于某一预定的阈值(称为第三阈值),如果是,则丢弃该合并结 果,否则保留该合并结果并执行步骤S305,以根据该合并结果来建立ROI。在一个示例中,在执行步骤S309之后,所述方法还可以包括第二判断步骤。具体 而言,在第二判断步骤中,如果位置相邻尺寸相近的第四候选目标的置信度合并结果小于 某一预定的阈值(称为第四阈值),则丢弃该合并结果,否则,保留该合并结果,作为第一候 选目标的置信度。所得到的第一候选目标所对应的区域可以与具有最大置信度的第四候选 目标的区域相对应,还可以覆盖所有对应的第四候选目标的区域。在上述实施例中,对图像进行了两次遍历(对图像的第一遍历步骤和对ROI的第 二遍历步骤)。通过建立每帧图像的一个或多个R0I、对各ROI进行更精细的遍历,可以进 一步提高目标检测的准确度。图4是示出了根据本发明的另一实施例的检测视频图像中的目标的方法的示意 流程图。图4所示的实施例与图2所示的实施例相似。不同之处在于,在图4所示的实施 例中,第一遍历步骤还包括建立每帧图像的多尺度金字塔图像并对每帧图像的多尺度金字 塔图像进行处理的过程,以进一步提高检测的准确度,减少漏检和误检。所谓的多尺度金字 塔图像是基于原图像的尺度(即尺寸)连续变化生成的一组图像,尺度相邻的两图像间的 尺寸相差一个常数因子。将原图缩小或放大生成其他尺度图像时,可以添加其他处理,例如 高斯滤波,所得新图像因其施加的预处理算法和尺度缩放算法的不同而有差异,这里不再 详述。如图4所示,在步骤S401中,建立多帧图像中每帧图像的多尺度金字塔图像(假 设该金字塔图像包括K层,K > 1)。为了叙述方便,该步骤S410也称为帧金字塔建立步骤。所述多尺度金字塔图像可以采用任何适当的方法来建立,在此省略对其的描述。 所述金字塔图像的层数可以根据实际应用的需要来设定,本发明不对其作任何限定。在步骤403中,利用预定的窗口(为了叙述简明,这里假设采用第一窗口)以预定 的步长(为了叙述简明,这里假设采用第一步长)对金字塔图像中的每个进行遍历,对所得 到的每个窗口图像进行检测,从而得到一个或多个候选目标(为了叙述简明,这里也称为 第三候选目标)及其置信度。步骤S403也称为第三遍历步骤。第三遍历的方式可以与步 骤S201中的第一遍历的方式相似,这里不再赘述。在一个示例中,可以将对金字塔图像进 行检测而得到的第三候选目标所对应的区域映射到原图像中,从而确定第三候选目标在原 图像中所对应的区域。步骤S405-S407与图2所示实施例中的步骤S203-S205相似,这里不再重复。在图4所示的方法中,通过建立图像的多尺度金字塔图像并对金字塔图像进行遍 历和检测,可以进一步提高对视频图像进行多目标检测的准确度,减少漏检和误检的可能 性。图5是示出了根据本发明的另一实施例的检测视频图像中的目标的方法的示意 流程图。图5所示的实施例与图4所示的实施例相似。不同之处在于,在图5所示的实施例中,第三遍历步骤是从所建立的金字塔图像中的最小尺寸的图像开始处理的。每隔一定的 尺度跨度即进行一次阶段性的置信度合并。如果该阶段性合并结果足够大(即合并的置信 度足够高),则可以建立目标掩模Mask,该目标掩模对应于相应的候选目标。这样,在对剩 余的金字塔图像进行处理时,可以不处理这些目标掩模所对应的区域,以便加快检测速度。如图5所示,步骤S501与图4所示实施例中的步骤S401相似,这里不再重复。为了 叙述方便,假设图像Imagei的多尺度金字塔图像包括K层,即Pyramid。,· · .,Pyramid」,· ·., Pyramid^,其中,j = 0,. . .,K-I, K > 1。步骤S503与步骤S403相似。不同之处在于,在步骤S503中,遍历是从最小尺寸 (即分辨率最低)的金字塔图像开始的。假设Pyramidtl为金字塔图像中最小尺寸的图像, 从0到K-I依次递增,Pyramid^为金字塔图像中最大尺寸(即分辨率最高)的图像。为了 叙述方便,将步骤S503分为两个子步骤S5031、S5032。在步骤S5031中,从Pyramid。开始对金字塔图像中的每个图像进行遍历,对所 得到的每个窗口图像进行检测,从而得到一个或多个第三候选目标。当处理完N个图像 Pyramid0, · · ·,Pyramid^1 (N < K)时,执行步骤S5032。为了叙述方便,步骤S5031也称为
第三遍历步骤。在步骤S5032中,基于对金字塔图像中的N个图像Pyramid。,... , Pyrami C^1 (1彡N <K)进行检测而得到的一个或多个第三候选目标,建立一个或多个目标掩模Mask。每个目 标掩模Mask的区域可根据相应的第三候选目标的区域来确定。例如目标掩模可以覆盖相 应的第三候选目标,也可以近似等于或小于相应的第三候选目标的区域。然后,重复执行步 骤S5031对剩余的K-N个图像进行处理,在处理过程中,将所述目标掩模Mask所对应的区 域作为不处理的区域。为了叙述方便,步骤S5032也称为掩模建立步骤。上述步骤S5031和S5032可以反复执行,直到处理完金字塔图像中的所有K层图 像,得到一个或多个第三候选目标及其置信度。上述实施例根据阶段性检测结果来建立目标掩模,并在后续处理中不处理目标掩 模所对应的区域。这样可以加快检测的速度。但是,如果目标掩模设置得过大,则在后续处 理中可能会增大漏检的可能性。在一个示例中,可以通过将与相应第三候选目标的区域适 当地缩小来确定所述目标掩模Mask,从而避免出现因目标掩模过大而导致的漏检。例如,如 果与相应第三候选目标对应的区域是矩形的,则可以根据目标的大小、运动速度和方向等 将该区域在长度和宽度上分别缩小一个或多个像素,从而获得对应的目标掩模。又如,如果 与相应第三候选目标对应的区域是圆形的,则可以根据目标的大小、运动速度和方向等将 该区域在半径缩小一个或多个像素,从而获得对应的目标掩模Mask。另外,目标掩模虽然是在当前尺度的图象中确定的,但其代表了在图像中确定的 相对位置和相对大小。也就是说,在对后续的金字塔图像处理时,由于图像尺度的变化,需 要将目标掩模Mask分别映射到剩余的K-N个金字塔图像PyramidN,. . .,Pyrami C^1,从而获 得在当前尺度金字塔图像中的掩模区域MaskN,Maslv1,但它们在图像中的相对位置和 大小并未改变。基于这个理由,在下文中,不再重复描述上述映射步骤。另外可以用“目标 掩模”指称所有后续金字塔图像中的所有对应的掩模区域。作为一个示例,在步骤S5032中还可以包括一个合并判断步骤,即将从所述N个图 像Pyramidtl,... , Pyramid,^中得到的位置相邻尺寸相近的第三候选目标合并,如果合并结果大于或等于预定的阈值(称为第五阈值),则建立目标掩模Mask,否则不建立目标掩模 Mask。在该示例中,仅当候选目标的置信度足够高时,才建立目标掩模。与上述实施例相比, 可以减少漏检的可能性。步骤S505-S507分别与图4所示的实施例中的步骤S405-S407相似,这里不再重
Μ. ο上述阶段性合并的步长(即N)可以根据实际情况来选择,这里不作任何限制。根 据步长N的不同以及金字塔图像的层数K,可以多次建立目标掩模,逐步排除已经确定的候 选目标所对应的区域,从而加快处理速度。图6是示出了根据本发明的另一实施例的检测视频图像中的目标的方法的示意 流程图。图6的方法与图3所示的实施例相似,不同之处在于,在图6的实施例中,还可以 建立各关注区域的多尺度金字塔并进行相应的遍历处理,从而使得检测结果更加准确。如图6所示,步骤S601-S605分别与图3所示实施例的步骤S301-S305相似这里
不再重复。在步骤S606中,建立每个关注区域的多尺度金字塔图像。可以利用任何适当的方法来建立多尺度金字塔图像,这里不再赘述。在一个示 例中,还可以将每个关注区域投影(映射)到原图像Imagei的金字塔图像Pyramid。, Pyramidiw,从而得到该关注区域的多尺度金字塔图像。在步骤S607中,利用预定的窗口(如第二窗口)以预定的步长(如第二步长)对 关注区域的金字塔图像中的每个进行遍历,对所得到的每个窗口图像进行检测,以得到一 个或多个候选目标(为了叙述简明,称为第四候选目标)及其置信度。在一个示例中,所述 第二步长可以小于所述第一步长,以进行更精细的遍历。当然,所述第二步长也可以大于或 等于所述第一步长。在一个示例中,为了加快处理速度,对于已经遍历过的窗口可以不再进行重复遍 历。步骤S609-S611分别与图3所示的实施例中的步骤S309-S311相似,这里不再赘 述。图7和图8示出了根据本发明一个实施例的检测视频图像中的目标的方法的一个 应用示例,而图15示意性地示出了图7和图8的示例中使用的目标检测与分类器的工作模 式。在该示例中,将多类汽车作为要检测的目标,示例性地,将轿车、巴士和卡车(正面视 角)作为要检测的目标。图7示出了该示例的示意性流程图,而图8示出了图7所示的窗 口遍历和ROI精细遍历的详细流程图。如图15所示,目标检测与分类器包括三个子分类器,即轿车⑶C(ClaSSifier for Detection and Classif ication)、巴士 CDC和卡车CDC。对于输入样本,如果某个CDC的输 出为一个正数,则可以认为样本以某个置信度通过了这个CDC,样本具有此类目标属性。若 某个⑶C输出为一个负数,则可以认为样本被此⑶C以某个置信度拒绝。多个⑶C在联合 工作时可以采用不同的模式。本示例采用并行模式。当然,在实际应用中,还可以采用其他 适当的模式,如串行模式。例如在串行模式下,输入样本向由一个CDC处理后,再由下一 CDC 处理。如图15所示。在并行模式下,待检测样本同时输入三个类别的CDC。某个待测样本 可能对于多个CDC均有正响应,因而可以具有多重类别属性。
如图7所示,在步骤S701,对多帧图像中的每帧图像进行窗口遍历。如图8所示,从用于检测的多帧图像中取图像Imagei,建立图像Imagei的多尺度 金字塔图像 Pyramid。,. . .,Pyramid」,...,Pyramid^1, j = 0,1,. . .,K-I, K > 1。然后,从 金字塔图像的塔顶(即尺寸最小的金字塔图像Pyramidtl)开始,使用预定的窗口进行遍历, 对每个窗口图像应用图15所示的目标检测与分类器,记录其正响应结果。当对于当前尺寸的图像Pyramidj遍历结束时,切换到下一较大尺寸的金字塔图像 Pyrami dJ+1继续进行遍历。每隔一定的尺度跨度,进行一次阶段性合并(与图5所示的实施例中的阶段性合 并相似)。具体地,将当前得到的所有正响应值对应的区域映射到原图像Imagei,忽略其类 别属性,将位置相邻尺寸相近的正响应值合并。如果某个合并后的结果大于某个预定的阈 值T1,则将合并区域适当向内缩小(采用与前述实施例和/或示例相似的方法)得到一个 目标掩模Mask。对所有的正响应合并结果,得到对应于一个或多个候选目标的一组目标掩 模 Mask。将各目标掩模Mask投影(映射)到多尺度金字塔图像中所有未检测的图像,得到 一组映射掩模区域,将映射掩模区域标注为非检测区域。之后,重复上述步骤,对多尺度金 字塔图像中所有未检测的图像进行检测和处理,其中,不对非检测区域进行处理,从而在尽 量不漏检的情况下加快处理速度。在步骤S702,进行第一次合并。具体地,将针对图像Imagei进行上述窗口遍历而得到的所有正响应结果映射到原 图像Imagei,忽略其类别属性,将位置相邻尺寸相近的正响应值合并,如果合并结果小于某 预定阈值T2,则忽略此合并结果。否则,将合并结果的所对应的区域适当向外扩大(与图3 所示的实施例中的方法相似)得到一组关注区域R0I。在步骤S703,进行ROI的精细遍历。具体地,对第i-Ι帧Image^进行上述步骤S701中的窗口遍历。根据第i_l帧 Imagei^1的合并结果生成另一组R0I,与图像Imagei的ROI合并为一组。对每个R0I,将之 投射到相应的多尺度金字塔图像,记当前尺度为Scalei ;以Scalei为中心,将此ROI同时投 射到相邻的数个金字塔图像(例如Scalei (i =_2,_1,0,1,2)),形成ROI金字塔(或者直 接用ROI图像生成尺度更精细的ROI金字塔)。以更精细的遍历步长对ROI金字塔进行补 充遍历。所谓补充遍历,是指所要遍历的窗口与已经遍历过的窗口不重复。在步骤S704,进行第二次合并。具体地,将在步骤S701 (窗口遍历)和步骤S703(R0I精细遍历)中得到的所有正 响应结果映射到原图像,忽略其类别属性,将位置相邻尺寸相近的正响应合并,对每个合并 结果记录所有的类别属性及相应的置信度。在步骤S705,进行多帧信息的时域合并。具体地,将第i_2、i_l、i帧图像共连续三帧图像的第二次合并结果进行“位置相 邻尺寸相近”的再次合并,即统计上述合并结果的所有类别属性,并合并相应置信度(即上 述正响应值的合并结果)。如果置信度的合并结果小于某个预定的阈值,则舍弃此合并结^ ο最后,对于时域合并的每个结果,取其所有类别属性中置信度最大的那个为此检测结果的最终类别属性,如果存在两个以上的类别属性其置信度相等且最大,则标记此检 测结果的类别属性为“不确定”。本领域的普通技术人员应理解,这里选取第i_2、i_l、i帧图像仅仅是一个示例。 在实际应用中,选取哪些图像以及选取的图像帧数可以根据具体需要而定。本发明不应被 视为局限于任何具体的实施例或示例。在上述示例中,尺度空间由粗到细的遍历策略既加速了检测过程,又减小了在目 标图像内部出现虚假响应的可能。另外,基于第一次合并结果的ROI精细遍历,特别是基于 i-1帧结果的R0I,是对连续帧信息的有效利用,使得漏检的可能性大大降低。虽然误检的 可能性也有所提高,但总体上说是效果增益的。减小漏检非常有利于当发生漏检时会产生 巨大风险的应用场景(例如安全监控)。图9示出了根据本发明一实施例的检测视频图像中的目标的装置的结构示意图。 如图9所示,检测视频图像中的目标的装置可以包括目标检测与分类器901和合并模块 902。目标检测与分类器901用于对视频序列中包括目标帧的多帧图像进行检测,并输 出一个或多个候选目标(为了叙述方便,也称为第一候选目标)及其置信度。与前述实施例相同,所述多帧图像可以是在时间上连续的,也可以是在时间上 不连续的。为了方便叙述,假设获取了视频序列中的P帧图像Image。,... , Imagei,..., Images,其中Imagei为目标帧,P为整数且P > I,i =0,...,P-1。例如,可以利用目 标帧Imagei之前的多帧图像Image^,Imagei^2,...,也可以利用该帧之后的多帧图像 Imagei+1,Imagei+2,· · ·,还可以利用该帧前后的多帧图像..·,Imagei^2, Imagei+ Imagei+1, Imagei+2,...。选取的图像帧数也可以根据实际应用而定。应理解,本发明不应被视为局限 于任何具体的实施例或示例。目标检测与分类器901可以采用任何适当的技术来实现,这里省略对它的描述。合并模块902用于将目标检测与分类器901检测得到的所述多帧图像中的第一 候选目标的置信度进行合并,以得到目标帧中的一个或多个候选目标(也称为第二候选目 标)°上述装置通过综合多帧图像(如Image0, ... , Imagei, ... , Imagep^1)的检测和分 类信息来得到其中目标帧(如Imagei)的结果。这样,对该帧单独进行检测时置信度较低 的响应可以通过前后帧的支持而得到强化,从而能够被检测出来。而随机性出现的虚假响 应也会因为得不到连续帧的持续支持而被抑制。与仅仅利用单帧图像相比,利用连续的视 频图像序列可提高检测或分类的效果。在一个示例中,所述合并模块902还用于判断所述多帧图像中的第一候选目标的 置信度的合并结果是否大于或等于某一预定的阈值(如第一阈值),如果是,则判定在目标 帧Imagei的相应位置上存在目标;否则,则确定在图像Imagei的相应位置上不存在目标。在某些情况下,P帧图像中的某些帧图像中可能没有检测到某个对应的候选目标。 在这些情况下,合并模块902在进行合并时,可以默认这些帧检测输出的置信度值为0。在一个示例中,合并模块902还用于将所述多帧图像中位置相邻尺寸相近的第一 候选目标的置信度合并,以得到目标帧中的一个或多个第二候选目标。所谓的“位置相邻尺 寸相近”以及置信度的合并方法均已在上文中解释,这里不再重复。
图10示出了根据本发明另一实施例的检测视频图像中的目标的装置的结构示意 图。与图9所示的实施例相似,图10所示的检测视频图像中的目标的装置包括目标检测与 分类器1001和合并模块1002,这二个模块的功能与图9的相应模块相似。与图9的实施例 不同的是,图10所示的装置还可以包括遍历模块1003。在该实施例中,利用遍历模块1003 对每帧图像进行遍历,并将对得到的所有窗口图像的检测结果合并,作为对该图像的检测 结果。然后,将多帧图像的检测结果合并,以得到目标帧中的候选目标。遍历模块1003用于利用预定的窗口(如第一窗口)以预定的步长(如第一步长) 对视频序列中包括目标帧的多帧图像中的每帧图像进行遍历,并将所得到的每个窗口图像 输出到目标检测与分类器1001。目标检测与分类器1001对来自遍历模块1003的每个窗口图像进行检测,得到一 个或多个候选目标(为了叙述方便,称为第三候选目标)及其置信度。合并模块1002用于将目标检测与分类器1001输出的位置相邻尺寸相近的第三候 选目标的置信度合并,以得到一个或多个第一候选目标及其置信度。合并模块1002还用于将从多帧图像中检测到的一个或多个第一候选目标及其置 信度进行合并,从而得到目标帧中的一个或多个第二候选目标。作为一个示例,遍历模块1003所使用的窗口的尺寸可以根据目标检测与分类器 1001能够检测的图像样本的尺寸来确定。假设在图像的某一区域中存在待检测的目标,则 在遍历模块1003对该图像进行遍历时该目标可能会被多个遍历窗口“框”到。换言之,可 能会有多个窗口图像包含该目标的全部或部分,对这些窗口图像进行检测则可得到对应于 该同一目标的多个第三候选目标及其置信度。这些第三候选目标即属于位置相邻尺寸相近 的候选目标。在一个示例中,合并模块1002还可以判断位置相邻尺寸相近的第三候选目标的 置信度的合并结果是否小于某一预定的阈值(称为第二阈值),如果是,则丢弃该合并结 果,否则保留该合并结果,作为第一候选目标的置信度。所得到的第一候选目标所对应的区 域可以与具有最大置信度的第三候选目标的区域相对应,还可以覆盖所有对应的第三候选 目标的区域。图10所示的装置可以利用预定的窗口和步长对每帧图像作遍历,使得检测结果 更为准确。在一个示例中,所述窗口可以是矩形窗口,其尺寸可以根据实际需要而定。所述 第一步长也可以根据实际需要而定,例如,该步长可以是一个或多个像素,还可以与当前窗 口的尺寸成比例关系。所述遍历的顺序和方式也是任意的,可以是从左到右、从上到下的, 还可以是从右到左、从下到上的。本发明对此不作任何限制。图11示出了根据本发明另一实施例的检测视频图像中的目标的装置的结构示意 图。与图10所示的实施例相似,图11所示的检测视频图像中的目标的装置包括目标检测 与分类器1101、合并模块1102和遍历模块1103,这些模块具有与图10所示的相应模块相 似的功能。不同之处在于,图11所示的装置还可以包括关注区域建立模块1104。在该实施例中,合并模块1102将第三候选目标的置信度合并之后,还可以将合并 结果反馈给关注区域建立模块1104。关注区域建立模块1104用于根据合并模块1102反馈的合并结果,建立一个或多 个关注区域R0I,并输出到遍历模块1103。每个关注区域ROI覆盖与相应的第三候选目标的合并结果对应的区域。遍历模块1103还用于利用预定的窗口(下文称作第二窗口)以预定的步长(下 文称作第二步长)对每个关注区域进行遍历,并输出给目标检测与分类器1101。目标检测与分类器1101用于对所得到的每个窗口图像进行检测,得到一个或多 个候选目标(下文称为第四候选目标)。合并模块1102还用于将目标检测与分类器1101输出的位置相邻尺寸相近的第三 候选目标和第四候选目标及其置信度合并,作为第一候选目标及其置信度。然后,合并模块 1102将从多帧图像中检测到的一个或多个第一候选目标及其置信度进行合并,从而得到目 标帧中的一个或多个第二候选目标。在该实施例中,在对每帧图像进行遍历(第一次遍历)之后,根据检测结果建立关 注区域,并对关注区域进行进一步的遍历(第二次遍历),从而进一步提高检测的准确度, 减少漏检和误检。在一个实施例中,可以通过将与合并结果对应的区域适当地扩大来确定 每个关注区域,即适度扩大关注区域的范围。这样能够进一步降低漏检和误检的可能性。例 如,如果与合并结果对应的区域是矩形的,则可以根据目标的大小、运动速度和方向等将该 区域在长度和宽度上分别扩展一个或多个像素,从而获得对应的关注区域。又如,如果与合 并结果对应的区域是圆形的,则可以根据目标的大小、运动速度和方向等将该区域在半径 扩展一个或多个像素,从而获得对应的关注区域。第二次遍历的方式可以与第一次遍历的方式相似,这里不再赘述。第二窗口在尺 寸或形状上可以与第一窗口相同,也可以不同。为了进行更精细的遍历,第二步长可以小于 第一步长。在其他示例中,第二步长也可以等于或大于第一步长。在一个示例中,可以避免 重复遍历,即,在第一窗口和第二窗口大小相同而步长不同的情况下,避免重复搜索已经搜 索过的窗口位置,从而加快处理的速度。在一个示例中,关注区域建立模块1104在建立关注区域之前,还可以判断位置相 邻尺寸相近的第三候选目标的置信度的合并结果是否小于某一预定的阈值(称为第三阈 值),如果是,则丢弃该合并结果,否则保留该合并结果并建立关注区域。在一个示例中,合并模块1102在合并了位置相邻尺寸相近的第四候选目标的置 信度之后,还可以进一步判断该合并结果是否小于某一预定的阈值(称为第四阈值),如果 是,则丢弃该合并结果,否则,保留该合并结果,作为第一候选目标的置信度。所得到的第一 候选目标所对应的区域可以与具有最大置信度的第四候选目标的区域相对应,还可以覆盖 所有对应的第四候选目标的区域。图12示出了根据本发明另一实施例的检测视频图像中的目标的装置的结构示意 图。与图10的实施例相似,图12所示的检测视频图像中的目标的装置包括目标检测与分 类器1201、合并模块1202和遍历模块1203,这些模块具有与图10所示的相应模块相似的 功能。不同之处在于,图12的装置还可以包括金字塔图像建立模块1205。假设视频序列中包括目标帧的多帧图像用Image0, ... , Imagei, .... , Imagep^1来 表不。金字塔图像建立模块1205用于建立所述多帧图像中的每帧图像(如Imagei)的 多尺度金字塔图像Pyramid。,. . .,Pyramid」,...,Pyramid^,并将金字塔图像中的每个图像 输出给遍历模块1203。j = 0,. . .,K-I, K > 1。
遍历模块1203用于利用预定的窗口(如第一窗口)以预定的步长(如第一步长) 对金字塔图像中的每个图像进行遍历,并将所得到的每个窗口图像输出到目标检测与分类 器 1201。目标检测与分类器1201对来自遍历模块1203的每个窗口图像进行检测,得到一 个或多个第三候选目标及其置信度。合并模块1202用于将目标检测与分类器1201输出的位置相邻尺寸相近的第三候 选目标的置信度合并,以得到一个或多个第一候选目标及其置信度。然后,合并模块1202 将从多帧图像中检测到的一个或多个第一候选目标及其置信度进行合并,从而得到目标帧 中的一个或多个第二候选目标。所述多尺度金字塔图像可以采用任何适当的方法来建立,在此省略对其的描述。 所述金字塔图像的层数可以根据实际应用的需要来设定,本发明不对其作任何限定。遍历 的方式与前述实施例和/或示例相似,这里不再赘述。在一个示例中,合并模块I202还可以将对金字塔图像进行检测而得到的第三候 选目标所对应的区域映射到原图像中,从而确定第三候选目标在原图像中所对应的区域。在上述实施例中,通过建立图像的多尺度金字塔图像并对金字塔图像进行遍历和 检测,可以进一步提高对视频图像进行多目标检测的准确度,减少漏检和误检的可能性。图13示出了根据本发明另一实施例的检测视频图像中的目标的装置的结构示意 图。与图12所示的实施例相似,图13所示的检测视频图像中的目标的装置可以包括目标 检测与分类器1301、合并模块1302、遍历模块1303和金字塔图像建立模块1305,这些模块 具有与图12所示的相应模块相似的功能。不同之处在于,图13的装置还可包括掩模建立 模块1306。遍历模块1303对金字塔图像建立模块1305建立的金字塔图像中的每个图像进行 遍历时从最小尺寸的图像(如Pyramid。)开始。所得到的每个窗口图像由目标检测与分类 器1301进行检测,得到一个或多个第三候选目标及其置信度。在目标检测与分类器1301已处理完金字塔图像中的N个图像(如Pyramid。,..., Pyramid^,N< K)之后,合并模块1302可以将目标检测与分类器检测得到的第三候选目标 的置信度合并,并将合并结果输出到掩模建立模块1306。掩模建立模块1306用于根据该合并结果来建立一个或多个目标掩模,并反馈给 遍历模块1303。每个目标掩模对应于与相应的第三候选目标对应的区域。遍历模块1303 对剩余的K-N个图像Pyramid,,... , Pyramidiw进行处理时,不对目标掩模所对应的区域进 行遍历。上述阶段性合并的步长(即N)可以根据实际情况来选择,这里不作任何限制。根 据步长N的不同以及金字塔图像的层数K,可以多次建立目标掩模,逐步排除已经确定的候 选目标所对应的区域,从而加快处理速度。模块1303、1301、1302和1306可以反复执行上述操纵,直到处理完金字塔图像中 的所有K层图像。在得到多帧图像的一个或多个第三候选目标及其置信度之后,由合并模 块1302进一步进行处理,处理过程与合并模块1202相同,这里不再赘述。上述实施例根据阶段性检测结果来建立目标掩模,并在后续处理中不处理目标掩 模所对应的区域。这样可以加快检测的速度。但是,如果目标掩模设置得过大,则在后续处理中可能会增大漏检的可能性。在一个示例中,可以通过将与相应第三候选目标的区域适 当地缩小来确定所述目标掩模Mask,从而避免出现因目标掩模过大而导致的漏检。例如,如 果与相应第三候选目标对应的区域是矩形的,则可以根据目标的大小、运动速度和方向等 将该区域在长度和宽度上分别缩小一个或多个像素,从而获得对应的目标掩模。又如,如果 与相应第三候选目标对应的区域是圆形的,则可以根据目标的大小、运动速度和方向等将 该区域在半径缩小一个或多个像素,从而获得对应的目标掩模Mask。作为一个示例,掩模建立模块1306在建立目标掩模之前,还可以判断所述N个图 像Pyramidtl, ... , Pyramid,^中的位置相邻尺寸相近的第三候选目标的置信度合并结果是 否大于或等于预定的阈值(称为第五阈值),如果是,则建立目标掩模Mask,否则不建立目 标掩模Mask。在该示例中,仅当候选目标的置信度足够高时,才建立目标掩模。与上述实施 例相比,可以减少漏检的可能性。作为一个示例,图13所示的装置还可以包括关注区域建立模块1304。关注区域建 立模块1304还可用于将所建立的每个关注区域输出给金字塔图像建立模块1305。金字塔 图像建立模块1305还可以建立每个关注区域的金字塔图像,并输出给遍历模块1303。遍历 模块1303还可以利用预定的窗口(如第二窗口)以预定的步长(如第二步长)对每个关 注区域的金字塔图像进行遍历,并将每个窗口图像输出给目标检测与分类器1301,以得到 一个或多个第四候选目标及其置信度。在一个示例中,为了检测多类目标,目标检测与分类器1301可以如图14所示的那 样包括多个子分类器,其中每个子分类器可以检测一类目标。子分类器的数量N可以根据 实际应用中需要检测的目标类别的数量来设置。作为一个示例,如果目标检测与分类器1301包括用于检测不同类别的目标的多 个子分类器,则图13所示装置还可以包括目标类别判断模块1307。目标类别判断模块1307 可以用于根据最大置信度值所对应的子分类器的类别属性来判定目标的类别。例如,当将 某个图像样本输入多个子分类器后,如果某个子分类器输出一定的置信度而其他子分类器 输出的置信度为0,则目标类别判断模块1307可以根据输出该置信度的子分类器所对应的 类别来确定目标的类别,而该置信度则作为该目标的置信度。如果有多于一个的子分类器 输出一定的置信度,则目标类别判断模块1307可以根据最大置信度值所对应的类别(即输 出最大置信度值的子分类器所对应的类别)来确定该目标的类别。如果存在两个或更多个 置信度值与最大值相等且分别对应于不同的类别,则可将此目标的类别属性标记为“不确 定”。在该示例中,由于综合了多帧图像的检测信息,因此,对目标类别属性的检测具有良好 的鲁棒性。在上述实施例和示例中,所述阈值(例如第一阈值、第二阈值、第三阈值、第四阈 值和第五阈值等)可以根据具体的应用场景来设置和调整,比如当阈值设置得较大时,目 标漏检率可能会增加,而当阈值设置得较小时,目标误检率可能会增加,因此,需要根据实 际需求来选择适当的阈值,这里不再赘述。另外,本领域的普通技术人员应理解,在上述各 实施例和示例中,所述的一个或多个子分类器可以采用并行模式来工作,还可以采用如串 行模式等其他模式来工作,在此不作详述。在上述实施例和/或示例的描述中,使用了“第一窗口 ”、“第二窗口,,以及“第一 步长”、“第二步长”等用语对遍历处理进行了描述。在对不同的实施例的描述中,可能采用了相同的用语,如图2、图4的实施例都采用了“第一窗口”和“第一步长”这样的用语。本 领域的普通技术人员应理解,这样的描述仅仅是为了叙述的方便,并非意味着这两个实施 例必须采用相同的窗口或步长。实际上,进行遍历时,窗口和步长均可以根据实际需要来选 取,并不限于上述的描述。在上述实施例和示例中,所述第一窗口和第二窗口可以是矩形窗口,其尺寸可以 根据实际需要而定。所述第一步长和第二步长也可以根据实际需要而定,例如,步长可以是 一个或多个像素,还可以与当前窗口的尺寸成比例关系。为了对ROI进行更精细的遍历,可 以将第二步长设置得小于第一步长。在上述实施例和示例中,所述遍历的顺序和方式也是任意的,可以是从左到右、从 上到下的,还可以是从右到左、从下到上的。在本说明书中,“第一”、“第二”、“第三”及“第N”等表述仅仅是为了将所描述的特 征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。上述实施例和示例的方法和装置可用于视频图像中的多类目标检测和分类。这 里,多类之间可以存在一定的相似性,比如卡车、轿车、巴士等类别。上述装置中各个组成模块、模块可通过软件、固件、硬件或其组合的方式进行配 置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件 或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图16所示的 通用计算机1600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种 功能等。在图16中,中央处理单元(CPU) 1601根据只读存储器(ROM) 1602中存储的程序或 从存储部分1608加载到随机存取存储器(RAM) 1603的程序执行各种处理。在RAM 1603中, 也根据需要存储当CPU 1601执行各种处理等等时所需的数据。CPU 160UROM 1602和RAM 1603经由总线1604彼此连接。输入/输出接口 1605也连接到总线1604。下述部件连接到输入/输出接口 1605 输入部分1606 (包括键盘、鼠标等等)、输 出部分1607 (包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存 储部分1608 (包括硬盘等)、通信部分1609 (包括网络接口卡比如LAN卡、调制解调器等)。 通信部分1609经由网络比如因特网执行通信处理。根据需要,驱动器1610也可连接到输 入/输出接口 1605。可拆卸介质1611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要 被安装在驱动器1610上,使得从中读出的计算机程序根据需要被安装到存储部分1608中。在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆 卸介质1611安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图16所示的其中存储有程 序、与设备相分离地分发以向用户提供程序的可拆卸介质1611。可拆卸介质1611的例子 包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘 (DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是 ROM 1602、存储部分1608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起 被分发给用户。本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机 器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等寸。在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征 可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征 相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但 并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其 他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发 明的技术范围构成限制。尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应 该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所 附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或 者等同物也应当被认为包括在本发明的保护范围内。
权利要求
一种检测视频图像中的目标的方法,包括帧检测步骤对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目标及其置信度;及合并步骤对所述多帧图像中的第一候选目标及其置信度进行合并,得到目标帧中的一个或多个第二候选目标。
2.如权利要求1所述的方法,其中,所述帧检测步骤包括第一遍历步骤利用第一窗口以第一步长对所述多帧图像中的每帧图像进行遍历,对 每个窗口图像进行检测以得到一个或者多个第三候选目标及其置信度;第一遍历结果合并步骤将位置相邻、尺寸相近的第三候选目标及其置信度合并,以得 到所述第一候选目标及其置信度。
3.如权利要求2所述的方法,其中,所述帧检测步骤还包括关注区域建立步骤根据所述第一遍历结果合并步骤的结果,建立一个或多个关注区 域,每个关注区域覆盖相应的第三候选目标;第二遍历步骤利用第二窗口以第二步长对每个关注区域进行遍历,对每个窗口图像 进行检测以得到一个或者多个第四候选目标及其置信度;第二遍历结果合并步骤将位置相邻、尺寸相近的第三候选目标和第四候选目标及其 置信度合并,以得到所述第一候选目标及其置信度。
4.如权利要求2所述的方法,其中,所述第一遍历步骤包括帧金字塔建立步骤建立每帧图像的多尺度金字塔图像,该多尺度金字塔图像包括K 层,K> 1 ;第三遍历步骤,利用所述第一窗口以所述第一步长对所述金字塔图像中的每个进行遍 历,对每个窗口图像进行检测以得到一个或者多个第三候选目标及其置信度。
5.如权利要求4所述的方法,其中所述第三遍历步骤是从所述金字塔图像中最小尺寸的图像开始处理的,并且还包括掩模建立步骤基于对第一到第N金字塔图像的检测结果而建立一个或多个目标掩 模,每个目标掩模对应于相应的第三候选目标,其中,在对其余K-N个图像进行处理时,不对所述K-N个图像中与各目标掩模对应的区 域进行遍历,其中1<Ν<Κ。
6.如权利要求3所述的方法,其中所述关注区域建立步骤之后,所述方法还包括建立每个关注区域的多尺度金字塔图像,所述第二遍历步骤包括利用所述第二窗口以所述第二步长对每个关注区域的金字塔 图像进行遍历,对每个窗口图像进行检测以得到一个或者多个第四候选目标及其置信度。
7.如权利要求1所述的方法,其中,所述合并步骤包括将所述多帧图像中的位置相邻 尺寸相近的第一候选目标的置信度合并。
8.如权利要求7所述的方法,其中,将所述多帧图像中位置相邻尺寸相近的第一候选 目标的置信度合并包括对所述多帧图像中的位置相邻尺寸相近的第一候选目标的置信度 求和或平均值,或者对所述多帧图像中的位置相邻尺寸相近的第一候选目标的置信度进行 归一化并对归一化后的置信度求和或求平均值。
9.如权利要求1所述的方法,其中,所述帧检测步骤是利用包括多个子分类器的目标 检测和分类器进行的,每个子分类器能够检测一类目标。
10.如权利要求9所述的方法,还包括根据输出最大置信度的子分类器所对应的类 别,来确定目标的类别。
11.一种检测视频图像中的目标的装置,包括目标检测与分类器,用于对视频序列中包括目标帧的多帧图像进行检测,以得到一个 或多个第一候选目标及其置信度;合并模块,用于对所述多帧图像中的第一候选目标的置信度进行合并,以得到目标帧 中的一个或多个第二候选目标。
12.如权利要求11所述的装置,还包括遍历模块,所述遍历模块用于利用第一窗口以第一步长对每个图像进行遍历,并将每个窗口图像 输出到所述目标检测与分类器,以得到一个或多个第三候选目标及其置信度,所述合并模块还用于将位置相邻尺寸相近的第三候选目标的置信度合并,以得到所述 第一候选目标及其置信度。
13.如权利要求12所述的装置,还包括关注区域建立模块,所述关注区域建立模块用于根据所述合并模块反馈的所述第三候选目标的置信度的 合并结果,建立一个或多个关注区域,并输出到所述遍历模块,每个关注区域覆盖相应的第 三候选目标;所述遍历模块还用于利用第二窗口以第二步长对每个关注区域进行遍历,并将每个窗 口图像输出到所述目标检测与分类器,以得到一个或多个第四候选目标及其置信度;所述合并模块还用于将位置相邻尺寸相近的第三候选目标和第四候选目标的置信度 合并,以得到所述第一候选目标及其置信度。
14.如权利要求12所述的装置,还包括金字塔图像建立模块,所述金字塔图像建立模块用于建立每帧图像的包括K层的多尺度金字塔图像,并将所 述金字塔图像中的每个图像输出给所述遍历模块,其中,K > 1,所述遍历模块还用于利用所述第一窗口以所述第一步长对所述金字塔图像中的每个 图像进行遍历,并将每个窗口图像输出到所述目标检测与分类器,以得到一个或多个第三 候选目标及其置信度。
15.如权利要求14所述的装置,其中,,所述遍历模块被配置为从所述金字塔图像中最小尺寸的图像开始进行遍历, 所述合并模块被配置为将对第一到第N金字塔图像进行检测而得到的第三候选目标 的置信度合并,并将合并结果输出到所述掩模建立模块,该装置还包括掩模建立模块,用于根据该合并结果来建立一个或多个目标掩模,并输 出到所述遍历模块,使得所述遍历模块不对所述K-N个图像中与各目标掩模对应的区域进 行遍历,其中1 < N < K,每个目标掩模对应于相应的第三候选目标。
16.如权利要求13所述的装置,其中所述关注区域建立模块还用于将每个关注区域输出给所述金字塔图像建立模块,所述 金字塔图像建立模块还用于建立每个关注区域的金字塔图像,并输出给所述遍历模块, 所述遍历模块还用于利用所述第二窗口以所述第二步长对每个关注区域的金字塔图像进行遍历,并将每个窗口图像输出给所述目标检测与分类器,以得到一个或多个第四候 选目标及其置信度。
17.如权利要求11所述的装置,其中,所述合并模块还用于通过合并所述多帧图像中 位置相邻、尺寸相近的候选目标的置信度来对所述多帧图像中的第一候选目标的置信度进 行合并。
18.如权利要求17所述的装置,其中,所述合并模块还用于通过对所述多帧图像中位 置相邻、尺寸相近的候选目标的置信度求和或平均值,或者对所述多帧图像中位置相邻、尺 寸相近的候选目标的置信度进行归一化并对归一化后的置信度求和或求平均值来对所述 多帧图像中的第一候选目标的置信度进行合并。
19.如权利要求11所述的装置,其中,所述目标检测和分类器包括多个子分类器,每个 子分类器能够检测一类目标。
20.如权利要求19所述的装置,还包括目标类别判定模块,用于根据输出最大置信度 的子分类器所对应的类别,来确定目标的类别。
全文摘要
本发明提供了检测视频图像中的目标的方法和装置。所述方法包括对包含目标帧的多帧图像分别进行检测,以得到一个或多个第一候选目标及其置信度;及对所述多帧图像中的第一候选目标及其置信度进行合并,得到目标帧中的一个或多个第二候选目标。
文档编号G06T7/00GK101968884SQ200910161669
公开日2011年2月9日 申请日期2009年7月28日 优先权日2009年7月28日
发明者吴伟国, 梅树起 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1