专利名称:用于轨迹估计的方法和装置以及用于分割的方法
技术领域:
本发明涉及轨迹估计方法和轨迹估计装置以及分割方法,并且特别地涉及能够基于两幅或更多幅图像而精确地估计诸如移动而改变形状的人等对象在图像上的轨迹的轨迹估计方法和轨迹估计装置以及分割方法。
背景技术:
常规上,已经广泛地进行了对图像上的轨迹进行估计的研究与开发。具体地,对诸如人等改变形状的对象的轨迹进行估计的技术是普遍用于例如数码摄像机或数码相机中的聚焦控制和图像质量改进处理以及汽车的驾驶安全支持系统或使用机器人的碰撞避免控制或警报的基础技术。用于估计轨迹的最通常的方法是通过在一幅图像中提供块(该块为部分区域)并且在另一幅图像中使用包括在该块中的像素信息(像素值)来执行空间搜索,从而基于像素信息中的相似性来估计运动矢量。通过时间上连接这样的运动矢量可以估计轨迹。然而,根据该方法,运动矢量是基于块内的像素值的相似性来估计的。因此,在包括诸如不具有纹理的均勻区域等区域或具有条纹图案的区域的图像的情况下,不可能精确地估计运动矢量,从而导致误差被包括在轨迹中。另一方面,非专利文献2描述了一种用于估计更精确轨迹的方法。利用该方法,在对诸如不具有纹理的均勻区域等区域的轨迹进行估计的情况下,仅通过使用诸如角落或边缘等鲁棒点来进行研究,在鲁棒点处,像素值不太可能随时间变化。这给出了允许更精确估计轨迹的优点。引用列表非专利文献[非专利文献 1]1989 年的 hternational Journal of Computer Vision,卷 2, 第 283-310 页,作者为 P. Anandan 的文章"A computational Framework and an Algorithm for the Measurement of Visual Motion,,[非专利文献 2] 1994 年的 IEEE Conference on Computer Vision and Pattern Recognition,第 593-600 页,作者为 Jianbo Shi 禾口 Carlo Tomasi 的文章"Good Features to Track,,
发明内容
技术问题然而,在常规的方法中,为了处理在诸如人等对象中频繁发生的大小(scale)改变或形状改变,需要采取对应于该大小改变或该形状改变的移动模型。因此,如果没有执行移动模型的合适设置,则存在不能够获得精确轨迹的问题。特别是,在不使用任何关于对象的先前知识的情况下,很难针对形状改变设置合适的运动模型。因此,构思了本发明来解决以上的问题,并且本发明的目的是提供一种能够基于两幅或更多幅图像而精确地估计诸如移动而改变形状的人等对象或包括均勻纹理的对象在图像上的轨迹的轨迹估计方法和轨迹估计装置以及分割方法。解决问题的方案为了实现上述目的,根据本发明一方面的轨迹估计方法是用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的轨迹估计方法,并且所述轨迹估计方法包括接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;通过对在所述接收中接收的所述多幅图像中的每一幅图像执行分层分割来在分层级 (hierarchical level)上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹 (representative trajectory)0应该注意,本发明不仅可以被实现为上述轨迹估计方法,而且还可以被实现为轨迹估计装置、程序和计算机可读非易失性记录介质,其中所述轨迹估计装置包括作为组成要素的、包括在所述轨迹估计方法中的特征步骤,所述程序使计算机执行包括在所述轨迹估计方法中的所述特征步骤,以及计算机可读非易失性记录介质例如是光盘只读存储器 (CD-ROM),在该计算机可读非易失性记录介质上存储所述程序。发明的有益效果根据本发明,可以精确地对诸如移动而改变形状的人等对象或包括均勻纹理的对象在图像上的轨迹进行估计。
图1是示出根据本发明第一实施例的轨迹估计装置的基本结构的功能框图。图2是示出根据本发明第一实施例的轨迹估计装置的硬件结构的功能框图。图3是示出根据本发明第一实施例的轨迹估计装置的基本操作的流程图。图4是示出根据本发明第一实施例的用于估计运动矢量的处理的示例的简图。图5是示出根据本发明第一实施例的用于估计轨迹的处理的示例的简图。图6是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的示例的简图。图7是示出由根据本发明第一实施例的分层子区域生成单元输入的输入图像的示例的简图。图8是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。图9是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。图10是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。图11是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。
图12是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。图13是示出由根据本发明第一实施例的分层子区域生成单元执行的处理的结果的示例的简图。图14是示出由根据本发明第一实施例的代表轨迹估计单元生成模板的处理的示例的简图。图15是示出由根据本发明第一实施例的代表轨迹估计单元执行的匹配处理的示例的简图。图16是示出由根据本发明第一实施例的代表轨迹估计单元执行的匹配处理的另一示例的简图。图17是示出由根据本发明第一实施例的代表轨迹估计单元估计代表轨迹的处理的示例的简图。图18是示出由根据本发明第一实施例的代表轨迹估计单元估计的代表轨迹的示例的简图。图19是示出根据本发明第二实施例的分割装置的基本结构的功能框图。图20是示出根据本发明第二实施例的分割装置的基本操作的流程图。图21是示出由根据本发明第二实施例的分割单元执行的处理的示例的简图。图22是示出由根据本发明第二实施例的分割单元执行的处理的优点的简图。图23是示出由根据本发明第二实施例的分割单元执行的测地距离(geodetic distance)转换的结果的示例的简图。图M是示出由根据本发明第二实施例的分割单元执行的处理的结果的示例的简图。图25是示出根据本发明第二实施例的分割装置的基本操作的流程图。图沈是示出由根据本发明第二实施例的变型的分割单元生成的最小生成树 (MST)的示例的简图。图27是示出由根据本发明第二实施例的变型的分割单元生成的当前对的示例的简图。图观是示出由根据本发明第二实施例的变型的分割单元执行的用于自动地确定类别数量的示例的简图。
具体实施例方式根据本发明的一个实施例是用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的轨迹估计方法,并且所述轨迹估计方法包括接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;通过对在所述接收中接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。
根据该结构,跨分层(hierarchy)地搜索子区域。由于这促进了吸收形状和尺寸的差异,所以可以改进搜索精确度。特别是,可以精确地估计诸如移动而改变形状的人等对象或包括均勻纹理的对象的轨迹。优选地,上述轨迹估计方法还包括通过针对由包括在所述多幅图像中的每一幅图像中的一个或多个像素构成的每个块分析所述多幅图像之间的运动而在所述视频中生成所述块的轨迹,其中在所述估计中,通过使包括在所述特定图像中的所述子区域与包括在所述子区域中的所述块的所述轨迹一起移动来生成预测子区域,所述预测子区域是在与所述特定图像不同的所述图像中预测的子区域,并且通过跨与所述特定图像不同的所述图像中的所述分层级,搜索与所述预测子区域最相似的所述子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为所述代表轨迹。根据该结构,还可以基于属于每个子区域的轨迹,通过在下一时间生成模板而响应于子区域的形状改变来鲁棒地估计轨迹。更优选地,在所述估计中,使包括在所述生成中生成的每个子区域的轨迹对于所述每个子区域是平滑的,并且基于包括在所述每个子区域中的平滑的轨迹来估计所述代表轨迹。根据该结构,可以通过每个子区域地校正所述轨迹来针对每个区域估计连贯一致的轨迹。更优选地,在所述估计中,通过使用相似性测度(similarity measure)来确定子区域之间的相似性,从而搜索所述子区域,其中所述相似性测度包括所述子区域的像素值和形状信息中的至少之一。根据该结构,可以基于包括形状信息和像素值中的至少一个的相似性测度来估计轨迹。此外,在所述估计中,可以通过⑴采用曲线图(graph)、和(ii)将动态编程应用于所述曲线图而生成用于所述曲线图的最优路径来估计所述代表轨迹,在所述曲线图中 包括在所述特定图像中的所述子区域和包括在与所述特定图像不同的所述图像中的所述子区域是节点;使用边来对表示包括在所述特定图像中的所述子区域的一个节点和表示包括在与所述特定图像不同的所述图像中的所述子区域的另一节点进行连接;并且这样的值是边权重,即对于由所述边连接的子区域之间的较大相似性,该值是较小的。根据该结构,可以通过采用上述曲线图并且使用动态编程计算最优路径来从全局优化视角来看在相对长的时间段中精确地估计所述代表轨迹。特别地,在估计用于三个或更多个帧的代表轨迹的情况中,可以利用关于全部帧的信息来估计最优代表轨迹。优选地,在所述生成中,基于包括轮廓信息的特征,在分层级上生成所述子区域。根据该结构,通过使用包括轮廓信息的特征,可以生成所述子区域,所述子区域对于颜色和亮度波动是鲁棒的并且从所述子区域中排除诸如阴影等影响,并且因此可以估计高精确的轨迹。本发明的另一实施例是用于对每个移动对象的视频执行分割的分割方法,并且该分割方法包括上述轨迹估计方法中包括的处理;以及通过将代表轨迹之间具有相似性的子区域进行结合来对视频执行分割。根据该结构,可以通过使用估计的轨迹和子区域来执行分割。因此,在改变形状的对象的情况下,也可以更精确地执行分割。优选地,在所述执行中,通过连接小于阈值的距离来将代表轨迹之间的距离转换为测地距离、检测在获得的测地距离中的不连续点并且通过将彼此分开的距离比在所检测的不连续点处的测地距离小的轨迹分为一类来执行分割。根据该结构,将彼此分开的距离比在不连续点处的测地距离小的轨迹分为一类。 因此,与使用欧几里得距离(欧几里得距离为线性距离)的聚类(clustering)相比,执行考虑了轨迹之间相似性的时空连续性的聚类。因此,可靠地区分了图片中的每个块属于同一对象(或区域)还是属于另一对象(或区域)。因此,甚至在检测诸如由具有不同运动的区域构成的人等关节式对象的情况下,也可以正确地执行分割,以便可靠地检测移动对象。 换言之,可以对诸如移动而改变形状的人等移动对象精确地执行分割,并由此可以检测图像中的移动对象。此外,在所述执行中,基于对应于要被结合的子区域的代表轨迹和邻近所述要被结合的子区域的至少一个子区域的代表轨迹,可以确定是否结合所述要被结合的子区域。根据该结构,可以通过不仅考虑要被结合的子区域而且还考虑邻近的子区域来执行考虑邻近子区域的分割。因此,这产生了以下有益效果,即能够更好地反映图像的结构并且执行不易受诸如图像中的对象尺寸差异等影响的分割。优选地,在所述执行中,基于在根据曲线图计算的最小生成树中表示的连接关系来执行分割,在该曲线图中,将代表轨迹假设为节点并且通过使用边来将代表轨迹彼此连接;并且由边连接的代表轨迹之间的距离被假设为边权重。通过使用最小生成树以有限的连接关系表示所述代表轨迹,可以以最小计算量来执行分割。更优选地,在所述执行中,基于用于将具有以下关系的一对代表轨迹与邻近该对代表轨迹的至少一个代表轨迹连接的边权重,通过在最小生成树中确定是否结合该对代表轨迹来执行分割代表轨迹是使用一条边直接彼此连接的。根据该结构,可以通过执行这种包括邻域(neighborhood)的成对聚类(pairwise clustering)来考虑包括手和脚之间关系的区域之间的关系。因此,这产生了允许甚至对诸如人等关节式对象进行精确分割的优点。此外,由于还考虑了与空间上远的地方的关系,因此可以执行不易受诸如图像中的对象尺寸变化或差异等影响的分割。本发明的又一实施例是用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的轨迹估计装置,并且所述轨迹估计装置包括图像接收单元,其接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;分层子区域生成单元, 其通过对由所述图像接收单元接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及代表轨迹估计单元,其通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。本发明的又一实施例是用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的程序,并且所述程序使计算机执行接收包括在所述视频中的图像,所述图像是按时间排序的;通过对在所述接收中接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。本发明的又一实施例是一种对每个移动对象的视频执行分割的分割装置,并且所述分割装置包括上述轨迹估计装置;以及分割单元1101,其通过将代表轨迹之间具有相似性的子区域进行结合来对视频执行分割。本发明的又一实施例是一种用于对每个移动对象的视频执行分割的程序,并且所述程序使计算机执行包括在上述轨迹估计方法中的处理;以及通过将代表轨迹之间具有相似性的子区域进行结合来对视频执行分割。在下文中,参考附图来描述本发明的实施例。实施例1图1是示出根据第一实施例的轨迹估计装置的结构的图。图1中示出的轨迹估计装置是对诸如移动而改变形状的人等对象或包括均勻纹理的对象的轨迹进行精确估计的装置,并且该轨迹估计装置包括图像接收单元101、运动分析单元102、分层子区域生成单元103、代表轨迹估计单元104和输出单元105。应该注意本发明中的必要组成元件是图像接收单元101、分层子区域生成单元103和代表轨迹估计单元104,并且该轨迹估计装置不需要包括运动分析单元102和输出单元105。图像接收单元101接收按时间排序的并且包括在视频中的图像的输入。该图像接收单元101例如是摄像机或连接到该摄像机的通信接口等。运动分析单元102针对由图像接收单元101接收的多幅图像中的每一幅图像中包括的一个或多个像素构成的每个块分析所述多幅图像之间的运动而在视频中生成所述块的轨迹。换言之,运动分析单元102通过使用图像接收单元101接收的多幅图像中的至少两幅时间上不同的图像来估计块运动。基于所估计的块运动,运动分析单元102通过追踪块在按时间排序的多幅图像上的运动来估计像素的轨迹。分层子区域生成单元103通过对由图像接收单元101接收的多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得在属于彼此不同的分层级的子区域中, 空间上较大的子区域包括空间上较小的子区域。使用特别是包括轮廓信息的特征,分层子区域生成单元103对由图像接收单元101获得的图像执行分割,将其分割成子区域。分层子区域生成单元103从空间上粗糙的子区域到空间上精细的子区域分层地执行分割。本实施例具有以下特征,即空间上粗糙的子区域(空间上较大尺寸)包括空间上精细的子区域 (空间上较小尺寸)。代表轨迹估计单元104通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。利用该处理,代表轨迹估计单元104估计代表每个子区域的轨迹。更具体地,代表轨迹估计单元104通过使包括在所述特定图像中的子区域与包括在所述子区域中的块的轨迹一起移动来生成预测子区域,所述预测子区域是在与所述特定图像不同的图像中预测的子区域,并且代表轨迹估计单元104通过跨与所述特定图像不同的所述图像中的分层级,搜索与所述预测子区域最相似的所述子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为所述代表轨迹。这里,产生如下有益效果,即通过使用用于每个子区域的轨迹来生成预测子区域(模板),从而能够处理子区域的形状改变。而且,跨分层执行的空间搜索产生以下有益效果,即能够精确地计算在具有均勻纹理等的区域中的轨迹。应该注意代表轨迹估计单元104通过使用相似性测度来确定子区域之间的相似性,从而搜索子区域,其中该相似性测度包括子区域的像素值和形状信息中的至少之一。输出单元105将代表每个子区域的轨迹输出到监视器(显示器)等。根据本实施例,也可以基于每个子区域及其轨迹来输出结果,作为时空分割的结果。应该注意包括在轨迹估计装置中的每个组成元件(图像接收单元101、运动分析单元102、分层子区域生成单元103、代表轨迹估计单元104和输出单元10 可以通过使用诸如在计算机上执行的程序等软件来实现,并且也可以被实现为诸如电子电路等硬件,该计算机包括CPU、随机存取存储器(RAM)、只读存储器(ROM)、通信接口、输入/输出(I/O)端口、硬盘、显示器等。这同样适用于另一实施例中的分割装置。图2是示出通过使用软件实现的根据本发明的轨迹估计装置的硬件结构的简图。在图2中,照相机201捕获并输出图像,并且计算机202获得由照相机201捕获的图像,执行用于估计代表轨迹的处理以及生成用于显示代表轨迹的计算结果的图像。显示器203获得并显示由计算机202生成的图像。 计算机 202 包括接口(I/F)204、CPU 205,ROM 206,RAM 207、硬盘驱动器(HDD) 208 和视频卡209。使计算机202运行的程序由ROM 206或HDD 208预先保存。CPU 205从ROM 206或 HDD 208读出该程序,并且该程序由RAM207扩展,其中CPU 205是处理器。CPU 205执行在由RAM 207扩展的程序中的每个编码的命令。用于执行程序的中间处理数据临时地存储在 RAM207或HDD 208上。根据程序的执行,I/F 204取回由照相机201捕获的图像,并将其放到RAM 207中。视频卡209根据程序的执行来输出所生成的图像,并且显示器203显示输出图像。应该注意计算机程序可以存储在例如光盘等(非易失性记录介质)上,不限于为半导体的ROM 206或HDD 208。此外,计算机程序也可以经由有线或无线网络、广播等发送, 并且计算机程序可以被取回并放到计算机的RAM 207中。在下文中,使用图3中的流程图来描述根据本发明第一实施例的代表轨迹估计装置的操作。这里描述了以下示例,即接收包括诸如移动而改变形状的人等对象或包括均勻纹理的对象的图像的输入,并且然后估计轨迹。图像接收单元101接收T幅图像(T彡2)的输入(步骤S301)。运动分析单元102估计关于输入的T幅图像之间的运动的信息,并且生成和输出轨迹(步骤S302)。这里,用于估计T幅图像之间的运动的方法参考T幅图像中的特定图像上的点I来搜索包括在其它T-I幅图像中的对应像素。应该注意替代点I处的像素,用于估计图像之间的运动的方法可以参考I个矩形子区域(块)。例如,如图4所示,通过使用在时间t和时间t+Ι捕获的输入图像401来
估计对应于在时间t的图像上的像素i的像素坐标(XtSytO (i = 1......I)的在时间t+1
的图像上的像素坐标(Χ +Λ yt+/)。此时,在时间t的矩形子区域402(块)被扫描在时间 t+Ι (虚线箭头)的图像上,并且将具有在时间t的矩形子区域中的像素值与在时间t+Ι的矩形子区域中的像素值之间差异的最小和的像素坐标(实线箭头)估计为对应的像素。对于像素坐标而言,可以使用表示块的中心位置的像素坐标。这里,可以预先确定扫描范围。 此外,为了计算差异,可以使用任何事物,只要它表示待比较的块的像素值中的差异可以使用在时间t的矩形子区域中的像素值与在时间t+Ι的矩形子区域中的像素值之间的均方误差,并且也可以使用受诸如中值等离群值(outlier)影响较小的测度。在三幅或更多幅图像的情况中,通过顺序地估计对应的坐标来估计与在所输入的I幅图像中的每一幅图像中的点I相对应的点。作为估计如上所述的图像之间的对应点的另一种特定方法,也可以使用在非专利文献1、3、4中公开的方法。关于用于估计图像之间的对应点的特定方法,由于通过引用将这些非专利文献并入本文,因此这里不再重复对其的详细说明。[3] 2001 International Conference on Computer Vision, # 者为 Vladimir Kolmogorov 禾口 Ramin Zabih 的文章"Computing Visual Correspondence with Occlusions via Graph Cuts,,[ # # ^lJ i K 4] 2007 的 International Conference on Medical Image Computing and Computer Assisted Intervention, 作者为 Thomas Pock、Martin Urschler、Christopher Zach、Reinhard Beichel 禾口 Horst Bischof 的文章"A Duality Based Algorithm for TV-L I-Optimal-Flow Image Registration,,在步骤S302中,当假设例如在步骤S301中输入T幅图像时,运动分析单元102使用在时间t和时间t+Ι捕获的两幅图像来估计像素i的运动矢量(UtS Vt1)。这里,两幅图像不需要是按时间排序的,并且通过使用例如在时间t和时间t+n输入的图像,也可以估计像素运动。然而,η是等于或大于1的整数。应该注意代替使用运动矢量,运动分析单元102可以估计和使用仿射参数作为运动信息。这时,运动分析单元102可以估计全部像素的运动信息。此外,当旨在执行高速处理时,运动分析单元102可以将图像分成网格并且仅估计预定间隔的网格上的像素的运动信息,或者如之前所述,运动分析单元102可以将图像分成块并且估计关于每个块的运动信息。此外,当使用在非专利文献1中公开的方法来估计运动矢量时,运动分析单元102 可以估计运动信息的可靠性,并且因此可以仅估计高可靠性的运动信息并且将所估计的信息用作运动信息。此外,当使用在非专利文献3中公开的方法来估计运动矢量时,运动分析单元102可以估计遮挡(occlusion)。因此,运动分析单元102可以仅估计关于未被遮挡的像素的信息并且将所估计的信息用作运动信息。此外,作为用于估计像素运动的方法,代替使用如前所述的通过采取块的平行移动来估计运动矢量的方法,运动分析单元102可以使用通过采取块的仿射变换来估计运动矢量的方法。对于通过采取仿射变换来估计运动矢量的方法,可以使用在非专利文献2中公开的方法。非专利文献2中公开的方法是估计对应于在时间t和时间t+Ι输入的图像中的像素i的邻域的运动的仿射参数ΑΛ对于像素i而言,在时间t和时间t+Ι的图像上的像素位置 < 和xt+/具有以下的关系(表达式1)。数学式1x;+1 = A1X(表达式1)根据该方法,特别对于正在旋转移动的移动对象而言,可以估计比在使用通过采
11取平行移动来估计运动矢量的方法的情况下更精确地像素i的运动。再次,参考图3,使用在步骤S302中估计的运动信息,运动分析单元102基于像素 i的运动针对按时间排序的T幅图片估计像素i的轨迹(步骤S303)。如图5所示,使用在步骤S302中估计的运动信息502,从在时间t输入的输入图像501的像素i 503开始追踪像素i的运动。这时,通过使用像素i已经通过的在时间t的图像上的像素位置(XtSyti), 如下所述地估计像素i的轨迹。换言之,表达式2表示从第一幅图像到第T幅图像的像素位置(χΛ yt0的轨迹。数学式2x' =(x\,y\,...,x't,ylt,...,xlT,ylT)(表达式2)这里,T是计算轨迹所使用的图像的数量。再次,参考图3,分层子区域生成单元103通过执行多个分割来分层地将由图像接收单元101获得的相应图像分割为子区域(步骤S304),其中所述多个分割中的每一个是使用不同的空间划分数量(粒度)执行的。每个分层级对应于子区域分割的粒度,并且每个子区域的空间大小(尺寸)在具有粗糙粒度的分层级上是相对大的,并且子区域的空间大小(尺寸)在具有精细粒度的分层级上是相对小的。图6示出将一幅输入图像601分层地分割为子区域602的结果的示例。如图6所示,在步骤S304中,分层子区域生成单元103将输入图像601分割为子区域602,从而建立以下关系较高分层级(具有粗糙粒度)上的子区域602包括较低分层级(具有精细粒度) 上的子区域602。应该注意相反地,也可以建立以下关系较低分层级上的子区域包括较高分层级上的子区域。分层级的数量可以预先确定,并且分层级的数量也可以开始利用子区域数量的上限来确定。不言自明的是,可以根据时间来改变分层级的数量。在第一实施例中,假设预先确定分层级的数量。图7示出实际输入图像的示例,并且图8至图13示出按粗糙粒度的次序的分割的结果。换言之,图8示出具有最粗糙粒度(处于最高的分层级)的分割结果,并且图13示出具有最精细粒度(处于最低的分层级)的分割结果。如由这些分割结果所显示的那样, 处于较高分层级的子区域包括处于较低分层级的子区域。由于用于分层地将图像分割为子区域的上述方法是如在非专利文献5中公开的广泛已知方法,这里不再重复其详细的描述。利用在非专利文献5中公开的方法,使用包括轮廓信息的特征所执行的这种子区域分割产生以下有益效果可以允许较不易受颜色和亮度的波动影响的分割并且因此允许稳定的分割为子区域。在本实施例中,还可以使用包括轮廓信息的特征来执行子区域分割。[非专利文献 5]2009 年的 Computer Vision and Pattern Recognition,作者为 Pablo Arbelaez、Michael Maire、Charless Fowlkes 禾口 Jitendra Marik 的文章"From Contours to Regions :An Empirical Evaluation,,再次,参考图3,使用子区域和属于该子区域的轨迹,代表轨迹估计单元104生成在子区域移动到目的地的时间的预测子区域,以便适应于子区域的时间上的形状改变(步骤S305)。这里,对于预测子区域而言,像素值包括在子区域中并且在子区域开始从源移动的时间定位该像素值。应该注意预测子区域被用于之后要被描述的匹配处理(步骤 S306),但是,可以使用预测子区域的形状信息来执行该匹配或者可以使用像素值信息来执行该匹配。这里,描述了作为模板生成的预测子区域的示例。这里,优选的是,模板是利用预定分层级或利用包括预定数量子区域的分层级生成的。首先,在由分层子区域生成单元103 执行的分割所产生的子区域和由运动分析单元102估计的轨迹中,将通过每个子区域的轨迹表示如下。通过子区域的轨迹是包括在子区域中的像素的轨迹。数学式3χ--'SC_i e 子区域 sc (表达式 3)这里,sc_i 表示属于子区域SC的轨迹i。使用图14来描述用于在步骤S305中生成模板的方法。如在图14(a)和图14(b) 中所示,首先,代表轨迹估计单元104利用属于子区域701的轨迹702的目的地的信息,计算在不同于对应于子区域701的时间的时间的模板703的形状。这里,描述用于生成在下一时间的用于子区域701的模板的方法,但是只要关于目的地的信息可以使用,就不需要生成在下一时间的模板,而是可以生成在任何时间的模板。例如,可以生成比对应于子区域701的时间早的时间的模板,并且可以以相同的方式执行以下的过程。更具体地,参考图 14(c),假设代表轨迹估计单元104利用属于在时间t的子区域sc的轨迹i来估计在时间t+Ι的轨迹705的一组对应点706,并且将该组对应点确定为模板703。应该注意,假设 对于包括在模板703中的每个像素的像素值,使用在轨迹705的源处的像素值,即时间t时的像素值。因此,使用关于轨迹的目的地的信息,代表轨迹估计单元104更新每一帧的模板 703。利用这一点,模板的形状随时间而改变。换言之,由于预测子区域随时间而改变, 因此具有以下有益效果能够在响应于对象的形状改变的同时跟踪对象。此外,通过使用具有空间密度的轨迹,也可以甚至对于非线性的形状改变生成鲁棒的模板。出于解释的目的, 图14已经描述了一个子区域,但是代表轨迹估计单元104生成用于多个或全部子区域的模板。再次,参考图3,通过跨分层地空间搜索不同时间的相似子区域,代表轨迹估计单元104估计在子区域中的对应点(步骤S306)。这里,为了清晰地描述,描述了跨分层在不同时间的两幅图像之间执行搜索的示例。具体地,代表轨迹估计单元104从分层地生成的在时间t+Ι的子区域中,跨分层地并且使用在步骤S305中生成的预测子区域来搜索相对于预测子区域具有最小误差的子区域。在下文中,作为特定的示例,描述了一个示例,其中通过将预测子区域用作模板,执行与分割为在时间t+Ι生成的子区域的图像或子区域的形状的匹配。参考图15,代表轨迹估计单元104使用在步骤S305中生成的模板801来执行与在时间t+Ι的多个子区域802中的每一个子区域的匹配。这里,可以使用一个模板801来执行与在全部分层级上的子区域802的匹配,或者仅可以对模板801所属的分层级的邻近分层级上的子区域802执行该匹配。通过计算模板801的像素值与在时间t+Ι的每一个子区域802的像素值之间的差异的和来执行该匹配。假设模板801与具有差异的最小和的子区域802最匹配。换言之,具有差异的最小和等同于具有最大的相似性。这时,假设对应点是已经被用于生成模板801的在时间t 的子区域802的形心位置(centroid position)以及与在时间t+1的子区域802最匹配的模板801的形心位置。通过沿着时间方向重复该计算,可以利用对应点来计算代表轨迹。这里,空间匹配的目标范围可以被预先限定为在时间t的模板801的位置的外围等,或在不执行空间匹配的情况下,也可以仅沿着分层方向执行匹配,这是因为轨迹信息已经被用于在步骤S305中生成模板801。对于计算差异(相似性)而言,可以使用任何事物, 只要它表示模板801和子区域802中的每一个子区域802之间的像素值的差异可以使用模板801的像素值与在时间t+Ι的子区域802中的每一个的像素值之间的均方误差,并且也可以使用较不易受诸如中值等离群值影响的测度。此外,也可以使用模板801的像素数量与要被匹配的子区域802的像素数量之和,对诸如像素值的差异的和和均方误差等测度执行归一化。例如,当假设模板801的像素数量是Tnum,要被匹配的子区域802的像素数量是R ,并且彼此重叠并包括在模板801和要被匹配的子区域802中的像素的像素数量是 Onum,可以根据以下的表达式4来对差异的和归一化。数学式4归一化的差异的和=差异的和X (Tnum+RnJ/0nmi(表达式4)此外,代替使用像素值,可以将模板801的形状与要被匹配的子区域802的形状之间的相似性用作相似性测度。例如,可以将通过使用模板801和子区域802的像素数量对当模板801和子区域802叠加时重叠的像素的数量进行归一化而得到的值用作相似性。然后,具有最高相似性的子区域802可以被认为与模板801最匹配。另外,如图16所示,当子区域在两幅图像之间的形状改变大时,可能具有如由分层级A的匹配结果807所示的小相似性,从而导致即使当使用分层级A的模板805时也不能执行合适匹配的情况。在该情况中,可以执行以下的处理。当不能合适地执行匹配时,相似性小。因此,当使用分层级A的模板805进行匹配所产生的相似性小于预定值时,使用用于在分层级B上的子区域的模板来执行匹配,该分层级B包括通过分割生成的、比在分层级 A上的子区域精细的子区域。这里,由于在步骤S304中输入图像601被分割为子区域602 以便建立其中较高分层级(具有粗糙粒度)的子区域602包括较低分层级(具有精细粒度)的子区域602的关系,因此可以使用分层级A的模板和分层级B的模板之间的包含关系。具体地,使用两个模板中的每一个(例如分层级B的模板806)来执行匹配,其中该分层级B的模板806与分层级A的模板805之间为包含关系并且包括通过分割生成的更精细的子区域。因此,如由分层级B的匹配结果808所示,甚至当子区域在两幅图像之间改变形状时,也可以执行更精确的匹配。这时,可以将分层级B的两个模板的代表轨迹的平均值确定为分层级A的模板的代表轨迹。如上所述,在由于子区域的形状改变所致而不能执行匹配的情况下,由此使用具有包含关系的不同分层级的模板所执行的匹配产生了能够计算精确的轨迹的有益效果。当使用如在非专利文献5中公开的用于分割为子区域的方法,发生这样的情况,其中由于对象随时间移动或者在不同时间的照相机运动的原因,分割为子区域的结果在时间t和时间 t+Ι之间不同。另外,也存在这样的情况,其中分层中的子区域802的粗糙度取决于时间而变化。如果是这种情况,具有大尺寸差异和大形状差异的子区域802与模板801之间的匹配将要被执行,从而引起不能够执行合适匹配的问题。反之,如通过图15中的匹配结果803
14所示,跨分层的匹配很可能吸收形状和尺寸的差异,从而产生改进匹配精确度的有益效果。再次,参考图3,代表轨迹估计单元104使用在步骤S306中执行的匹配的结果来估计每个子区域802的代表轨迹(步骤S307)。如图17所示,代表轨迹估计单元104通过在时间上连接在步骤S306中获得的对应点904来将每个模板801的轨迹估计为代表轨迹。 代表轨迹可以由以下的表达式5表示。数学式5
(表达式5)这里,XiW是在时间i的图像中的对应点904的像素位置,并且代表轨迹由按照时间排列的对应点904构成。如图18所示,轨迹估计装置可以通过执行上述步骤S301到步骤S307的处理来获得用于每一个子区域802的代表轨迹1002,其中该代表轨迹1002按照时间连接对应点 1001。因此,子区域802具有空间连接性,并且对应点1001具有子区域802的时间连接性。 因此,可以使作为代表轨迹1002的时空图像信息集中。当执行分割或识别图像时,这产生了能够进一步减少计算量的有益效果。另外,还可以使用这里提取的子区域802和按照时间连接子区域802的代表轨迹1002作为对时空图像执行分割的结果。如上所述,在本发明的第一实施例中,图像被分层地分割为区域,并且子区域之间的对应性通过执行跨分层的匹配而建立。据此,这种基于轮廓信息来分割为子区域的方案允许每个子区域保持形状信息。基于形状信息的匹配产生了以下有益效果,即该匹配对于由阴影和亮度改变引起的像素值改变是鲁棒的。另一方面,为了执行基于形状信息的匹配, 需要每个匹配目标保持形状信息。即,目标应该被分割为子区域。然而,很难将具有相同粒度但时间上不同的图像分割为子区域。因此,通过将图像分割为具有在分层上不同粒度的子区域并且执行跨分层的搜索,可以对包括在这种彼此不同的图像中的子区域执行匹配。此外,这有助于建立子区域之间的对应性同时吸收形状和尺寸的差异,从而产生改进匹配精确度的有益效果。具体地,这产生了以下有益效果,即能够精确地建立子区域之间的对应性,甚至对于诸如移动而改变形状的人或包括均勻纹理的人等对象也是如此。另夕卜,基于子区域之间的对应性来估计轨迹产生了能够计算精确轨迹的另一有益效果。此外, 使用根据本发明实施方法估计的代表轨迹还产生了减少计算量以及改进分割和图像识别的精确度的有益效果。应该注意在第一实施例中,已经描述了通过执行在时间t和时间t+Ι输入的图像之间的匹配来估计代表轨迹的示例,但是代表轨迹也可以通过使用在时间t和时间t+n输入的图像执行匹配来估计。然而,η是大于等于1的整数。应该注意在第一实施例的步骤S305中,如表达式3所示,已经从由运动分析单元102估计的轨迹中提取了经过由分层子区域生成单元103分割所得到的每一个子区域的轨迹,但是这并没有将轨迹限制用在步骤S305中,并且也可以使用采用另一方法获得的轨迹。例如,可以使用属于子区域sc的轨迹i来重新校正轨迹。换言之,代表轨迹估计单元 104每个子区域地使包括在子区域中的轨迹平滑,并且基于子区域和包括在子区域中的平滑轨迹来估计代表轨迹。具体地,如以下的表达式6所示,通过将平滑滤波型的双边滤波应用到包括在由表达式3表示的子区域sc中的轨迹i,可以减少离群值的影响并且估计具有空间平滑性的轨迹。这时,通过不使用不属于子区域sc的轨迹来执行双边滤波,可以为每个子区域计算连贯一致的轨迹。此外,代替执行双边滤波,可以通过执行处理,例如排除以等于或大于预定阈值的值(level)偏离属于子区域sc的轨迹的平均值的轨迹来排除离群值。数学式6
权利要求
1.一种用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的轨迹估计方法,所述轨迹估计方法包括接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;通过对在所述接收中接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。
2.根据权利要求1所述的轨迹估计方法,还包括通过针对由包括在所述多幅图像中的每一幅图像中的一个或多个像素构成的每个块分析所述多幅图像之间的运动而在所述视频中生成所述块的轨迹,其中在所述估计中,通过使包括在所述特定图像中的所述子区域与包括在所述子区域中的所述块的所述轨迹一起移动来生成预测子区域,所述预测子区域是在与所述特定图像不同的所述图像中预测的子区域,并且通过跨与所述特定图像不同的所述图像中的所述分层级,搜索与所述预测子区域最相似的所述子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为所述代表轨迹。
3.根据权利要求2所述的轨迹估计方法,其中在所述估计中,使包括在所述生成中生成的每个子区域中的轨迹对于所述每个子区域是平滑的,并且基于包括在所述每个子区域中的平滑的轨迹来估计所述代表轨迹。
4.根据权利要求1至3之一所述的轨迹估计方法,其中在所述估计中,通过使用相似性测度来确定子区域之间的相似性,从而搜索所述子区域,其中所述相似性测度包括所述子区域的像素值和形状信息中的至少之一。
5.根据权利要求1所述的轨迹估计方法,其中在所述估计中,通过(i)采用曲线图、和(ii)将动态编程应用于所述曲线图而生成用于所述曲线图的最优路径来估计所述代表轨迹,在所述曲线图中包括在所述特定图像中的所述子区域和包括在与所述特定图像不同的所述图像中的所述子区域是节点;使用边来对表示包括在所述特定图像中的所述子区域的一个节点和表示包括在与所述特定图像不同的所述图像中的所述子区域的另一节点进行连接;并且这样的值是边权重,即对于由所述边连接的子区域之间的较大相似性,该值是较小的。
6.根据权利要求1至5之一所述的轨迹估计方法,其中在所述生成中,基于包括轮廓信息的特征,在所述分层级上生成所述子区域。
7.一种用于对每个移动对象的视频执行分割的分割方法,所述分割方法包括包括在根据权利要求1至6之一所述的轨迹估计方法中的处理;以及通过将代表轨迹之间具有相似性的子区域进行结合来对所述视频执行分割。
8.根据权利要求7所述的分割方法,其中,在所述执行中,通过连接小于阈值的距离来将所述代表轨迹之间的距离转换为测地距离、检测在获得的测地距离中的不连续点并且将彼此分开的距离比在所检测的不连续点处的测地距离小的轨迹分到一个类别,从而执行分割。
9.根据权利要求7所述的分割方法,其中,在所述执行中,基于对应于要被结合的子区域的代表轨迹和邻近所述要被结合的子区域的至少一个子区域的代表轨迹,确定是否结合所述要被结合的子区域。
10.根据权利要求9所述的分割方法,其中,在所述执行中,基于在根据曲线图计算的最小生成树中表示的连接关系来执行分割,在该曲线图中,将所述代表轨迹假设为节点并且使用边来将所述代表轨迹彼此连接; 并且由所述边连接的所述代表轨迹之间的距离被假设为边权重。
11.根据权利要求10所述的分割方法,其中,在所述执行中,基于用于将具有以下关系的一对代表轨迹与邻近该对代表轨迹的至少一个代表轨迹连接的边权重,通过在最小生成树中确定是否结合该对代表轨迹来执行分割所述代表轨迹是使用一条边直接彼此连接的。
12.一种用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的轨迹估计装置,所述轨迹估计装置包括图像接收单元,被配置为接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;分层子区域生成单元,被配置为通过对由所述图像接收单元接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及代表轨迹估计单元,被配置为通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。
13.一种用于对构成视频中的移动对象的全部或移动对象的部分的子区域的轨迹进行估计的程序,并且所述程序使计算机执行接收包括在所述视频中的多幅图像,所述多幅图像是按时间排序的;通过对在所述接收中接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得空间上较大的子区域包括空间上较小的子区域,所述空间上较大的子区域和所述空间上较小的子区域属于彼此不同的分层级;以及通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。
全文摘要
一种轨迹估计装置,包括图像接收单元(101),其接收按时间排序的并且包括在视频中的多幅图像;分层子区域生成单元(102),其通过对由所述图像接收单元(101)接收的所述多幅图像中的每一幅图像执行分层分割来在分层级上生成子区域,使得在属于彼此不同的分层级的子区域当中,空间上较大的子区域包括空间上较小的子区域;以及代表轨迹估计单元(104),其通过跨与特定图像不同的图像中的分层级,搜索与包括在所述特定图像中的子区域最相似的子区域来将包括在所述特定图像中的所述子区域在所述视频中的轨迹估计为代表轨迹。
文档编号G06T7/20GK102473307SQ201080028724
公开日2012年5月23日 申请日期2010年3月15日 优先权日2010年3月15日
发明者F·加拉索, R·奇波拉, 岩崎正宏, 甲本亚矢子, 登一生 申请人:松下电器产业株式会社