对象形状跟踪装置和方法以及图像处理系统与流程

文档序号：15804269发布日期：2018-11-02 21:41阅读：206来源：国知局

本发明涉及图像处理，尤其涉及用于跟踪对象形状的装置和方法以及图像处理系统。

背景技术

在跟踪视频中处于运动情况下的对象的形状的过程中，诸如跟踪视频中运动的人脸的形状或运动的人体关节的形状，为了更准确地获得视频的一个视频帧(例如，当前视频帧)中的对象形状，通常使用从该视频帧的先前视频帧确定的对象姿态来初始化该视频帧中的对象初始形状。然后，可基于初始化的对象初始形状来确定该视频帧中的对象最终形状。例如，视频帧中的对象姿态表示对象在该视频帧的几何空间中的方向/倾角及位置。

“facialshapetrackingviaspatio-temporalcascadeshaperegression”(j.yang.j.deng,k.zhang,andq.liu.,theieeeinternationalconferenceoncomputervision(iccv)workshops,2015,pp.41-49.)中公开了一种示例性技术。该示例性技术主要公开了以下过程：针对视频的当前视频帧，首先，直接使用从当前视频帧的先前视频帧确定的对象形状及对象姿态，生成当前视频帧中的对象初始形状；然后，对所述对象初始形状执行形状回归方法(例如，级联形状回归(cascadedshaperegression，csr)方法)，以确定当前视频帧中的对象最终形状。重复这些过程，直至到达视频末端。

换言之，在根据上述技术跟踪视频中处于运动情况下的对象的形状的过程中，从先前视频帧确定的对象形状和对象姿态将被传递到后续视频帧，以确定对应的对象初始形状。因此，至少从先前视频帧确定的对象姿态的准确性将直接影响后续视频帧中要确定的对象形状的准确性。上述技术仅考虑了从该视频帧的先前视频帧确定的对象姿态，因此，在对象在视频中快速运动的情况下，尤其是在视频中快速转动的情况下，每一个视频帧中的对象姿态将迅速变化，从而将使先前视频帧中的对象姿态与当前视频帧中的对象姿态之间产生很大差异。换言之，在对象在视频中快速运动的情况下，先前视频帧中的对象姿态将无法与当前视频帧中的对象的外观拟合。也就是说，先前视频帧中的对象姿态对于当前视频帧中的对象而言不准确。因此，基于该不准确的对象姿态确定的当前视频帧中的对象初始形状也将不准确，因而将导致获得的当前视频帧中的对象最终形状不准确。因此，将影响一个视频帧、甚至整个视频的对象跟踪结果的准确性。

技术实现要素：

因此，鉴于上面的背景技术中的记载，本公开旨在解决上述问题。

根据本发明的一个方面，提供一种用于跟踪视频中的对象形状的装置，所述装置包括：变化信息确定单元，被配置为基于当前视频帧之前的至少一个视频帧中的第一对象的姿态，确定第一对象从先前视频帧至当前视频帧的姿态变化信息；姿态确定单元，被配置为基于先前视频帧中的第一对象的姿态及变化信息确定单元确定的姿态变化信息，确定当前视频帧中的第一对象的姿态；形状确定单元，被配置为基于姿态确定单元确定的第一对象的姿态，确定当前视频帧中的第一对象的形状；及更新单元，被配置为更新形状确定单元确定的第一对象的形状并基于更新的第一对象的形状更新姿态确定单元确定的第一对象的姿态。

利用本发明，在跟踪视频中处于运动情况下的对象的形状的过程中，将提高对象形状的准确性及对象跟踪的准确性。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1示意性地示出根据本发明的示例性目标对象及示例性关联主对象(dependentmasterobject)。

图2是示意性地示出可实现根据本发明实施例的技术的硬件配置的框图。

图3是例示根据本发明第一实施例的对象形状跟踪装置的配置的框图。

图4示意性地示出根据本发明第一实施例的对象形状跟踪的流程图。

图5示意性地示出根据本发明第一实施例的如图4所示的步骤s420的流程图。

图6a至图6c示意性地示出视频中处于运动情况下的示例性目标对象。

图7示意性地示出根据本发明第一实施例的如图4所示的步骤s420的另一流程图。

图8示意性地示出根据本发明的如图7所示的步骤s425的流程图。

图9是例示根据本发明第二实施例的对象形状跟踪装置的配置的框图。

图10是例示根据本发明第三实施例的对象形状跟踪装置的配置的框图。

图11示意性地示出根据本发明第三实施例的如图4所示的步骤s420的流程图。

图12示意性地示出在视频的某些视频帧之间不可见的示例性目标对象。

图13例示根据本发明的示例性图像处理系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域的技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

如上所述，在跟踪视频中处于运动情况下的对象的形状的过程中，在对象在视频中快速运动的情况下，尤其是在视频中快速转动的情况下，一个视频帧中用于确定后续视频帧的对象初始形状的对象姿态将无法与该后续视频帧中的对象的外观拟合，因而将导致获得的该后续视频帧的对象初始形状和对象最终形状不准确。

为了辅助进行视频中的对象形状跟踪，一方面，本发明发现，对应视频帧中最终确定的对象姿态可用于预测视频中的对象的运动(尤其是转动)所致的对象从一个视频帧至后续视频帧的姿态变化趋势(posturechangingtrend)(即，姿态运动趋势)，并且该姿态变化趋势可用于改善一个视频帧中最终确定的对象姿态及可用于确定后续视频帧的对象初始形状。在本发明中，将视频中要跟踪其形状的对象称为目标对象。例如，目标对象为人体、人脸、人体关节(例如，人手)等。在本发明中，一个视频帧中的目标对象的姿态表示目标对象在该视频帧的几何空间中的方向/倾角及位置。换言之，一个视频帧中的目标对象的姿态描述目标对象在该视频帧中的空间属性，其中空间属性由方向相关空间属性(例如，目标对象的俯仰角(pitchangle)、目标对象的偏航角(yawangle)、目标对象的滚转角(rollangle))及位置相关空间属性(例如，目标对象的形状的特征点的坐标)表示。在本发明中，目标对象从一个视频帧至后续视频帧的姿态变化趋势描述视频中目标对象的空间属性的运动，其中空间属性的运动由运动相关属性(诸如，方向相关空间属性的角速度和/或角加速度、位置相关空间属性的速度和/或加速度)表示。

由于目标对象从一个视频帧至后续视频帧的姿态变化趋势可描述视频中目标对象的空间属性的运动，因此，一个视频帧中最终确定的、基于姿态变化趋势改善的对象姿态可与后续视频帧中的对象的外观拟合。因此，基于一个视频帧中改善的对象姿态，可为后续视频帧获得准确的对象初始形状及准确的对象最终形状。

进一步地，在实际情况中，目标对象的姿态变化总是受到目标对象所属或所连接的对象的约束。换言之，目标对象所属或所连接的对象是约束一个视频帧中目标对象的姿态的变化范围的对象。在本发明中，将目标对象所属或所连接的对象称为关联主对象。通常，其中目标对象的姿态与关联主对象的姿态方向相同的一个视频帧中的目标对象的姿态的变化范围大于其中目标对象的姿态与关联主对象的姿态方向相反的一个视频帧中的目标对象的姿态的变化范围。另外，在目标对象是人脸或人头的情况下，其关联主对象为人的上半身。在目标对象是人手的情况下，其关联主对象为人的前臂。在目标对象是人的前臂的情况下，其关联主对象为人的大臂。

因此，为了获得一个视频帧的更准确的对象初始形状及更准确的对象最终形状，另一方面，本发明发现，视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束(posturechangingrestriction)(即，姿态运动约束)可进一步用于改善对象从一个视频帧至后续视频帧的姿态变化趋势。在本发明中，一个视频帧中目标对象的姿态变化约束表示在该视频帧中目标对象的姿态相对于其关联主对象可变化或运动的可用变化范围(availablechangingrange)。例如，如图1中所示，人脸110是目标对象，人的上半身120是关联主对象，而虚线所示的扇形区域130则是人脸110的姿态变化约束。在本发明中，目标对象的姿态变化约束由预确定规则或预确定模型描述，所述预确定规则或预确定模型是使用统计或训练方法、基于不同姿态情况下的目标对象及其关联主对象的多个样本确定的。例如，目标对象的姿态变化约束可由以下公式(1)表示：

姿态变化约束＝m(di)…(1)

其中，di表示一个视频帧中的关联主对象的姿态，m(di)表示描述目标对象与其关联主对象之间的约束关系的训练的模型。

针对视频中处于运动情况下的目标对象，在确定一个视频帧中的目标对象的初始形状时，除了考虑该视频帧的先前视频帧中最终确定的目标对象的姿态，本发明还将考虑视频中目标对象的运动(尤其是转动)所致的目标对象从先前视频帧至该视频帧的姿态变化趋势及视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束。因此，将提高为一个视频帧确定的目标对象的初始形状的准确性。从而，基于更准确的初始形状，也将提高为对应视频帧确定的目标对象的最终形状的准确性。因此，根据本发明，将提高对象形状的准确性及对象跟踪的准确性。

(硬件配置)

首先将参照图2描述可以实现下文中描述的技术的硬件配置。

硬件配置200例如包括中央处理单元(cpu)210、随机存取存储器(ram)220、只读存储器(rom)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。此外，硬件配置200可通过诸如相机、个人数字助理(pda)、移动电话、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在第一实现方式中，根据本发明跟踪视频中的对象形状的过程由硬件或固件配置，并且用作硬件配置200的模块或组件。例如，将在下文中参照图3详细描述的装置300、将在下文中参照图9详细描述的装置900及将在下文中参照图10详细描述的装置1000用作硬件配置200的模块或组件。在第二实现方式中，根据本发明跟踪视频中的对象形状的过程由存储在rom230或硬盘240中且由cpu210执行的软件配置。例如，将在下文中参照图4详细描述的过程400及将在下文中参照图5、图7及图11详细描述的图4中所示的步骤s420的过程用作存储在rom230或硬盘240中的程序。

cpu210是任何合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在rom230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。ram220用于临时存储从rom230或硬盘240加载的程序或数据，并且也被用作cpu210在其中执行各种过程(诸如，实施将在下文中参照图4、图5、图7、图8和图11详细描述的技术)以及其他可用功能的空间。硬盘240存储多种信息，诸如，操作系统(os)、各种应用程序、控制程序、由制造商预存储或预定义的数据以及由制造商预存储或预生成的模型和/或分类器。

在一种实现方式中，输入设备250用于允许用户与硬件配置200交互。在一个实例中，用户可以通过输入设备250输入图像/视频/数据。在另一实例中，用户可以通过输入设备250触发本发明的对应过程。此外，输入设备250可采用各种形式，诸如，按钮、键盘或触摸屏。在另一种实现方式中，输入设备250用于接收从诸如数码相机、摄像机和/或网络相机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备260用于向用户显示对象跟踪结果(诸如，目标对象的边界框、目标对象的形状、目标对象的姿态等)。而且，输出设备260可采用各种形式，诸如，阴极射线管(crt)或液晶显示器。在另一种实现方式中，输出设备260用于输出对象跟踪结果，以进行视频/图像分析和识别的后续过程，诸如，面部分析、人像检索、表情识别、面部识别、面部属性识别等。

网络接口270提供用于将硬件配置200连接到网络的接口。例如，硬件配置200可经由网络接口270与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件配置200提供无线接口，以进行无线数据通信。系统总线280可以提供用于在cpu210、ram220、rom230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述硬件配置200仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，在图2中只示出一个硬件配置。但是，也可以根据需要使用多个硬件配置。

(对象形状跟踪装置和方法)

接下来，将参照图3至图13描述根据本发明跟踪视频中的对象形状的过程。

图3是例示根据本发明第一实施例的装置300的配置的框图。其中，图3中所示的一些或全部模块可由专用硬件实现。其中，在该实施例中，一个视频帧中的目标对象的姿态描述目标对象在该视频帧中的方向相关空间属性。

如图3中所示，装置300包括变化信息确定单元310、姿态确定单元320、形状确定单元330及更新单元340。首先，图2中所示的输入设备250接收从专门电子设备(例如，相机)输出或由用户输入的视频。接着，输入设备250经由系统总线280将所接收视频传输到装置300。

然后，如图3中所示，针对所接收视频的当前视频帧(诸如，第t个视频帧)中的目标对象(例如，第一对象)，变化信息确定单元310基于当前视频帧之前的至少一个视频帧中的目标对象的姿态，确定目标对象从先前视频帧至当前视频帧的姿态变化趋势(即，姿态变化信息)。换言之，变化信息确定单元310基于从先前视频帧传递的目标对象的姿态，预测目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势(即，姿态运动趋势)。其中，t是自然数并且2≤t＜t，t是所接收视频的视频帧总数。

姿态确定单元320基于先前视频帧中的目标对象的姿态及变化信息确定单元310确定的姿态变化信息，确定当前视频帧中的目标对象的姿态。换言之，姿态确定单元320通过基于所预测的目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势改善第(t-1)个视频帧中的目标对象的姿态，来确定第t个视频帧中的目标对象的初始姿态。

形状确定单元330基于姿态确定单元320确定的目标对象的姿态，确定当前视频帧中的目标对象的形状。换言之，形状确定单元330基于第t个视频帧中的目标对象的初始姿态，确定第t个视频帧中的目标对象的初始形状。

更新单元340更新形状确定单元330确定的目标对象的形状，并且基于更新的目标对象的形状更新姿态确定单元320确定的目标对象的姿态。换言之，首先，更新单元340(例如，形状更新子单元(未示出))通过更新第t个视频帧中的目标对象的初始形状，确定第t个视频帧中的目标对象的最终形状。然后，更新单元340(例如，姿态更新子单元(未示出))通过基于所确定的目标对象的最终形状更新第t个视频帧中的目标对象的初始姿态，来确定第t个视频帧中的目标对象的最终姿态，因此更准确的目标对象的姿态可被传递至后续视频帧。

也就是说，针对所接收视频的第t个视频帧(其中，t≥2)，装置300将使用第(t-1)个视频帧中的目标对象的最终姿态及视频中目标对象的运动(尤其是转动)所致的目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势，确定第t个视频帧中的目标对象的初始姿态。进一步地，如上所述，为了获得第t个视频帧中更准确的目标对象的初始姿态，从而可获得更准确的目标对象的形状，视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束也可用于确定第t个视频帧中的目标对象的初始姿态。因此，装置300还包括变化约束确定单元350。

如图3中所示，针对当前视频帧(诸如，第t个视频帧)中的目标对象，变化约束确定单元350基于当前视频帧中的第二对象(即，目标对象的关联主对象)的姿态及当前视频帧中目标对象与关联主对象之间的约束关系，确定当前视频帧中目标对象的姿态变化约束。例如，变化约束确定单元350通过使用上述公式(1)来确定对应的姿态变化约束。

姿态确定单元320基于先前视频帧中的目标对象的姿态、变化信息确定单元310确定的姿态变化信息及变化约束确定单元350确定的姿态变化约束，确定当前视频帧中的目标对象的初始姿态。换言之，姿态确定单元320通过基于改善的姿态变化趋势改善第(t-1)个视频帧中的目标对象的姿态，来确定第t个视频帧中的目标对象的初始姿态，其中，改善的姿态变化趋势是通过基于第t个视频帧中所确定的目标对象的姿态变化约束改善所预测的目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势而获得的。

此外，为了触发对象形状跟踪过程及确定所接收视频的第一个视频帧(即，第1个视频帧)中的对应形状和对应姿态，装置300还包括检测单元360。如图3中所示，针对所接收视频的第1个视频帧，检测单元360检测第1个视频帧中的目标对象的对应姿态并检测第1个视频帧中的目标对象的对应形状。然后，以所接收视频的第2个视频帧为例，变化信息确定单元310基于从第1个视频帧检测到的目标对象的姿态，执行对应的操作。

图4中所示的流程图400是图3中所示的装置300的对应过程。

如图4中所示，针对一个所接收视频，在检测步骤s410中，检测单元360检测所接收视频的第1个视频帧中的目标对象的对应姿态并检测第1个视频帧中的目标对象的对应形状。

在一种实现方式中，一方面，检测单元360对第1个视频帧执行姿态检测方法，以检测目标对象的对应姿态。姿态检测方法例如是基于模型的姿态检测及分类方法。其中，用于检测及分类操作的模型是使用通用监督机器学习方法(generalsupervisedmachinelearningmethod)、基于不同姿态情况下的目标对象的多个预标注样本生成的。另一方面，检测单元360对第1个视频帧执行形状检测方法(例如，级联回归方法)，以检测第1个视频帧中的目标对象的对应形状。例如，在目标对象的形状由特征点表示的情况下，可获得第1个视频帧中目标对象的形状的特征点的对应位置。其中，在目标对象是人脸的情况下，特征点例如为人脸特征点；在目标对象是人体关节的情况下，特征点例如为人体关节特征点。

返回至图4，在步骤s420中，针对所接收视频的第t个视频帧(其中，t≥2)，图3中所示的装置300确定第t个视频帧中的目标对象的对应形状及目标对象的对应姿态。在一种实现方式中，装置300参照图5确定对应信息。

然后，在装置300确定第t个视频帧中的目标对象的对应形状及目标对象的对应姿态之后，在步骤s430中，装置300判断t是否大于t。在t大于t(意指整个所接收视频已被处理)的情况下，装置300的对应过程将停止。否则，在步骤s440中，装置300设置t＝t+1并且重复步骤s420的对应过程。

图5示意性地示出根据本发明的如图4所示的步骤s420的流程图。

如图5中所示，在变化信息确定步骤s421中，图3中所示的变化信息确定单元310基于第t个视频帧之前的至少一个视频帧中的目标对象的姿态，确定目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势(即，姿态变化信息)。

在第t个视频帧之前仅一个视频帧可用(诸如仅第(t-1)个视频帧可用)的情况下，在一种实现方式中，变化信息确定单元310将预定义运动状态(例如，静止或预定速度运动状态)视为目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势。

在第t个视频帧之前两个视频帧可用(诸如第(t-2)及第(t-1)个视频帧可用)的情况下，在一种实现方式中，变化信息确定单元310将目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势视为匀速运动并将角速度视为对应的姿态变化趋势。在一个实例中，角速度是基于目标对象在第(t-2)个视频帧与第(t-1)个视频帧中的对应方向相关空间属性的差(诸如，目标对象在第(t-2)个视频帧与第(t-1)个视频帧中的偏航角的差)确定的。以图6a至图6c中所示的人脸(即，对象目标)为例，图6a至图6c分别示出一个视频的第(t-2)个视频帧至第t个视频帧。假设人脸在视频中沿偏航角方向转动，并且假设第(t-2)个视频帧中人脸的姿态是人脸偏航角为-30度且第(t-1)个视频帧中人脸的姿态是人脸偏航角为0度，因此，可认为人脸从第(t-1)个视频帧至第t个视频帧的姿态变化趋势为，人脸角速度为30度/视频帧。

在第t个视频帧之前多于两个视频帧可用的情况下，在一种实现方式中，变化信息确定单元310将目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势视为变速运动并基于角速度和角加速度确定对应的姿态变化趋势。在一个实例中，角速度和角加速度是通过对目标对象在可用视频帧之间的对应方向相关空间属性执行基于时序的姿态变化预测方法确定的。

更具体而言，根据基于时序的姿态变化预测方法，预测器(例如，基于时域的预测器)将处理目标对象在可用视频帧之间的每个方向相关空间属性(诸如，偏航角)，以执行对应的变量预测。例如，预测器可以是线性预测器并可由以下公式(2)表示：

xt＝a0+a1*xt-1+a2*xt-2+…+ai*xt-n…(2)

其中，ai(i∈{0,1,2,…,n})表示使用多个样本生成预测器时生成的预测器的参数，n表示预测器的长度，xt表示时间t处的变量值(例如，相邻视频帧之间的偏航角变化)。另外，预测器还可以是基于多项式(polynomial-based)的预测器、基于卡尔曼(kalman-based)的预测器或其他预测器。

返回至图5，在姿态确定步骤s422中，姿态确定单元320基于第(t-1)个视频帧中的目标对象的姿态及目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势，确定第t个视频帧中的目标对象的初始姿态。

在一种实现方式中，姿态确定单元320通过偏移量对第(t-1)个视频帧中的目标对象的姿态进行补偿，确定第t个视频帧中的目标对象的初始姿态。其中，偏移量是基于目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势确定的。更具体而言，补偿操作是将偏移量加到第(t-1)个视频帧中的目标对象的姿态上。进一步地，以图6a至图6c中所示的人脸(即，目标对象)为例，如上所述，第(t-1)个视频帧中人脸的姿态是人脸偏航角为0度，且人脸从第(t-1)个视频帧至第t个视频帧的姿态变化趋势为，人脸角速度为30度/视频帧。因此，认为对应的偏移量为30度，并且认为第t个视频帧中人脸的初始姿态为30度。

返回至图5，在形状确定步骤s423中，形状确定单元330基于第t个视频帧中的目标对象的初始姿态，确定第t个视频帧中的目标对象的初始形状。在一种实现方式中，形状确定单元330通过使用第t个视频帧中的目标对象的初始姿态变换预确定形状，来确定第t个视频帧中的目标对象的初始形状。更具体而言，第t个视频帧中的目标对象的初始形状是通过使用变换矩阵对预确定形状执行变换操作而获得的，变换矩阵是基于第t个视频帧中的目标对象的初始姿态生成的。

其中，在一个实例中，预确定形状是目标对象的预生成的平均形状，所述目标对象的预生成的平均形状是基于目标对象的多个图像样本生成的，其中目标对象的形状在每一个图像样本中均被标记出来。为了获得更准确的目标对象的初始形状，在另一实例中，预确定形状是从目标对象的多个预生成的平均形状中选择的形状，其中对应于所选形状的目标对象的姿态与第t个视频帧中的目标对象的初始姿态最匹配。在另一实例中，预确定形状是基于第t个视频帧之前的至少一个视频帧中的目标对象的形状确定的形状。

返回至图5，在更新步骤s424中，更新单元340通过使用形状检测方法(例如，级联回归方法)更新第t个视频帧中的目标对象的初始形状，来确定第t个视频帧中的目标对象的最终形状。然后，基于所确定的目标对象的最终形状，更新单元340通过使用姿态估算方法(例如，posit算法)更新第t个视频帧中的目标对象的初始姿态，来确定第t个视频帧中的目标对象的最终姿态，因此更准确的目标对象的姿态可被传递至后续视频帧。

如上所述，视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束也可用于确定第t个视频帧中的目标对象的初始姿态。因此，图7中示出图4中所示的步骤s420的另一流程图。将图7与图5进行比较，图7中所示的流程图中的主要区别在于，步骤s420还包括变化约束确定步骤s425。也就是说，根据图7中所示的流程图还将确定第t个视频帧中目标对象的姿态变化约束。

如图7中所示，在变化信息确定单元310在变化信息确定步骤s421中确定目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势之后，在变化约束确定步骤s425中，变化约束确定单元350基于第t个视频帧中的关联主对象的姿态及第t个视频帧中目标对象与关联主对象之间的约束关系，确定第t个视频帧中目标对象的姿态变化约束。

在一种实现方式中，为了获得更准确的关联主对象的姿态，通过对第t个视频帧中的关联主对象使用姿态检测器(例如，基于adaboost的检测器)来确定第t个视频帧中的关联主对象的姿态。更具体而言，首先，使用姿态检测器从第t个视频帧中检测关联主对象，然后使用姿态检测器识别第t个视频帧中的关联主对象的姿态。其中，姿态检测器是使用通用监督机器学习方法、基于不同姿态情况下的关联主对象的多个预标注样本生成的。

为了以较少的计算量确定关联主对象的姿态和/或为了确保无论关联主对象是否被其他对象遮挡或无论关联主对象是否运动都能够确定关联主对象的姿态，在另一种实现方式中，根据图8中所示的流程图确定第t个视频帧中的关联主对象的姿态。

如图8中所示，在步骤s4251中，基于第t个视频帧之前的至少一个视频帧中的关联主对象的姿态，确定关联主对象从第(t-1)个视频帧至第t个视频帧的姿态变化信息(即，姿态变化趋势)。其中，确定关联主对象的姿态变化趋势的过程与上述确定目标对象的姿态变化趋势的过程类似，此处将不再重复详细说明。

在一种实现方式中，通过对第t个视频帧之前的每一个视频帧中的关联主对象使用上述姿态检测器，确定对应视频帧中的关联主对象的姿态。在另一种实现方式中，基于在第t个视频帧之前的每一个视频帧中确定的目标对象的最终形状和目标对象的最终姿态、以及对应视频帧中目标对象与关联主对象之间的约束关系，确定对应视频帧中的关联主对象的姿态。另外，使用上述姿态估算方法确定第t个视频帧之前的每一个视频帧中的关联主对象的姿态。

然后，在步骤s4252中，基于第(t-1)个视频帧中的关联主对象的姿态、以及所确定的关联主对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势，确定第t个视频帧中的关联主对象的姿态。其中，确定关联主对象的姿态的过程与上述确定目标对象的初始姿态的过程类似，此处将不再重复详细说明。

然后，在确定第t个视频帧中的关联主对象的姿态之后，可相应地确定第t个视频帧中目标对象的姿态变化约束。例如，如上所述，假设目标对象的姿态变化约束由预确定规则描述并且假设目标对象的姿态相对于其关联主对象可变化或运动的正常可用变化范围为(-40度，40度)，在第t个视频帧中的关联主对象的姿态为0度的情况下，第t个视频帧中目标对象的姿态变化约束为(-40度，40度)。在第t个视频帧中的关联主对象的姿态为20度的情况下，第t个视频帧中目标对象的姿态变化约束为(-20度，60度)。

返回至图7，在变化约束确定步骤s425中确定第t个视频帧中目标对象的姿态变化约束之后，在姿态确定步骤s422中，姿态确定单元320通过偏移量对第(t-1)个视频帧中的目标对象的姿态进行补偿，确定第t个视频帧中的目标对象的初始姿态。其中，偏移量是基于目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势及第t个视频帧中目标对象的姿态变化约束确定的。其中，在目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势超过第t个视频帧中的姿态变化约束的情况下，使用第t个视频帧中的姿态变化约束来调整目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势。进一步地，以图6a至图6c中所示的人脸(即，目标对象)为例，假设第t个视频帧中人脸的姿态变化约束为(-20度，20度)，如上所述，人脸从第(t-1)个视频帧至第t个视频帧的姿态变化趋势为，人脸的角速度为30度/视频帧。由于人脸从第(t-1)个视频帧至第t个视频帧的姿态变化趋势大于人脸的所确定的姿态变化约束的最大值，因此将人脸的所确定的姿态变化约束的最大值(即，20度)视为对应的偏移量。如上所述，第(t-1)个视频帧中人脸的姿态是人脸偏航角为0度，因此认为第t个视频帧中人脸的初始姿态为20度。

另外，由于图7中所示的变化信息确定步骤s421、形状确定步骤s423和更新步骤s424与图5中所示的对应步骤s421、s423和s424相同，因此此处将不再重复详细说明。

如上所述，一个视频帧中的目标对象的形状可由对应的特征点表示。因此，在无法从对应视频帧获得目标对象的全部特征点的情况下，诸如在视频帧中目标对象被其他对象遮挡的情况下，可确定目标对象的形状的一部分特征点，来辅助跟踪视频中目标对象的形状。图9是例示根据本发明第二实施例的装置900的配置的框图。其中，图9中所示的一些或全部模块可由专用硬件实现。另外，在该实施例中，同时亦考虑了视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束。然而，显然不必局限于此。

将图9与图3进行比较，图9中所示的装置900的主要区别如下：

首先，装置900还包括特征点确定单元910，其中特征点确定单元910的详细说明将在下文进行描述。

接着，在该实施例中，一个视频帧中的目标对象的姿态描述目标对象在该视频帧中的位置相关空间属性而非方向相关空间属性。

如图9中所示，针对所接收视频的当前视频帧(诸如第t个视频帧)中的目标对象，首先，特征点确定单元910确定第t个视频帧中的目标对象的形状的特征点。换言之，特征点确定单元910首先将从第t个视频帧中的目标对象的形状的所有特征点确定对应的关键特征点。

在一种实现方式中，特征点确定单元910确定的关键特征点是几何关系相对于视频中的目标对象的姿态变化稳定的特征点。其中，几何关系相对于目标对象的姿态变化稳定的特征点可基于根据先前知识或根据统计过程生成的预定义规则来预定义。例如，在目标对象是人脸的情况下，由于眼角处的特征点及鼻尖处的特征点的位置及这些特征点之间的距离相对于人脸的姿态变化稳定，因此这些特征点可被视为关键特征点。

在另一种实现方式中，特征点确定单元910确定的关键特征点是由第t个视频帧中的目标对象的形状的遮挡信息表示的非遮挡特征点。其中，针对任何一个视频帧，该视频帧中的目标对象的形状的遮挡信息将目标对象的形状的特征点表示为遮挡特征点和非遮挡特征点。更具体而言，第t个视频帧中的目标对象的形状的遮挡信息通过以下过程确定。

首先，通过基于预生成的遮挡分类器或其他遮挡判断方法判断图9中所示的更新单元340确定的第(t-1)个视频帧中的目标对象的最终形状的每一个特征点的遮挡信息，更新第(t-1)个视频帧中的目标对象的形状的遮挡信息。在一种实现方式中，预生成的遮挡分类器是使用诸如支持向量机(supportvectormachine，svm)算法、adaboost算法等学习法、根据正样本和负样本生成的二进制分类器。其中，正样本是通过对遮挡特征点周围的对应图像进行采样生成的，而负样本是通过对非遮挡特征点周围的对应图像进行采样生成的。

其中，例如，第(t-1)个视频帧中的目标对象的最终形状通过以下过程确定：首先，更新单元340使用形状检测方法(例如，级联回归方法)，更新形状确定单元330确定的目标对象的初始形状的非遮挡特征点的位置；然后，更新单元340基于更新的非遮挡特征点的位置及非遮挡特征点与遮挡特征点之间相对于目标对象区域的几何关系，更新形状确定单元330确定的目标对象的初始形状的遮挡特征点的位置。其中，目标对象区域可基于从先前视频帧获得的对象跟踪结果(例如，对象形状)来估算，或者可使用现有检测方法在对应视频帧中检测到。

其中，针对所接收视频的第1个视频帧，检测单元360还可用于检测第1个视频帧中检测到的目标对象的形状的对应遮挡信息。

接着，在更新第(t-1)个视频帧中的目标对象的形状的遮挡信息之后，基于第t个视频帧之前的至少一个视频帧中的目标对象的形状的遮挡信息，确定第t个视频帧中的目标对象的形状的遮挡信息。在一个实例中，直接将更新的第(t-1)个视频帧中的目标对象的形状的遮挡信息视为第t个视频帧中的目标对象的形状的遮挡信息。在另一实例中，使用基于统计的方法、基于在第t个视频帧之前的多个视频帧中确定的目标对象的形状的遮挡信息，确定第t个视频帧中的目标对象的形状的遮挡信息。

其中，变化信息确定单元310确定的目标对象从第(t-1)个视频帧至第t个视频帧的姿态变化趋势是所确定的关键特征点从第(t-1)个视频帧至第t个视频帧的位置变化信息(即，位置变化趋势)。其中，针对任何一个所确定的关键特征点，对应位置变化信息是基于该关键特征点在第t个视频帧之前的至少一个视频帧中的位置确定的。例如，针对从第(t-1)个视频帧至第t个视频帧的一个所确定的关键特征点，在第t个视频帧之前仅一个视频帧可用的情况下，将预定义运动状态(例如，静止或预定速度运动状态)视为该关键特征点的对应位置变化趋势。在第t个视频帧之前两个视频帧可用的情况下，一个匀速度将视为该关键特征点的对应位置变化趋势。在第t个视频帧之前多于两个视频帧可用的情况下，该关键特征点的对应位置变化趋势将基于通过对该关键特征点在可用视频帧之间的对应位置相关空间属性执行基于时序的位置变化预测方法确定的速度和加速度来确定。

其中，更新单元340确定的第t个视频帧中目标对象的最终姿态是第t个视频帧中目标对象的最终形状的所确定的关键特征点的位置。

另外，由于图9中所示的变化信息确定单元310、姿态确定单元320、形状确定单元330、更新单元340、变化约束确定单元350及检测单元360与图3中所示的对应单元相同，因此此处将不再重复详细说明。

如上所述，在本发明中，针对视频中处于运动情况下的目标对象，在确定一个视频帧中的目标对象的初始形状时，还将考虑视频中目标对象的运动(尤其是转动)所致的目标对象从先前视频帧至该视频帧的姿态变化趋势及视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束。因此，将提高为一个视频帧确定的目标对象的初始形状的准确性。从而，也将提高为对应视频帧确定的目标对象的最终形状的准确性。因此，根据本发明，将提高对象形状的准确性。

在跟踪视频中处于运动情况下的目标对象的形状的过程中，在实际应用中，由于目标对象自身转动或被其他对象遮挡所致，目标对象经常在视频的某些视频帧之间不可见。通常，在这种情况下，现有技术将不会对其中目标对象不可见的对应视频帧执行任何操作，且将对其中目标对象再次可见的后续视频帧重新执行跟踪过程，这将导致跟踪整个视频中的目标对象的形状的过程中断。因此，整个视频中目标对象的跟踪身份编号(trackingidentification，id)将被切换或整个视频中目标对象的跟踪将被丢失，即对象跟踪的准确性将受到影响。例如，切换目标对象的跟踪id包括赋予目标对象新的跟踪id或交换目标对象与另一个正在跟踪的对象的跟踪id。尤其是，在统计一个特定空间内或通过一个特定空间的人的数量的人数统计应用中，在跟踪视频中的人的形状的过程中切换了一个人的跟踪id的情况下，将会输出错误的人数统计结果。因此，为了使跟踪整个视频中的目标对象的形状的过程能够连续执行，无论目标对象是否可见，本发明将继续预测其中目标对象不可见的视频帧中的目标对象的姿态和形状。

图10是例示根据本发明第三实施例的装置1000的配置的框图。其中，图10中所示的一些或全部模块可由专用硬件实现。另外，在该实施例中，同时亦考虑了视频中目标对象的关联主对象的姿态所致的目标对象的姿态变化约束。然而，显然不必局限于此。其中，在该实施例中，一个视频帧中的目标对象的姿态描述目标对象在该视频帧中的方向相关空间属性。然而，一个视频帧中的目标对象的姿态还可描述目标对象在该视频帧中的位置相关空间属性。也就是说，作为可选解决方案，还可为该视频帧中的目标对象的形状确定关键特征点。

将图10与图3进行比较，图10中所示的装置1000的主要区别在于，装置1000还包括第一判断单元1010。

如图10中所示，针对所接收视频的当前视频帧(诸如第t个视频帧)中的目标对象，在形状确定单元330确定第t个视频帧中的目标对象的初始形状之后，第一判断单元1010基于第t个视频帧中的目标对象的置信度，判断目标对象在第t个视频帧中是否可见。在第一判断单元1010判断目标对象在第t个视频帧中可见的情况下，更新单元340更新形状确定单元330确定的目标对象的初始形状，并且基于更新的目标对象的形状更新姿态确定单元320确定的目标对象的初始姿态。反之，在目标对象在一个视频帧中不可见的情况下，本发明将仅使用姿态确定单元320和形状确定单元330来确定目标对象的初始姿态和目标对象的初始形状。并且，目标对象的初始姿态和目标对象的初始形状将被传递至后续视频帧以执行后续操作，因此跟踪整个视频中的目标对象的形状的过程将被连续。

此外，为了确保对象跟踪的准确性，在判断目标对象在第(t-1)个视频帧中不可见而在第t个视频帧中可见的情况下，即在目标对象的可见性在第t个视频帧中恢复的情况下，本发明将进一步判断第(t-1)个视频帧中的目标对象与第t个视频帧中的目标对象是否属于同一对象，以避免错误地切换跟踪id。因此，将图10与图3进行比较，图10中所示的装置1000还包括第二判断单元1020。

如图10中所示，在第一判断单元1010判断目标对象在第(t-1)个视频帧中不可见而在第t个视频帧中可见的情况下，首先，检测单元360检测第t个视频帧中的目标对象的对应形状和对应姿态，然后，第二判断单元1020基于相似性度量，判断检测单元360检测的第t个视频帧中的目标对象的形状与更新单元340确定的第t个视频帧中的目标对象的最终形状是否属于同一对象。在判断检测单元360检测的第t个视频帧中的目标对象的形状与更新单元340确定的第t个视频帧中的目标对象的最终形状属于同一对象的情况下，第(t-1)个视频帧中的目标对象与第t个视频帧中的目标对象将被视为属于同一对象，并且将对第(t-1)个视频帧及第t个视频帧中的目标对象的形状标记同一对象标签(例如，同一跟踪id)。

另外，由于图10中所示的变化信息确定单元310、姿态确定单元320、形状确定单元330、更新单元340、变化约束确定单元350及检测单元360与图3中所示的对应单元相同，因此此处将不再重复详细说明。

图11示意性地示出根据本发明第三实施例的如图4所示的步骤s420的流程图。

如图11中所示，形状确定单元330在形状确定步骤s423中确定第t个视频帧中的目标对象的初始形状之后，在第一判断步骤s1110中，第一判断单元1010判断目标对象在第t个视频帧中是否可见。

在一种实现方式中，第一判断单元1010对第t个视频帧执行对象检测方法(例如，人脸检测方法)并在通过对象检测方法获得的置信度大于或等于预定义阈值(例如，th1)的情况下，判断目标对象在第t个视频帧中可见。

在另一种实现方式中，在第t个视频帧中目标对象被其他对象(下文中称为第三对象)遮挡的情况下，第一判断单元1010使用现有检测方法检测第t个视频帧中目标对象的区域及第三对象的区域，计算目标对象的区域面积与第三对象的区域面积之间的重叠率，并且在所计算的重叠率小于预定义阈值(例如，th2)的情况下，判断目标对象在第t个视频帧中可见。

返回至图11，在第一判断步骤s1110中判断目标对象在第t个视频帧中不可见的情况下，将仅确定目标对象的初始姿态和目标对象的初始形状。否则，将在更新步骤s424中确定目标对象的最终姿态和目标对象的最终形状。如图12中所示，由于人脸(即，目标对象)自身转动，因此人脸从第(i+3)个视频帧至第(i+5)个视频帧不可见。因此，根据本发明，针对从第(i+3)个视频帧至第(i+5)个视频帧的人脸，将仅确定初始姿态和初始形状。

然后，在步骤s1120中，第二判断单元1020判断目标对象从(t-1)个视频帧至第t个视频帧的可见性是否从不可见变为可见。如果否，则意味着目标对象在先前视频帧之间始终可见，第二判断单元1020将不执行后续操作。否则，诸如图12中所示的第(i+6)个视频帧中的目标对象，在步骤s1130中，图10中所示的检测单元360检测第t个视频帧中的目标对象的对应形状和对应姿态。

然后，在步骤s1140中，第二判断单元1020基于相似性度量，判断检测单元360检测的第t个视频帧中的目标对象的形状与更新单元340确定的第t个视频帧中的目标对象的最终形状是否属于同一对象。在一种实现方式中，相似性度量是使用例如余弦距离(cosinedistance)或欧式距离(euclideandistance)、基于检测单元360检测的第t个视频帧中的目标对象的姿态及更新单元340确定的第t个视频帧中的目标对象的最终姿态计算的。例如，在所计算的相似性度量大于或等于预定义阈值(例如，th3)的情况下，第二判断单元1020判断检测单元360检测的第t个视频帧中的目标对象的形状与更新单元340确定的第t个视频帧中的目标对象的最终形状属于同一对象。

另外，由于图11中所示的变化信息确定步骤s421、姿态确定步骤s422、形状确定步骤s423、更新步骤s424和变化约束确定步骤s425与图5中所示的对应步骤相同，因此此处不再重复详细说明。

作为参照图10至图11的上述过程的示例性应用，接下来，将参照图13描述用于跟踪视频中的人的形状的示例性图像处理系统。如图13中所示，图像处理系统1300包括第一图像处理装置1310、装置1000(即，第二图像处理装置)及第三图像处理装置1320。在一种实现方式中，装置1000、第一图像处理装置1310和第三图像处理装置1320经由系统总线彼此连接。在另一种实现方式中，装置1000、第一图像处理装置1310和第三图像处理装置1320经由网络彼此连接。另外，装置1000、第一图像处理装置1310和第三图像处理装置1320可经由相同的电子设备(例如，电脑、pda、移动电话、相机)实现。可选地，装置1000、第一图像处理装置1310和第三图像处理装置1320还可经由不同的电子设备实现。

如图13中所示，首先，装置1000和第一图像处理装置1310接收从专门电子设备(例如，相机)输出或由用户输入的视频。

针对输入视频中要跟踪的人(即，目标对象)，第一图像处理装置1310确定输入视频的每一个视频帧中该人的第一跟踪信息。在一种实现方式中，第一图像处理装置1310例如对输入视频的每一个视频帧执行通用跟踪方法，以确定对应的第一跟踪信息。每一个视频帧中一个人的形状的跟踪信息例如包括该人的跟踪id、该人的形状的轨迹(例如，每一个特征点的轨迹)等。

针对输入视频中要跟踪的人，装置1000基于参照图10至图11确定的在输入视频的每一个视频帧中该人的形状及在输入视频的每一个视频帧中该人的姿态，确定在输入视频的每一个视频帧中该人的第二跟踪信息。如本发明第三实施例中所述，在跟踪输入视频中要跟踪的人的形状的过程中，在该人的可见性在某一视频帧中恢复的情况下，针对从该视频帧的其中该人不可见的先前视频帧确定的形状以及从其中该人可见的该视频帧确定的形状，装置1000将确定这两个形状是否属于同一对象(即，要跟踪的人)。在判断这两个形状属于同一对象的情况下，将对这两个形状标记同一跟踪id。

然后，针对输入视频中要跟踪的人，在第一跟踪信息与第二跟踪信息不同的情况下，第三图像处理装置1320基于装置1000确定的第二跟踪信息，更新第一图像处理装置1310确定的第一跟踪信息。

如上所述，在本发明中，无论目标对象是否可见，本发明都将持续预测其中目标对象不可见的视频帧中的目标对象的姿态及形状。并且，在目标对象的可见性恢复的情况下，本发明将执行对应的匹配过程。因此，根据本发明的跟踪整个视频中的目标对象的形状的过程能够连续执行，并且会将属于同一对象的多个跟踪id恢复为同一跟踪id。因此，将提高对象跟踪的准确性。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(fpga)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以各种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，而不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金浩;黄耀海;陈存建;赵东悦
技术所有人：佳能株式会社
我是此专利的发明人

上一篇：一种开胃补虚五谷杂粮粉及其制备方法与流程
上一篇：一种双重保险的智能门锁的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。