专利名称:运动特征提取方法和装置,以及视频处理装置的制作方法
技术领域:
本发明总体上涉及计算机视觉领域,更具体而言,涉及一种运动特征提取方法和装置以及一种视频处理装置。
背景技术:
视频的运动信息是通过分析同一视频中不同帧之间的物体的相对位移得到的关于视频中物体的运动、镜头变化以及整个画面的移动等信息。作为视频中的重要信息,运动信息在计算机视觉领域的视频分类、视频检索、视频分段、运动物体检测、事件检测、镜头边界检测等问题中发挥着重要作用,有着广泛的应用。如何提取较高层次的运动特征,以便更加准确全面地描述视频的运动内容,对于后续的视频分析、检测等有着重要影响。美国专利公开US 7,852,938B2提出了一种对运动矢量处理的方法。在所述方法中,建立运动矢量金字塔,金字塔的上一层的较大块尺寸的运动矢量由相邻下一层的较小块尺寸的运动矢量合并而成,由此得到基于不同块尺寸的运动矢量。但是此方法未对帧内不同区域进行区分。Xavier Gibert, Huiping Li 和 David Doermann 的 “Sports videoclassification using HMMS”, Proceedings of International Conference onMultimedia & Expo, pp. 345-348, 2003中公开了一种通过统计运动矢量直方图来生成运动特征向量的方法。但此方法仅在整个帧的范围内统计直方图,得到的结果缺乏对帧内局部运动信息的描述
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本发明的一个目的是提出一种运动特征提取方法和装置,以克服现有技术中的上述缺陷中的至少一种。本发明的另一目的是提出一种视频处理装置,以利用通过本发明的运动特征提取装置提取的视频中每一帧的运动特征对视频进行处理。根据本发明的一个方面,提供了一种运动特征提取方法,包括将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;生成金字塔的每层中的每个子区域的运动矢量直方图;以及将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。根据本发明的另一方面,提供了一种运动特征提取装置,包括子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;直方图生成部件,用于生成金字塔的每层中的每个子区域的运动矢量直方图;以及直方图拼接部件,用于将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。根据本发明的另一方面,提供了一种视频处理装置,包括运动特征提取部件,用于提取待处理视频中的每一帧输入图像的运动特征;以及视频处理部件,用于利用每一帧的运动特征对视频进行处理,其中,所述运动特征提取部件包括子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图,以及直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。使用根据本发明的以上方面的方法和装置提取出的运动特征能够准确、全面地描述输入图像内局部及整体的运动信息,同时能够区分处理输入图像中前景和背景的运动信
肩、O
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出根据本发明的一个实施例的运动特征提取方法的示意性流程图;图2示出根据本发明 的一个实施例的子区域划分示例;图3示出根据本发明的一个实施例的子区域金字塔构造示例;图4示出金字塔的各个层中的每个子区域的运动矢量直方图示例;图5示出将图4的各个层中的子区域的运动矢量直方图拼接的示例;图6示出根据本发明的另一个实施例的运动特征提取方法的示意性流程图;图7a示出子区域中的块的运动矢量示例;图7b示出将图7a中的子区域中的各块的运动矢量划分到不同方向上的示例;图7c示出通过合计图7b中的运动矢量得到的示意性运动矢量直方图;图8示出根据本发明的另一实施例的运动矢量提取方法的流程图;图9示出根据本发明的一个实施例的视频处理方法的示意性流程图;图10示出根据本发明的一个实施例的运动特征提取装置的示意性框图;图11示出根据本发明的一个实施例的金字塔构造部件的示意性框图;图12示出根据本发明的另一个实施例的运动特征提取装置的示意性框图;图13示出根据本发明的一个实施例的直方图生成部件的示意性框图;图14示出根据本发明的另一个实施例的运动特征提取装置的示意性框图;图15示出根据本发明的一个实施例的视频处理装置的示意性框图;以及图16示出可以实现本公开的实施例/示例的计算机的结构的示例性框图。
具体实施例方式下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。鉴于现有技术的上述情形,本申请的发明人构思了一种运动特征提取方法和装置,以便从输入图像中提取运动特征。本申请的发明人还构思了一种视频处理方法和装置。在本公开中,输入图像可以是诸如图片的静止图像或诸如视频帧的动态图像。另外,在实际应用中,本发明的方法和装置往往应用于一组输入图像,该组输入图像是按时间顺序拍摄的多个静止图像,或者是一段视频中的多帧动态图像。以下,将以下面的顺序来描述示例性实施例。1.运动特征提取方法2.视频处理方法3.运动特征提取装置4.视频处理装置5.可实施本公开的方法/装置的计算机结构〈1.运动特征提取方法〉下面将参考图1-8详细描述根据本发明实施例的运动特征提取方法。
图1示出根据本发明的一个实施例的运动特征提取方法的示意性流程图。如图1所示,首先,在步骤SllO中,将输入图像划分为多个子区域。在本发明的实施例中,划分出的多个子区域形成嵌套的“回”字形结构。“回”字形结构的子区域划分,能够突出画面的中心区域,也就是大多数视频中拍摄对象集中出现的区域,从而可以对输入图像中前景和背景中出现的运动分别进行统计。为了说明而不是限制,以下给出一个具体的划分步骤示例。首先,在输入图像的中心取一个矩形区域;然后,将此矩形区域的边缘与输入图像的边缘之间的环形区域分割n-1个环形子区域,由此划分出的n个子区域形成嵌套的“回”字形结构,n为大于I的自然数。为了均匀划分,在其他示例中,可以使划分出的各个环形区域的横向宽度或纵向宽度相
坐寸o为方便理解,图2不出将输入图像划分为多个子区域的图案不例。在图2中,输入图像被划分为4个子区域1,2,3和4。为了方便观看和说明,采用了白色和暗色来区分不同的子区域。其中,子区域I由输入图像中心的白色矩形区域表示,子区域2由围绕子区域I的暗色环形区域表示,子区域3由围绕子区域2的白色环形区域表示,子区域4由围绕子区域3的暗色环形区域表示。这四个子区域形成嵌套的“回”字形结构。返回到图1,在步骤S120中,从所述多个子区域构造子区域金字塔。所述金字塔可以包含一层或多层子区域。作为一个具体实施例,可以采用以下步骤来构造子区域金字塔(I)以从输入图像划分的多个子区域作为金字塔的最下层子区域;以及(2)通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成金字塔的其他层子区域。例如,假设在以上的步骤SllO中将输入图像划分为n个子区域,则在构造金字塔时,可以以这n个子区域作为金字塔的最下层子区域;将所述n个子区域中相邻的每两个或多个子区域合并,形成
权利要求
1.一种运动特征提取方法,包括 将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构; 从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域; 生成所述金字塔的每层中的每个子区域的运动矢量直方图;以及 将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
2.根据权利要求1的运动特征提取方法,其中,从所述多个子区域构造子区域金字塔包括 以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及 通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
3.根据权利要求1或2的运动特征提取方法,还包括 将所述输入图像划分为相等大小的多个块;以及 计算所述输入图像中的每个块的运动矢量,以及 其中,生成所述金字塔的每层中的每个子区域的运动矢量直方图包括针对每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
4.根据权利要求3的运动特征提取方法,其中,按方向合计所述子区域中的块的运动矢量的模长包括 将所述子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中; 将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及 合计映射到每个方向上的运动矢量的幅度。
5.根据权利要求1或2的运动特征提取方法,其中,在将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,所述方法还包括 针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
6.一种运动特征提取装置,包括 子区域划分部件,用于将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构; 金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域; 直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图;以及 直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
7.根据权利要求6的运动特征提取装置,其中,所述金字塔构造部件包括 最下层确定部件,用于以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及其他层生成部件,用于通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
8.根据权利要求6或7的运动特征提取装置,还包括 块划分部件,用于所述输入图像划分为相等大小的多个块;以及运动矢量计算部件,用于计算所述输入图像中的每个块的运动矢量,以及其中,所述直方图生成部件进一步用于针对所述金字塔的每层中的每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
9.根据权利要求8的运动特征提取装置,其中,所述直方图生成部件包括 坐标变换部件,用于将每个子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中; 运动矢量映射部件,用于将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及 模长合计部件,用于合计映射到每个方向上的运动矢量的幅度。
10.根据权利要求6或7的运动特征提取装置,还包括 加权部件,用于在所述直方图拼接部件将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
11.一种视频处理装置,包括 运动特征提取部件,用于提取待处理视频中的每一帧输入图像的运动特征;以及 视频处理部件,用于利用所述每一帧的运动特征对所述视频进行处理, 其中,所述运动特征提取部件包括 子区域划分部件,用于将输入图像划分为多个子区域,所述多个 子区域形成嵌套的“回”字形结构, 金字塔构造部件,用于从所述多个子区域构造子区域金字塔,所 述金字塔包含一层或多层子区域, 直方图生成部件,用于生成所述金字塔的每层中的每个子区域的运动矢量直方图,以及 直方图拼接部件,用于将所述金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为所述输入图像的运动特征。
12.根据权利要求11的视频处理装置,其中,所述处理包括以下中的至少一种视频分类、视频检索、视频分段、运动物体检测、事件检测、以及镜头边界检测。
13.根据权利要求11的视频处理装置,其中,所述金字塔构造部件包括 最下层确定部件,用于以从所述输入图像划分的所述多个子区域作为所述金字塔的最下层子区域;以及 其他层生成部件,用于通过将下一层的相邻两个或更多个子区域合并以形成金字塔中相邻上一层的子区域,自下向上逐一生成所述金字塔的其他层子区域。
14.根据权利要求11至13中的任一项的视频处理装置,所述运动特征提取部件还包括块划分部件,用于所述输入图像划分为相等大小的多个块;以及运动矢量计算部件,用于计算所述输入图像中的每个块的运动矢量,以及其中,所述直方图生成部件进一步用于针对所述金字塔的每层中的每个子区域按方向合计所述子区域中的块的运动矢量的模长,由此生成以方向为维度的所述子区域的运动矢量直方图。
15.根据权利要求14的视频处理装置,其中,所述直方图生成部件包括 坐标变换部件,用于将每个子区域中的所有块的运动矢量由平面直角坐标系变换到极坐标系中; 运动矢量映射部件,用于将每个块的运动矢量按角度映射到多个角度范围之一上,每个角度范围对应于一个方向;以及 模长合计部件,用于合计映射到每个方向上的运动矢量的幅度。
16.根据权利要求11至13中任一项的视频处理装置,所述运动特征提取部件还包括 加权部件,用于在所述直方图拼接部件将所述金字塔的各个层中的子区域的运动矢量直方图拼接之前,针对所述金字塔中的至少一层,在从所述输入图像的中心到外围的方向上对所述层中的各个子区域的运动矢量直方图施以递减的权重。
全文摘要
本发明公开一种运动特征提取方法和装置,以及一种视频处理装置。所述运动特征提取方法包括将输入图像划分为多个子区域,所述多个子区域形成嵌套的“回”字形结构;从所述多个子区域构造子区域金字塔,所述金字塔包含一层或多层子区域;生成金字塔的每层中的每个子区域的运动矢量直方图;以及将金字塔的各个层中的子区域的运动矢量直方图拼接,得到拼接的运动矢量直方图,作为输入图像的运动特征。
文档编号H04N5/14GK103067646SQ20111033522
公开日2013年4月24日 申请日期2011年10月21日 优先权日2011年10月21日
发明者王丽华 申请人:索尼公司