目标获取方法及设备的制造方法

文档序号:10625051阅读:180来源:国知局
目标获取方法及设备的制造方法
【专利摘要】本申请提供一种目标获取方法及设备,根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置,对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域,及根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域的,能够快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区分和获取。
【专利说明】
目标获取方法及设备
技术领域
[0001] 本申请设及通信及计算机领域,尤其设及一种目标获取方法及设备。
【背景技术】
[0002] 随着4G时代的到来,移动端的信息传递方式并不仅限于文本和图片,更多地来自 于视频。互联网公司也纷纷推出了相关的应用接口,视频信息的获取技术成为近期的研究 热点之一。
[0003] 现有的多目标跟踪技术大多应用于雷达、航空领域,包括空间跟踪方法和时 间-空间跟踪方法等,其中,空间跟踪方法是单独对每帖图像信号进行处理,利用目标信号 在二维空间中的特征跟踪运动目标;时间-空间跟踪方法是同时利用目标在空间域的特征 和时间域的运动特性,它又分为对比度跟踪和图像相关跟踪两类。其他的还有基于粒子滤 波器的方法,基于均值漂移方法等。
[0004] 现有的多目标跟踪技术的适用场景较为单一,跟踪目标类型较为单一,其原因在 于:一方面由于现有的多类分类器的分类精度较低且考虑到运行效率无法使用深度神经网 络等复杂分类算法;另一方面由于多目标跟踪不仅需要面对目标和背景的区分问题,还需 要面临目标之间的相互区分问题。 阳0化]针对目标跟踪算法而言,W简单的单目标而言,现有的化enTLD达到了较为稳定 的效果,且开放了源代码,但其只针对单目标。而现有的通过α^Ν建立通用的多类目标模 型,在视频第一帖开始时就进行多目标检测,给出各个目标所在的位置,然后利用传统的目 标跟踪方法就可W进行跟踪的方案在多目标检测过程中需要消耗大量的计算,而且需要在 线下训练庞大的模型,对于计算和存储的消耗都是巨大的,也很难满足视频中实时应用的 要求。

【发明内容】

[0006] 本申请的目的是提供一种目标获取方法及设备,解决如何对多个目标进行精确区 分和获取的问题。
[0007] 有鉴于此,本申请提供一种目标获取方法,包括:
[0008] 根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估位置;
[0009] 对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选区域;
[0010] 根据每一视频帖中的所有所述目标候选区域,并结合所述目标候选区域的置信度 及对应尺度处理,确定该视频帖中的目标实际区域。
[0011] 进一步的,根据每一视频帖中的所有所述目标候选区域,并结合所述目标候选区 域的置信度及对应尺度处理,确定该视频帖中的目标实际区域之后,所述方法还包括:
[0012] 将两相邻时刻的视频帖中的同一目标实际区域进行比较,判定视频帖中的该目标 实际区域是否为无效。
[0013] 进一步的,根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估位置 之前,所述方法还包括:
[0014] 对每一视频帖进行大小归一化处理。
[0015] 进一步的,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、全局 运动特征中一个或多个。
[0016] 进一步的,每一视频帖的全局灰度特征根据该视频帖的Ξ个颜色通道之和的均值 得到。
[0017] 进一步的,每一视频帖的全局纹理特征利用G油or矩阵或Canny算子的边缘检测 算法进行提取。
[0018] 进一步的,每一视频帖的全局颜色特征的提取包括:
[0019] 根据每一视频帖的Ξ个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
[0020] 根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
[0021] 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帖的全局 颜色特征。
[0022] 进一步的,每一视频帖的全局运动特征的提取包括:
[0023] 将每一视频帖的灰度特征图与对应前一视频帖的灰度特征图的差值的绝对值作 为该视频帖的全局运动特征。
[0024] 进一步的,根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估位 置,包括:
[00巧]对每一视频帖的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帖中 的各尺度的目标预估位置。
[00%] 进一步的,对每一视频帖的全局特征进行加权和多尺度的频域幅度谱滤波得到该 视频帖中的各尺度的目标预估位置,包括:
[0027] 对每一视频帖的全局特征进行加权得到矩阵多项式;
[0028] 对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;
[0029] 将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域;
[0030] 对每个尺度的频域进行反傅里叶变换得到该视频帖中的各尺度的目标预估位置。
[0031] 进一步的,将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频 域,包括:
[0032] 根据所述频域多项式矩阵得到对应的幅度谱;
[0033] 采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度 滤波后的幅度谱;
[0034] 根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。
[0035] 进一步的,对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候 选区域,包括:
[0036] 根据每一视频帖中的每一尺度的每个目标预估位置得到对应的目标候选区域;
[0037] 判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选 区域滤除;
[0038] 对每个未滤除的目标候选区域做直方图,并且W直方图计算各个目标候选区域的 信息赌作为对应目标候选区域的置信度。
[0039] 进一步的,根据每一视频帖中的每一尺度的每个目标预估位置得到对应的目标候 选区域,包括:
[0040] 依次将每一视频帖中的每一尺度的每个目标预估位置作为当前视频帖中的当前 尺度的当前目标预估位置,并依次对当前视频帖中的当前尺度的当前目标预估位置作如下 处理:
[0041] 将当前视频帖中的当前尺度的当前目标预估位置中的像素标记为未访问过;
[0042] 对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未 访问过且像素值大于预设值的一个像素作为中屯、像素,将所述中屯、像素标记为访问过;
[0043] 获取所述中屯、像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将 获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
[0044] 初始化一个对应于当前目标预估位置的目标候选区域,将所述中屯、像素和其邻域 内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
[0045] 进一步的,目标实际区域根据每一视频帖中的所有所述目标候选区域,并结合所 述目标候选区域的置信度及对应尺度处理,确定该视频帖中的目标实际区域,包括对每一 视频帖作如下处理:
[0046] 由尺度大到小将每一视频帖中的所有尺度的目标候选区域建立区域树形结构;
[0047] 根据每一视频帖的区域树形结构及其所有目标候选区域的置信度得到每一视频 帖中的目标实际区域。
[0048] 进一步的,根据每一视频帖的区域树形结构及其所有目标候选区域的置信度得到 每一视频帖中的目标实际区域,包括对每一视频帖的区域树形结构的各个结点区域由尺度 大到小进行遍历,并按如下情况迭代获取每一视频帖中的目标实际区域:
[0049] 若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作 为目标实际区域,并结束迭代;
[0050] 若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于 两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
[0051] 若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均 大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
[0052] 若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两 个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选 择置信度较高的子节点区域作为目标实际区域。
[0053] 本申请另一方面还提供一种用于目标获取的设备,包括:
[0054] 第一装置,用于根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估 位置;
[0055] 第二装置,用于对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目 标候选区域;
[0056] 第Ξ装置,用于根据每一视频帖中的所有所述目标候选区域,并结合所述目标候 选区域的置信度及对应尺度处理,确定该视频帖中的目标实际区域。
[0057] 进一步的,所述设备还包括:
[0058] 第四装置,用于将两相邻时刻的视频帖中的同一目标实际区域进行比较,判定视 频帖中的该目标实际区域是否为无效。
[0059] 进一步的,所述设备还包括:
[0060] 第五装置,用于对每一视频帖进行大小归一化处理。
[0061] 进一步的,每一视频帖的所有全局特征包括全局灰度特征、全局纹理特征、全局颜 色特征、全局运动特征中一个或多个。
[0062] 进一步的,每一视频帖的全局灰度特征根据该视频帖的Ξ个颜色通道之和的均值 得到。
[0063] 进一步的,每一视频帖的全局纹理特征利用G油or矩阵或Canny算子的边缘检测 算法进行提取。
[0064] 进一步的,每一视频帖的全局颜色特征的提取包括:
[00化]根据每一视频帖的Ξ个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵;
[0066] 根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵;
[0067] 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帖的全局 颜色特征。进一步的,每一视频帖的全局运动特征的提取包括:
[0068] 将每一视频帖的灰度特征图与其预设帖前的视频帖的灰度特征图的差值的绝对 值作为该视频帖的全局运动特征。
[0069] 进一步的,所述第一装置,用于对每一视频帖的全局特征进行加权和多尺度的频 域幅度谱滤波得到该视频帖中的各尺度的目标预估位置。
[0070] 进一步的,所述第一装置包括:
[0071] 第一一单元,用于对每一视频帖的全局特征进行加权得到矩阵多项式;
[0072] 第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩 阵;
[0073] 第一 Ξ单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度 的频域;
[0074] 第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帖中的各尺度 的目标预估位置。
[00巧]进一步的,所述第一装置包括:
[0076] 第一一单元,用于对每一视频帖的全局特征进行加权得到矩阵多项式;
[0077] 第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩 阵;
[0078] 第一 Ξ单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度 的频域;
[0079] 第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帖中的各尺度 的目标预估位置。
[0080] 进一步的,所述第一 Ξ单元包括:
[0081] 第一 Ξ-单元,用于根据所述频域多项式矩阵得到对应的幅度谱;
[0082] 第一 Ξ二单元,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱 滤波得到每个尺度滤波后的幅度谱;
[0083] 第一 ΞΞ单元,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺 度的频域。
[0084] 进一步的,所述第二装置包括:
[00化]第二一单元,用于根据每一视频帖中的每一尺度的每个目标预估位置得到对应的 目标候选区域;
[0086] 第二二单元,用于判断每个目标候选区域内的像素的个数是否小于预设个数,若 是则将该目标候选区域滤除;
[0087] 第二Ξ单元,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且W 直方图计算各个目标候选区域的信息赌作为对应目标候选区域的置信度。
[0088] 进一步的,所述第二一单元,用于依次将每一视频帖中的每一尺度的每个目标预 估位置作为当前视频帖中的当前尺度的当前目标预估位置,并依次对当前视频帖中的当前 尺度的当前目标预估位置作如下处理:
[0089] 将当前视频帖中的当前尺度的当前目标预估位置中的像素标记为未访问过;
[0090] 对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未 访问过且像素值大于预设值的一个像素作为中屯、像素,将所述中屯、像素标记为访问过;
[0091] 获取所述中屯、像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将 获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过;
[0092] 初始化一个对应于当前目标预估位置的目标候选区域,将所述中屯、像素和其邻域 内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。
[0093] 进一步的,所述第Ξ装置包括:
[0094] 第Ξ-单元,用于由尺度大到小将每一视频帖中的所有尺度的目标候选区域建立 区域树形结构;
[0095] 第Ξ二单元,用于根据每一视频帖的区域树形结构及其所有目标候选区域的置信 度得到每一视频帖中的目标实际区域。
[0096] 进一步的,所述第Ξ二单元,用于对每一视频帖的区域树形结构的各个结点区域 由尺度大到小进行遍历,并按如下情况迭代获取每一视频帖中的目标实际区域:
[0097] 若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作 为目标实际区域,并结束迭代;
[0098] 若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于 两个子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代;
[0099] 若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均 大于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域;
[0100] 若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两 个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选 择置信度较高的子节点区域作为目标实际区域。 阳101] 与现有技术相比,本申请根据每一视频帖的全局特征得到该视频帖中的各尺度的 目标预估位置,对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选区 域,及根据每一视频帖中的所有所述目标候选区域,并结合所述目标候选区域的置信度及 对应尺度处理确定该视频帖中的目标实际区域的,能够快速、有效的获取一个或多个目标, 尤其能够对多个目标进行精确区分和获取。 阳102] 进一步的,本申请通过计算两相邻时刻的视频帖中的同一目标实际区域的中屯、位 置之间的距离是否大于等于预设的阔值,若是,则判定所述两相邻时刻中的后一时刻的视 频帖中的目标实际区域为无效,便于后续更为精确地提取视频中的目标,为视频分类等提 供基础特征。
【附图说明】 阳103] 通过阅读参照W下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0104] 图1为本申请一个方面的目标获取方法的流程图;
[0105] 图2示出根据本申请一个优选实施例的获取方法的流程图; 阳106] 图3示出本申请另一优选实施例的目标获取方法的流程图; 阳107] 图4示出本申请一更优实施例的目标获取方法的流程图;
[0108] 图5示出本申请另一更优实施例的目标获取方法的流程图;
[0109] 图6示出本申请又一优选实施例的目标获取方法的流程图;
[0110] 图7示出本申请又一更优实施例的目标获取方法的流程图; 阳111] 图8示出本申请再一优选实施例的目标获取方法的流程图;
[0112] 图9示出本申请一优选实施例的多尺度处理的多子树图;
[0113] 图10示出本申请一优选实施例多尺度处理的单子树图;
[0114] 图11示出本申请再一更优实施例的目标获取方法的流程图;
[0115] 图12示出本申请另一面的用于目标获取的设备的示意图;
[0116] 图13示出本申请一优选的实施例的用于目标获取的设备的示意图;
[0117] 图14示出本申请另一优选的实施例的用于目标获取的设备的示意图; 阳11引图15示出本申请一更优的实施例的用于目标获取的设备的示意图;
[0119] 图16示出本申请一较佳的实施例的用于目标获取的设备的示意图;
[0120] 图17示出本申请再一优选的实施例的用于目标获取的设备的示意图; 阳121] 图18示出本申请另一更优的实施例的用于目标获取的设备的示意图;
[0122] 附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0123] 在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个 处理器(CPU)、输入/输出接口、网络接口和内存。
[0124] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/ 或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质 的示例。
[0125] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可W由任何方法 或技术来实现信息存储。信息可W是计算机可读指令、数据结构、程序的模块或其他数据。 计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、 动态随机存取存储器值RAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电 可擦除可编程只读存储器巧EPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘值VD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性 存储设备或任何其他非传输介质,可用于存储可W被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信 号和载波。
[01%] 图1示出根据本申请一个方面的目标获取方法的流程图,结合图1,本申请提出一 种目标获取方法,包括:
[0127] 步骤S1,根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估位置; 为了实现自动选择目标,不能使用特征训练模型和分类器的方法来完成目标的检测,区别 于传统多目标跟踪方法,本申请中使用显著性检测来完成目标位置的预估计,在此,每一视 频帖从同一视频中提取,视频帖中的目标预估位置为一显著性图,如可W是一概率图;
[0128] 步骤S2,对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选 区域;
[0129] 步骤S3,根据每一视频帖中的所有所述目标候选区域,并结合所述目标候选区域 的置信度及对应尺度处理,确定该视频帖中的目标实际区域。在此,即可得到一个或多个目 标实际区域,从而实现快速、有效的获取一个或多个目标,尤其能够对多个目标进行精确区 分和获取。 阳130] 图2示出本申请一优选实施例的目标获取方法的流程图。结合图2,图1中的步骤 S1之前还包括: 阳131 ] 步骤S0,对每一视频帖进行大小归一化处理即对每一视频帖进行放大和缩小。在 此,对每一视频帖进行放大和缩小过程中可W使用双线性插值、线性插值或Ξ次插值等方 法对缺失的像素值进行插值补充,例如,可W将每一视频帖全部转换成64X64像素。相应 的,步骤S1为每一视频帖的全局特征根据归一化处理后的视频帖得到。本领域技术人员应 能理解上述对视频帖进行大小归一化处理的描述仅为举例,其他现有的或今后可能出现的 归一化处理如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含 于此。
[0132] 图3示出本申请一优选实施例的目标获取方法的流程图。结合图3,图1中的步骤 S3之后还包括:
[0133] 步骤S4,将两相邻时刻的视频帖中的同一目标实际区域进行比较,判定视频帖中 的该目标实际区域是否为无效。例如,可W计算两相邻时刻的视频帖中的同一目标实际区 域的中屯、位置之间的距离是否大于等于预设的阔值,若是,则判定所述两相邻时刻中的后 一时刻的视频帖中的目标实际区域为无效。另外,还可W计算t-1时刻目标实际区域到t时 刻同一目标实际区域的斜率,及计算t时刻该目标实际区域到t+1时刻该目标实际区域的 斜率,并对比前后两个斜率是否高于预设的阔值,若高于阔值则判定不是同一轨迹,即判定 t+1时刻该目标实际区域为无效。在此,利用运动目标运动的连续性来判断跟踪过程是否有 效,W判断跟踪的目标是否被遮挡或者离开场景,便于后续更为精确地提取视频中的目标, 为视频分类等提供基础特征。本领域技术人员应能理解上述判断目标实际区域是否为无效 的描述仅为举例,其他现有的或今后可能出现的判断目标实际区域为无效的描述如可适用 于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。
[0134] 本申请一较佳的实施例中,步骤S4两相邻时刻的视频帖中的同一目标实际区域 之间的距离通过下式计算得到: 阳 1 巧] I Cregion (t,region) -c"gi〇n (t+1, region) I, 阳136] 其中,region代表某一目标实际区域,函数C代表目标实际区域的中屯、位置,I- 表示相邻时刻的同一目标实际区域的欧式距离,t和t+1表示两相邻时刻,如果欧式距离大 于等于给定的阔值,则判定t+1时刻的跟踪目标消失或者离开视野。其中,阔值可根据步 骤SO中的归一化的像素来对应设置,一实施例中,如果步骤SO将每一视频帖全部转换成 64X64像素,对应的所述给定的阔值可为4。本领域技术人员应能理解上述计算同一目标 实际区域之间的距离的描述仅为举例,其他现有的或今后可能出现的计算同一目标实际区 域之间的距离的描述如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用 方式包含于此。
[0137] 本申请一优选实施例的目标获取方法中,所述全局特征包括全局灰度特征、全局 纹理特征、全局颜色特征、全局运动特征中一个或多个。
[0138] 本申请一更优实施例的目标获取方法中,每一视频帖的全局灰度特征根据该视频 帖的Ξ个颜色通道之和的均值得到,具体可通过下式得到: 阳 139]
[0140] 其中,I表示视频帖的全局灰度特征,r表示视频帖的红色像素通道,g表示视频帖 的绿色像素通道,b表示视频帖的蓝色像素通道。本领域技术人员应能理解上述获取全局 灰度特征的描述仅为举例,其他现有的或今后可能出现的获取全局灰度特征的描述如可适 用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。 阳141] 本申请一更优实施例的目标获取方法中,每一视频帖的全局纹理特征利用G油or 矩阵(滤波器)或Canny算子的边缘检测算法进行提取。
[0142] 本申请一更优的实施例中,利用G油or矩阵(滤波器)对每一视频帖的全局纹理 特征进行提取包括: 阳143] 对每一视频帖的预设个方向生成的G油or矩阵Ge按照位置取最大值作为每一视 频帖的全局纹理特征0,具体用公式描述如下:〇 = maXpixci{Ge}。例如,所述G油or矩阵为 一大小为11X 11像素方块的二维G油or矩阵G,其描述如下:
[0144]

[0145] 式中,Θ为所述预设个方向,Θ = {0。,45°,90°,135° },Ge表示某个方向的 二维的G油or矩阵,Χ,Υ为加入所述方向(角度参数)Θ后的坐标变换,X = xcos Θ-ysin Θ, Υ = xsin θ +ycos θ,χ表示每一视频帖中的像素的行坐标,y表示每一视频帖中的像素的列 坐标,X,y e {-5,…,5},丫表示比例因子,σ表示有效宽度,λ表示波长,比例因子、有效 宽度和波长Ξ个常数的取值为经验值,一实施例中比例因子丫的取值为0.3,有效宽度的 取值为4. 5,波长λ的取值为5.6。若Θ为0°,45°,90° ,135°四个方向,则对每一视 频帖的四个方向生成的G油or矩阵Ge按照位置取最大值即可得到该一视频帖的全局纹理 特征0。本领域技术人员应能理解上述获取全局纹理特征的描述仅为举例,其他现有的或今 后可能出现的获取全局纹理特征的描述如可适用于本申请,也应包含在本申请保护范围W 内,并在此w引用方式包含于此。
[0146] 本申请一更优实施例的目标获取方法中,每一视频帖的全局颜色特征的提取包 括: 阳147] 根据每一视频帖的Ξ个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵R、G、 B、Y ;在此,根据人眼对于不同颜色的敏感度建立修正后的四个颜色基矩阵R、G、B、Y,公式 具体描述如下:
[0152] 根据红、绿、蓝、黄四个颜色基矩阵R、G、B、Y得到红绿颜色特征矩阵RG和蓝黄颜 色特征矩阵BY,其中,RG = R-G,BY = B-Y ;
[0153] 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值|RG-BY|作为该视频 帖的全局颜色特征。本领域技术人员应能理解上述获取全局颜色特征的描述仅为举例,其 他现有的或今后可能出现的获取全局颜色特征的描述如可适用于本申请,也应包含在本申 请保护范围W内,并在此W引用方式包含于此。
[0154] 本申请一更优实施例的目标获取方法中,每一视频帖的全局运动特征的提取包 括:
[0155] 将每一视频帖的灰度特征图与对应前一视频帖的灰度特征图的差值的绝对值作 为该视频帖的全局运动特征。在此,该视频帖的全局运动特征M(t)的公式描述如下: 阳 156] M(t) = 11 (t) -I (t- τ ) I , 阳157] 其中,M(t)表示该视频帖的全局运动特征,该视频帖的时刻为t时刻,I(t)表示该 视频帖的灰度特征图,I(t-T)表示预设τ帖前视频帖的灰度特征图,所预设τ帖前视频 帖的时刻为t-τ,在此,τ为运动帖变化量,I(t)表示变化τ帖后的t时刻的运动量,τ 的取值可根据视频流中每秒的视频帖数量确定,每秒中的视频帖数量越多,τ的取值越大, 一实施例中τ的取值可为1~5,一更优的实施例中τ取值可为3, 阳15引
[0159] 其中,I表示视频帖的全局灰度特征,r表示视频帖的红色像素通道,g表示视频帖 的绿色像素通道,b表示视频帖的蓝色像素通道。本领域技术人员应能理解上述获取全局 运动特征的描述仅为举例,其他现有的或今后可能出现的获取全局运动特征的描述如可适 用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。
[0160] 本申请一优选实施例的目标获取方法中,步骤S1包括: 阳161] 对每一视频帖的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帖中 的各尺度的目标预估位置。
[0162] 图4示出本申请一更优实施例的目标获取方法的流程图。结合图4,对每一视频帖 的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帖中的各尺度的目标预估位 置包括:
[0163] 步骤S11,对每一视频帖的全局特征进行加权得到矩阵多项式;在此,如果提取到 每一视频帖的全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征,所述矩阵多项 式的具体描述如下:
[0164] f (W,所)=I 化G_SF| + /1 +〇]+ A/(〇k 阳1化]η, m分别代表离散的行坐标和列坐标,i、j、k代表着矩阵多项式的基向量;
[0166] 步骤S12,对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵;在此, 所述频域多项式矩阵描述如下:
[0167] W[u.,v]=-jL=yye 以 (灼,W),
[0168] 式中,u、v代表频域的二维坐标,M、N分别代表视频帖的长度和宽度,μ表示虚部 单位,即μ2=-1 .
[0169] 步骤S13,将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频 域;
[0170] 步骤S14,对每个尺度的频域进行反傅里叶变换得到该视频帖中的各尺度的目标 预估位置。在此,目标预估位置根据如下公式得到: ~ 1 W-1仁1如'巧4.f刮
[酬心…)二雨結 0
[0172] 本领域技术人员应能理解上述获取目标预估位置的描述仅为举例,其他现有的或 今后可能出现的获取目标预估位置的描述如可适用于本申请,也应包含在本申请保护范围 W内,并在此W引用方式包含于此。 阳173] 图5示出本申请一更优实施例的目标获取方法的流程图。结合图5,图4的步骤 S13包括:
[0174] 步骤S131,根据所述频域多项式矩阵得到对应的幅度谱A ;在此,所述频域多项式 矩阵的幅度谱表示如下:
[0175] A = |F| ; 阳176] 步骤S132,采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到 每个尺度滤波后的幅度谱,所述高斯低通滤波器的形式如下: 公]("刊
[0177] Η (",,') = :。:,
[0178] 式中,Η为高斯低通滤波器矩阵,D代表距离傅立叶变换原点的距离,所述距离可 使用欧氏距离,σ表示高斯曲线的扩展程度即所述尺度,其具体描述如下:
[01巧]σ e 口1,2°,21,22,23,24,25,2 6};在此,采用多个尺度,可^适应不同大小的目标 的获取;
[0180] 每个尺度滤波后的幅度谱根据如下公式得到:
[0181] Ah= AXH 阳182] 式中,Ah代表每个尺度滤波后的幅度谱;
[0183] 步骤S133,根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频 域,在此,滤波后的各个尺度的频域f;,表示如下:
[0184] 私二.Ah. X 巧1., 阳化5] 其中,町表示相位谱。本领域技术人员应能理解上述获取频域的描述仅为举例,其 他现有的或今后可能出现的获取频域的描述如可适用于本申请,也应包含在本申请保护范 围W内,并在此W引用方式包含于此。
[0186] 图6示出本申请一优选实施例的目标获取方法的流程图。结合图6,图1的步骤 S2包括:
[0187] 步骤S21,根据每一视频帖中的每一尺度的每个目标预估位置得到对应的目标候 选区域;
[0188] 步骤S22,判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该 目标候选区域滤除,例如,滤除其内像素的个数不足10的目标候选区域,并至flag = 0,即 后续不对该区域计算置信度;
[0189] 步骤S23,对每个未滤除的目标候选区域做直方图,并且W直方图计算各个目标 候选区域的信息赌作为对应目标候选区域的置信度。在此,所述置信度可根据如下公式得 到:
[0190] 施虹' =(/? (。))X log 以(片(。))), Π 阳191] 其中,h(n)表示直方图,p( ·)表示概率函数。本领域技术人员应能理解上述获取 目标候选区域及其置信度的描述仅为举例,其他现有的或今后可能出现的获取目标候选区 域及其置信度的描述如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用 方式包含于此。
[0192] 本申请一更优实施例的目标获取方法中,如图7所示,上述步骤S21包括依次将每 一视频帖中的每一尺度的每个目标预估位置作为当前视频帖中的当前尺度的当前目标预 估位置,并依次对当前视频帖中的当前尺度的当前目标预估位置作如下处理: 阳193] 步骤S211,将当前视频帖中的当前尺度的当前目标预估位置中的像素标记为未访 问过;
[0194] 步骤S212,对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找 到标记为未访问过且像素值(权重)大于预设值的一个像素作为中屯、像素,将所述中屯、像 素标记为访问过,例如,所述预设值可W为0. 2的位置,标记所述中屯、像素的flag = 1 ; 阳195] 步骤S213,获取所述中屯、像素邻域内的标记为未访问过且像素值(权重)大于预 设值的其它像素,将获取到的标记为未访问过的且像素值(权重)大于预设值的其它像素 的标记为访问过;
[0196] 步骤S214,初始化一个对应于当前目标预估位置的目标候选区域,将所述中屯、像 素和其邻域内的标记为未访问过的且像素值(权重)大于预设值的其它像素加入所述目 标候选区域,例如,如果其它像素满足P(x,y) >0. 2and flag = 0,p(x,y)为对应显著图 (X,y)位置的值,所述邻域为八邻域或街区邻域(四邻域),在此,每个目标预估位置都会 对应有一个目标候选区域。本领域技术人员应能理解上述获取目标候选区域的描述仅为举 例,其他现有的或今后可能出现的上述获取目标候选区域的描述如可适用于本申请,也应 包含在本申请保护范围W内,并在此W引用方式包含于此。
[0197] 图8示出本申请一优选实施例的目标获取方法的流程图。结合图8,图1的步骤 S3包括对每一视频帖作如下处理:
[0198] 步骤S31,由尺度大到小将每一视频帖中的所有尺度的目标候选区域建立区域树 形结构;在此,如果步骤S22中对像素的个数小于预设个数目标候选区域进行了滤除,则运 里的目标候选区域为未滤除的目标候选区域,如步骤S132中使用的是多个尺度如8个尺度 的高斯低通滤波器,因此步骤S23中得到的目标候选区域也是由八个尺度组成的,由尺度 大到小建立区域树形结构,其结构分为两种情况:多子树和单子树分别如图9、10所示;
[0199] 步骤S32,根据每一视频帖的区域树形结构及其所有目标候选区域的置信度得到 每一视频帖中的目标实际区域。 阳200] 本申请一更优实施例的目标获取方法中,如图11所示,步骤S32包括对每一视频 帖的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视 频帖中的目标实际区域: 阳201] 步骤S321,若当前为父结点区域与子结点区域为单子树(单子树情况),直接选择 置信度(conf)较大的结点区域作为目标实际区域,并结束迭代; 阳202] 步骤S322,若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置 信度均大于两个子节点区域的置信度(多子树情况1),选择所述父节点区域作为目标实际 区域,并结束迭代; 阳203] 步骤S323,若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域 的置信度均大于当前父节点区域的置信度(多子树情况2),选择两个子节点区域作为目标 实际区域,在此,本步骤后遍历剩余的节点区域时还需要继续按多子树情况2和多子树情 况3向更低尺度结点区域进行递归迭代获取实际区域,直到出现单子树情况或多子树情况 1时才结束; 阳204] 步骤S324,若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信 度大于其两个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的 置信度(多子树情况3),选择置信度较高的子节点区域作为目标实际区域,在此,本步骤后 遍历剩余的节点区域时,还需要继续按多子树情况2和多子树情况3向更低尺度结点区域 进行递归迭代获取所述实际区域,直到出现所述单子树情况或多子树情况1时才结束。本 领域技术人员应能理解上述获取目标实际区域的描述仅为举例,其他现有的或今后可能出 现的获取目标实际区域的描述如可适用于本申请,也应包含在本申请保护范围W内,并在 此W引用方式包含于此。 阳205] 如图12所示,根据本申请的另一面还提供一种用于目标获取的设备100,包括: 阳206] 第一装置1,用于根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预 估位置;为了实现自动选择目标,不能使用特征训练模型和分类器的方法来完成目标的检 ,区别于传统多目标跟踪方法,本申请中使用显著性检测来完成目标位置的预估计,在 此,每一视频帖从同一视频中提取,视频帖中的目标预估位置为一显著性图,如可W是一概 率图. 阳207] 第二装置2,用于对每一视频帖中的所述目标预估位置进行聚类处理得到对应的 目标候选区域;
[020引第Ξ装置3,用于根据每一视频帖中的所有所述目标候选区域,并结合所述目标候 选区域的置信度及对应尺度处理,确定该视频帖中的目标实际区域。在此,即可得到一个或 多个目标实际区域,从而实现快速、有效的获取一个或多个目标,尤其能够对多个目标进行 精确区分和获取。 阳209] 如图13所示,本申请一优选的实施例的用于目标获取的设备中,所述设备100还 包括:
[0210] 第五装置5,用于对每一视频帖进行大小归一化处理。在此,对每一视频帖进行放 大和缩小过程中可W使用双线性插值、线性插值或Ξ次插值等方法对缺失的像素值进行插 值补充,例如,可W将每一视频帖全部转换成64X64像素。相应的,第一装置1中每一视频 帖的全局特征根据归一化处理后的视频帖得到。本领域技术人员应能理解上述对视频帖进 行大小归一化处理的描述仅为举例,其他现有的或今后可能出现的归一化处理如可适用于 本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。 阳211] 如图14所示,本申请一优选的实施例的用于目标获取的设备中,所述设备100还 包括:
[0212] 第四装置4,用于将两相邻时刻的视频帖中的同一目标实际区域进行比较,判定视 频帖中的该目标实际区域是否为无效。例如,可W计算两相邻时刻的视频帖中的同一目标 实际区域的中屯、位置之间的距离是否大于等于预设的阔值,若是,则判定所述两相邻时刻 中的后一时刻的视频帖中的目标实际区域为无效。另外,还可W计算t-1时刻目标实际区 域到t时刻同一目标实际区域的斜率,及计算t时刻该目标实际区域到t+1时刻该目标实 际区域的斜率,并对比前后两个斜率是否高于预设的阔值,若高于阔值则判定不是同一轨 迹,即判定t+1时刻该目标实际区域为无效。在此,利用运动目标运动的连续性来判断跟踪 过程是否有效,W判断跟踪的目标是否被遮挡或者离开场景,便于后续更为精确地提取视 频中的目标,为视频分类等提供基础特征。本领域技术人员应能理解上述判断目标实际区 域是否为无效的描述仅为举例,其他现有的或今后可能出现的判断目标实际区域为无效的 描述如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。
[0213] 本申请一较佳的实施例的用于目标获取的设备中,第四装置4通过下式计算得到 两相邻时刻的视频帖中的同一目标实际区域之间的距离: 阳214] I Cregi〇n(t,region)-Cf如on (t+1, region) I,
[0215] 其中,region代表某一目标实际区域,函数C代表目标实际区域的中屯、位置,l-l 表示相邻时刻的同一目标实际区域的欧式距离,t和t+1表示两相邻时刻,如果欧式距离大 于等于给定的阔值,则判定t+1时刻的跟踪目标消失或者离开视野。其中,阔值可根据第五 装置5归一化的像素来对应设置,一实施例中,如果第五装置5将每一视频帖全部转换成 64X64像素,对应的所述给定的阔值可为4。本领域技术人员应能理解上述计算同一目标 实际区域之间的距离的描述仅为举例,其他现有的或今后可能出现的计算同一目标实际区 域之间的距离的描述如可适用于本申请,也应包含在本申请保护范围w内,并在此w引用 方式包含于此。
[0216] 本申请一优选的实施例的用于目标获取的设备中,每一视频帖的所有全局特征包 括全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。
[0217] 本申请一更优的实施例中,每一视频帖的全局灰度特征根据该视频帖的Ξ个颜色 通道之和的均值得到。具体可通过下式得到: 阳2化]
[0219] 其中,I表示视频帖的全局灰度特征,r表示视频帖的红色像素通道,g表示视频帖 的绿色像素通道,b表示视频帖的蓝色像素通道。本领域技术人员应能理解上述获取全局 灰度特征的描述仅为举例,其他现有的或今后可能出现的获取全局灰度特征的描述如可适 用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。
[0220] 本申请一更优的实施例的用于目标获取的设备中,每一视频帖的全局纹理特征利 用G油or矩阵(滤波器)或Canny算子的边缘检测算法进行提取。 阳221] 本申请一更优的实施例的用于目标获取的设备中,利用G油or矩阵(滤波器)对 每一视频帖的全局纹理特征进行提取包括: 阳222] 对每一视频帖的预设个方向生成的G油or矩阵Ge按照位置取最大值作为每一视 频帖的全局纹理特征0,具体用公式描述如下:〇 = maXpixci{Ge}。例如,所述G油or矩阵为 一大小为11X 11像素方块的二维G油or矩阵G,其描述如下: 阳223] .、
y 阳224] 式中,Θ为所述预设个方向,Θ = {0。,45°,90°,135° },Ge表示某个方向的 二维的G油or矩阵,Χ,Υ为加入所述方向(角度参数)Θ后的坐标变换,X = xcos Θ-ysin Θ, Υ = xsin θ +yc〇S θ,χ表示每一视频帖中的像素的行坐标,y表示每一视频帖中的像素的列 坐标,X,y E {-5,…,5},丫表示比例因子,σ表示有效宽度,λ表示波长,比例因子、有效 宽度和波长Ξ个常数的取值为经验值,一实施例中比例因子丫的取值为0.3,有效宽度的 取值为4. 5,波长λ的取值为5.6。若Θ为0°,45°,90° ,135°四个方向,则对每一视 频帖的四个方向生成的G油or矩阵Ge按照位置取最大值即可得到该一视频帖的全局纹理 特征0。本领域技术人员应能理解上述获取全局纹理特征的描述仅为举例,其他现有的或今 后可能出现的获取全局纹理特征的描述如可适用于本申请,也应包含在本申请保护范围W 内,并在此W引用方式包含于此。
[02巧]本申请一更优的实施例的用于目标获取的设备中,每一视频帖的全局颜色特征的 提取包括: 阳226] 根据每一视频帖的Ξ个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵R、G、 B、Y ;在此,根据人眼对于不同颜色的敏感度建立修正后的四个颜色基矩阵R、G、B、Y,公式 具体描述如下: 阳227]

阳231] 根据红、绿、蓝、黄四个颜色基矩阵R、G、B、Υ得到红绿颜色特征矩阵RG和蓝黄颜 色特征矩阵BY,其中,RG = R-G,BY = B-Y ; 阳232] 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值iRG-BYl作为该视频 帖的全局颜色特征。本领域技术人员应能理解上述获取全局颜色特征的描述仅为举例,其 他现有的或今后可能出现的获取全局颜色特征的描述如可适用于本申请,也应包含在本申 请保护范围W内,并在此W引用方式包含于此。 阳233] 本申请一更优的实施例的用于目标获取的设备中,每一视频帖的全局运动特征的 提取包括:
[0234] 将每一视频帖的灰度特征图与其预设帖前的视频帖的灰度特征图的差值的绝对 值作为该视频帖的全局运动特征。在此,该视频帖的全局运动特征M(t)的公式描述如下: 阳 23 引 M(t) = |l(t)-I(t-T)|,
[0236] 其中,M(t)表示该视频帖的全局运动特征,该视频帖的时刻为t时刻,I(t)表示该 视频帖的灰度特征图,I(t-T)表示预设τ帖前视频帖的灰度特征图,所预设τ帖前视频 帖的时刻为t-τ,在此,τ为运动帖变化量,I(t)表示变化τ帖后的t时刻的运动量,τ 的取值可根据视频流中每秒的视频帖数量确定,每秒中的视频帖数量越多,τ的取值越大, 一实施例中τ的取值可为1~5,一更优的实施例中τ取值可为3,
[0237] I (t)和 I (t- τ )根据公?Ι
导到,
[0238] 其中,I表示视频帖的全局灰度特征,r表示视频帖的红色像素通道,g表示视频帖 的绿色像素通道,b表示视频帖的蓝色像素通道。本领域技术人员应能理解上述获取全局 运动特征的描述仅为举例,其他现有的或今后可能出现的获取全局运动特征的描述如可适 用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包含于此。
[0239] 本申请一优选的实施例的用于目标获取的设备中,所述第一装置1,用于对每一视 频帖的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帖中的各尺度的目标预 估位置。
[0240] 如图15所示,本申请一更优的实施例的用于目标获取的设备中,所述第一装置1 包括: 阳241] 第一一单元11,用于对每一视频帖的全局特征进行加权得到矩阵多项式;在此, 如果提取到每一视频帖的全局灰度特征、全局纹理特征、全局颜色特征、全局运动特征,所 述矩阵多项式的具体描述如下:
[0242]
阳243] η, m分别代表离散的行坐标和列坐标,i、j、k代表着矩阵多项式的基向量;
[0244] 第一二单元12,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩 阵;在此,所述频域多项式矩阵描述如下:
[0245]
阳246] 式中,u、v代表频域的二维坐标,M、N分别代表视频帖的长度和宽度,μ表示虚部 单位,即μ2=-1 . 阳247] 第一Ξ单元13,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺 度的频域;
[0248] 第一四单元14,用于对每个尺度的频域进行反傅里叶变换得到该视频帖中的各尺 度的目标预估位置。在此,目标预估位置根据如下公式得到:
[0249]
阳巧0] 本领域技术人员应能理解上述获取目标预估位置的描述仅为举例,其他现有的或 今后可能出现的获取目标预估位置的描述如可适用于本申请,也应包含在本申请保护范围 W内,并在此W引用方式包含于此。 阳251] 如图16所示,本申请一较佳的实施例的用于目标获取的设备中,所述第一Ξ单元 13包括: 阳巧2] 第一Ξ-单元131,用于根据所述频域多项式矩阵得到对应的幅度谱A ;在此,所 述频域多项式矩阵的幅度谱表示如下: 阳巧3] A = IFI ; 阳巧4] 第一Ξ二单元132,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅 度谱滤波得到每个尺度滤波后的幅度谱,所述高斯低通滤波器的形式如下: 阳巧5]
[0256] 式中,Η为高斯低通滤波器矩阵,D代表距离傅立叶变换原点的距离,所述距离可 使用欧氏距离,σ表示高斯曲线的扩展程度即所述尺度,其具体描述如下: 阳巧7] σ e 口1,2°,21,22,23,24,25,2 6};在此,采用多个尺度,可^适应不同大小的目标 的获取; 阳25引每个尺度滤波后的幅度谱根据如下公式得到: 阳巧 9] Ah= AXH
[0260] 式中,Ah代表每个尺度滤波后的幅度谱; 阳%1] 第一ΞΞ单元133,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每 个尺度的频域,在此,滤波后的各个尺度的频域f"表示如下:
[0262]
阳%3] 其中,町表示相位谱。本领域技术人员应能理解上述获取频域的描述仅为举例,其 他现有的或今后可能出现的获取频域的描述如可适用于本申请,也应包含在本申请保护范 围W内,并在此W引用方式包含于此。
[0264] 如图17所示,本申请一优选的实施例的用于目标获取的设备中,所述第二装置2 包括: 阳2化]第二一单元21,用于根据每一视频帖中的每一尺度的每个目标预估位置得到对应 的目标候选区域; 阳%6] 第二二单元22,用于判断每个目标候选区域内的像素的个数是否小于预设个数, 若是则将该目标候选区域滤除,例如,滤除其内像素的个数不足10的目标候选区域,并至 flag = 0,即后续不对该区域计算置信度; 阳%7] 第二Ξ单元23,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且 W直方图计算各个目标候选区域的信息赌作为对应目标候选区域的置信度。在此,所述置 信度可根据如下公式得到:
[0268]
[0269] 其中,h(n)表示直方图,p( ·)表示概率函数。本领域技术人员应能理解上述获取 目标候选区域及其置信度的描述仅为举例,其他现有的或今后可能出现的获取目标候选区 域及其置信度的描述如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用 方式包含于此。
[0270] 本申请一更优的实施例的用于目标获取的设备中,所述第二一单元21,用于依次 将每一视频帖中的每一尺度的每个目标预估位置作为当前视频帖中的当前尺度的当前目 标预估位置,并依次对当前视频帖中的当前尺度的当前目标预估位置作如下处理: 阳271 ] 将当前视频帖中的当前尺度的当前目标预估位置中的像素标记为未访问过; 阳272] 对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未 访问过且像素值(权重)大于预设值的一个像素作为中屯、像素,将所述中屯、像素标记为访 问过,例如,所述预设值可W为0. 2的位置,标记所述中屯、像素的flag = 1 ; 阳273] 获取所述中屯、像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将 获取到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过; 阳274] 初始化一个对应于当前目标预估位置的目标候选区域,将所述中屯、像素和其邻域 内的标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。例如,如 果其它像素满足P (X,y) > 0. 2and f lag = 0, P (X,y)为对应显著图(X,y)位置的值,所述 邻域为八邻域或街区邻域(四邻域),在此,每个目标预估位置都会对应有一个目标候选区 域。本领域技术人员应能理解上述获取目标候选区域的描述仅为举例,其他现有的或今后 可能出现的上述获取目标候选区域的描述如可适用于本申请,也应包含在本申请保护范围 W内,并在此W引用方式包含于此。
[027引如图18所示,本申请一优选的实施例的用于目标获取的设备中,所述第;装置3 包括: 阳276] 第Ξ-单元31,用于由尺度大到小将每一视频帖中的所有尺度的目标候选区域建 立区域树形结构;在此,如果第二一单元21对像素的个数小于预设个数目标候选区域进行 了滤除,则运里的目标候选区域为未滤除的目标候选区域,如第一Ξ二单元132使用的是 多个尺度如8个尺度的高斯低通滤波器,因此第二Ξ单元23中得到的目标候选区域也是由 八个尺度组成的,由尺度大到小建立区域树形结构,其结构分为两种情况:多子树和单子树 分别如图9、10所示; 阳277] 第Ξ二单元32,用于根据每一视频帖的区域树形结构及其所有目标候选区域的置 信度得到每一视频帖中的目标实际区域。
[0278] 本申请一更优的实施例的用于目标获取的设备中,所述第Ξ二单元32,用于对每 一视频帖的区域树形结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取 每一视频帖中的目标实际区域: 阳279] 若当前为父结点区域与子结点区域为单子树(单子树情况),直接选择置信度 (conf)较大的结点区域作为目标实际区域,并结束迭代; 阳280] 若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于 两个子节点区域的置信度(多子树情况1),选择所述父节点区域作为目标实际区域,并结 束迭代; 阳281] 若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均 大于当前父节点区域的置信度(多子树情况2),选择两个子节点区域作为目标实际区域, 在此,后续遍历剩余的节点区域时还需要继续按多子树情况2和多子树情况3向更低尺度 结点区域进行递归迭代获取实际区域,直到出现单子树情况或多子树情况1时才结束; 阳282] 若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两 个子结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度(多 子树情况3),选择置信度较高的子节点区域作为目标实际区域。在此,后续遍历剩余的节点 区域时,还需要继续按多子树情况2和多子树情况3向更低尺度结点区域进行递归迭代获 取所述实际区域,直到出现所述单子树情况或多子树情况1时才结束。本领域技术人员应 能理解上述获取目标实际区域的描述仅为举例,其他现有的或今后可能出现的获取目标实 际区域的描述如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用方式包 含于此。 阳28引本申请可W使用matl油、C++调用化enCV等方式实现。 阳284] W下结合具体的应用实施例进一步说明本申请所述的目标获取方法及设备。 阳285] 在一具体的应用实施例中,为了从一视频中获取多个目标,可W从同一视频中提 取多个视频帖,对每一视频帖进行大小归一化处理,然后对经过归一化处理后的每一视频 帖的全局特征进行提取,所述全局特征包括全局灰度特征、全局纹理特征、全局颜色特征、 全局运动特征,接着根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预估位 置,随后对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选区域,再 对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选区域,从而快速、 有效的获取每一视频帖中的一个或多个目标,解决现有技术对于场景和目标类别的依赖性 的问题,例如现有的应用于监控场景的混合高斯模型背景建模方法无法使用于行车记录视 频;另外,后续还可W计算两相邻时刻的视频帖中的同一目标实际区域的中屯、位置之间的 距离是否大于等于预设的阔值,若是,则判定所述两相邻时刻中的后一时刻的视频帖中的 目标实际区域为无效,便于后续更为精确地只提取视频中有效的目标实际区域,为视频分 类等提供基础特征,例如后续可W按照出现在视频中目标的个数来区分银行自动取款机的 监控视频和火车站的视频监控,可w按照目标运动的轨迹来区分行车记录视频和银行监控 视频。 阳286] 综上所述,本申请根据每一视频帖的全局特征得到该视频帖中的各尺度的目标预 估位置,对每一视频帖中的所述目标预估位置进行聚类处理得到对应的目标候选区域,及 根据每一视频帖中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺 度处理,确定该视频帖中的目标实际区域的,能够快速、有效的获取一个或多个目标,尤其 能够对多个目标进行精确区分和获取。 阳287] 进一步的,本申请通过计算两相邻时刻的视频帖中的同一目标实际区域的中屯、位 置之间的距离是否大于等于预设的阔值,若是,则判定所述两相邻时刻中的后一时刻的视 频帖中的目标实际区域为无效,便于后续更为精确地提取视频中的目标,为视频分类等提 供基础特征。 阳28引显然,本领域的技术人员可W对本申请进行各种改动和变型而不脱离本申请的精 神和范围。运样,倘若本申请的运些修改和变型属于本申请权利要求及其等同技术的范围 之内,则本申请也意图包含运些改动和变型在内。 阳289] 需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采 用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例 中,本申请的软件程序可W通过处理器执行W实现上文所述步骤或功能。同样地,本申请的 软件程序(包括相关的数据结构)可W被存储到计算机可读记录介质中,例如,RAM存储器, 磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例 如,作为与处理器配合从而执行各个步骤或功能的电路。 阳290] 另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被 计算机执行时,通过该计算机的操作,可W调用或提供根据本申请的方法和/或技术方案。 而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通 过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行 的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括 用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序 指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或 技术方案。 阳291] 对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在 不背离本申请的精神或基本特征的情况下,能够W其他的具体形式实现本申请。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所设及的权利要求。此 夕F,显然"包括"一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多 个单元或装置也可W由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
【主权项】
1. 一种目标获取方法,其中,包括: 根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位置; 对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候选区域; 根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区域的置信度及对 应尺度处理,确定该视频帧中的目标实际区域。2. 如权利要求1所述的方法,其中,根据每一视频帧中的所有所述目标候选区域,并结 合所述目标候选区域的置信度及对应尺度处理,确定该视频帧中的目标实际区域之后,所 述方法还包括: 将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧中的该目标实际 区域是否为无效。3. 如权利要求1或2所述的方法,其中,根据每一视频帧的全局特征得到该视频帧中的 各尺度的目标预估位置之前,所述方法还包括: 对每一视频帧进行大小归一化处理。4. 如权利要求1至3中任一项所述的方法,其中,所述全局特征包括全局灰度特征、全 局纹理特征、全局颜色特征、全局运动特征中一个或多个。5. 如权利要求4所述的方法,其中,每一视频帧的全局灰度特征根据该视频帧的三个 颜色通道之和的均值得到。6. 如权利要求4所述的方法,其中,每一视频帧的全局纹理特征利用Gabor矩阵或 Canny算子的边缘检测算法进行提取。7. 如权利要求4所述的方法,其中,每一视频帧的全局颜色特征的提取包括: 根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵; 根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵; 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色 特征。8. 如权利要求4所述的方法,其中,每一视频帧的全局运动特征的提取包括: 将每一视频帧的灰度特征图与对应前一视频帧的灰度特征图的差值的绝对值作为该 视频帧的全局运动特征。9. 如权利要求1至8任一项所述的方法,其中,根据每一视频帧的全局特征得到该视频 帧中的各尺度的目标预估位置,包括: 对每一视频帧的全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各 尺度的目标预估位置。10. 如权利要求9所述的方法,其中,对每一视频帧的全局特征进行加权和多尺度的频 域幅度谱滤波得到该视频帧中的各尺度的目标预估位置,包括: 对每一视频帧的全局特征进行加权得到矩阵多项式; 对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵; 将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频域; 对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目标预估位置。11. 如权利要求10所述的方法,其中,将所述频域多项式矩阵进行多尺度的幅度谱滤 波得到每个尺度的频域,包括: 根据所述频域多项式矩阵得到对应的幅度谱; 采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波得到每个尺度滤波 后的幅度谱; 根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的频域。12. 如权利要求1至11任一项所述的方法,其中,对每一视频帧中的所述目标预估位置 进行聚类处理得到对应的目标候选区域,包括: 根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标候选区域; 判断每个目标候选区域内的像素的个数是否小于预设个数,若是则将该目标候选区域 滤除; 对每个未滤除的目标候选区域做直方图,并且以直方图计算各个目标候选区域的信息 熵作为对应目标候选区域的置信度。13. 如权利要求12所述的方法,其中,根据每一视频帧中的每一尺度的每个目标预估 位置得到对应的目标候选区域,包括: 依次将每一视频帧中的每一尺度的每个目标预估位置作为当前视频帧中的当前尺度 的当前目标预估位置,并依次对当前视频帧中的当前尺度的当前目标预估位置作如下处 理: 将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过; 对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问 过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过; 获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取 到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过; 初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的 标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。14. 如权利要求1至13任一项所述的方法,其中,目标实际区域根据每一视频帧中的所 有所述目标候选区域,并结合所述目标候选区域的置信度及对应尺度处理,确定该视频帧 中的目标实际区域,包括对每一视频帧作如下处理: 由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域树形结构; 根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得到每一视频帧中 的目标实际区域。15. 如权利要求14所述的方法,其中,根据每一视频帧的区域树形结构及其所有目标 候选区域的置信度得到每一视频帧中的目标实际区域,包括对每一视频帧的区域树形结构 的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标实际 区域: 若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目 标实际区域,并结束迭代; 若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个 子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代; 若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大于 当前父节点区域的置信度,选择两个子节点区域作为目标实际区域; 若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子 结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置 信度较高的子节点区域作为目标实际区域。16. -种用于目标获取的设备,其中,包括: 第一装置,用于根据每一视频帧的全局特征得到该视频帧中的各尺度的目标预估位 置; 第二装置,用于对每一视频帧中的所述目标预估位置进行聚类处理得到对应的目标候 选区域; 第三装置,用于根据每一视频帧中的所有所述目标候选区域,并结合所述目标候选区 域的置信度及对应尺度处理,确定该视频帧中的目标实际区域。17. 如权利要求16所述的设备,其中,所述设备还包括: 第四装置,用于将两相邻时刻的视频帧中的同一目标实际区域进行比较,判定视频帧 中的该目标实际区域是否为无效。18. 如权利要求16至17任一项所述的设备,其中,所述设备还包括: 第五装置,用于对每一视频帧进行大小归一化处理。19. 如权利要求17至18任一项所述的设备,其中,每一视频帧的所有全局特征包括全 局灰度特征、全局纹理特征、全局颜色特征、全局运动特征中一个或多个。20. 如权利要求19所述的设备,其中,每一视频帧的全局灰度特征根据该视频帧的三 个颜色通道之和的均值得到。21. 如权利要求19所述的设备,其中,每一视频帧的全局纹理特征利用Gabor矩阵或 Canny算子的边缘检测算法进行提取。22. 如权利要求19所述的设备,其中,每一视频帧的全局颜色特征的提取包括: 根据每一视频帧的三个颜色通道得到修正后的红、绿、蓝、黄四个颜色基矩阵; 根据红、绿、蓝、黄四个颜色基矩阵得到红绿颜色特征矩阵和蓝黄颜色特征矩阵; 将红绿颜色特征矩阵与蓝黄颜色特征矩阵的差值的绝对值作为该视频帧的全局颜色 特征。23. 如权利要求19所述的设备,其中,每一视频帧的全局运动特征的提取包括: 将每一视频帧的灰度特征图与其预设帧前的视频帧的灰度特征图的差值的绝对值作 为该视频帧的全局运动特征。24. 如权利要求16至23任一项所述的设备,其中,所述第一装置,用于对每一视频帧的 全局特征进行加权和多尺度的频域幅度谱滤波得到该视频帧中的各尺度的目标预估位置。25. 如权利要求24所述的设备,其中,所述第一装置包括: 第一一单元,用于对每一视频帧的全局特征进行加权得到矩阵多项式; 第一二单元,用于对所述矩阵多项式进行多项式傅里叶变换得到频域多项式矩阵; 第一三单元,用于将所述频域多项式矩阵进行多尺度的幅度谱滤波得到每个尺度的频 域; 第一四单元,用于对每个尺度的频域进行反傅里叶变换得到该视频帧中的各尺度的目 标预估位置。26. 如权利要求25所述的设备,其中,所述第一三单元包括: 第一三一单元,用于根据所述频域多项式矩阵得到对应的幅度谱; 第一三二单元,用于采用高斯低通滤波器对所述幅度谱进行预设多尺度的幅度谱滤波 得到每个尺度滤波后的幅度谱; 第一三三单元,用于根据相位谱和每个尺度滤波后的幅度谱得到滤波后的每个尺度的 频域。27. 如权利要求16至26任一项所述的设备,其中,所述第二装置包括: 第二一单元,用于根据每一视频帧中的每一尺度的每个目标预估位置得到对应的目标 候选区域; 第二二单元,用于判断每个目标候选区域内的像素的个数是否小于预设个数,若是则 将该目标候选区域滤除; 第二三单元,用于目标候选区域对每个未滤除的目标候选区域做直方图,并且以直方 图计算各个目标候选区域的信息熵作为对应目标候选区域的置信度。28. 如权利要求27所述的设备,其中,所述第二一单元,用于依次将每一视频帧中的每 一尺度的每个目标预估位置作为当前视频帧中的当前尺度的当前目标预估位置,并依次对 当前视频帧中的当前尺度的当前目标预估位置作如下处理: 将当前视频帧中的当前尺度的当前目标预估位置中的像素标记为未访问过; 对当前尺度的当前目标预估位置进行扫描,在当前目标预估位置中找到标记为未访问 过且像素值大于预设值的一个像素作为中心像素,将所述中心像素标记为访问过; 获取所述中心像素邻域内的标记为未访问过且像素值大于预设值的其它像素,将获取 到的标记为未访问过的且像素值大于预设值的其它像素的标记为访问过; 初始化一个对应于当前目标预估位置的目标候选区域,将所述中心像素和其邻域内的 标记为未访问过的且像素值大于预设值的其它像素加入所述目标候选区域。29. 如权利要求16至28任一项所述的设备,其中,所述第三装置包括: 第三一单元,用于由尺度大到小将每一视频帧中的所有尺度的目标候选区域建立区域 树形结构; 第三二单元,用于根据每一视频帧的区域树形结构及其所有目标候选区域的置信度得 到每一视频帧中的目标实际区域。30. 如权利要求29所述的设备,其中,所述第三二单元,用于对每一视频帧的区域树形 结构的各个结点区域由尺度大到小进行遍历,并按如下情况迭代获取每一视频帧中的目标 实际区域: 若当前为父结点区域与子结点区域为单子树,直接选择置信度较大的结点区域作为目 标实际区域,并结束迭代; 若当前为父结点区域与子结点区域为多子树,且当前父节点区域的置信度均大于两个 子节点区域的置信度,选择所述父节点区域作为目标实际区域,并结束迭代; 若当前为父结点区域与子结点区域为多子树,且当前两个子节点区域的置信度均大 于当前父节点区域的置信度,选择两个子节点区域作为目标实际区域; 若当前为父结点区域与子结点区域为多子树,且当父节点区域的置信度大于其两个子 结点区域中的其中一个子节点区域的置信度,并小于另一个子节点区域的置信度,选择置 信度较高的子节点区域作为目标实际区域。
【文档编号】G06K9/62GK105989367SQ201510059261
【公开日】2016年10月5日
【申请日】2015年2月4日
【发明人】金炫
【申请人】阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1