基于层级学习的复杂动作识别方法、装置、设备及介质

文档序号:33631532发布日期:2023-03-28 23:07阅读:41来源:国知局
基于层级学习的复杂动作识别方法、装置、设备及介质

1.本发明涉及人工智能与视频处理技术领域,具体涉及一种基于层级终身学习的复杂动作识别方法、装置、计算机设备及存储介质,特别是基于终身机器学习技术,利用简单动作的知识帮助复杂动作的学习。


背景技术:

2.近年来,基于视频的复杂动作识别已经成为视觉领域中备受关注的研究热点,在智能监控、视频检索、智能家居中的人机交互等领域有着广泛的应用前景和巨大的商业价值。而基于视频的复杂动作识别常伴随着复杂背景、运动速度变化、视角变化、光照变化和大量的类内变化,使得复杂动作的识别成为困难。学术界对相关问题一直在进行持续研究,但仍有诸多问题待解决。
3.传统的机器学习方法训练一个鲁棒的模型需要大量的有标签数据,但在实际情况中,有标签数据不容易获得,并且获取有标签的样本数据是耗时耗力的。由于复杂动作可以分解成一系列的简单动作,研究者期盼可以利用简单动作帮助复杂动作的学习。但目前现有的简单动作(kth、weizmann数据库)不具有完备性,需要在线学习简单动作,使得简单动作具有完备性,进而可以更好地跨域迁移知识帮助复杂动作学习。终身机器学习(lifelong machine learning,lml):一种可持续学习的范式,具备快速学习以及迁移学习新任务的能力,可应用在计算机视觉、医疗诊断、搜索引擎、自动机器人等多个领域。


技术实现要素:

4.本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于层级终身学习的复杂动作识别方法、装置、计算机设备及存储介质。
5.本发明的第一个目的在于提供一种基于层级终身学习的复杂动作识别方法,所述复杂动作识别方法包括以下步骤:
6.s1、提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
7.s2、对完备的简单动作进行最小值优化操作,获取简单动作的权值参数;
8.s3、通过简单动作的权值参数,建立权值最优组合模型,完成知识跨域迁移,实现复杂动作的学习。
9.进一步地,所述步骤s1中的简单动作从kth和weizmann数据库中挑选,复杂动作从olympic sport和ucf50数据库中挑选;
10.进一步地,所述复杂动作和简单动作库中简单动作进行相似性度量值计算,完成简单动作的完备性学习;
11.进一步地,所述相似性度量计算公式如下:
12.13.其中,数字8表示简单动作和复杂动作的子块数目,矩阵包含唯一的匹配视频子块,取值只有1或者1。是每个复杂动作和任意简单动作中两个子块之间的成对距离。
14.进一步地,上述相似性度量值若小于等于事先设定的比较阈值,则代表复杂动作与简单动作库中简单动作是相似动作,反之则为不相似动作,如果不相似,将复杂动作分解成简单动作,并加入到简单动作库中,持续进行,直到简单动作库完备。
15.进一步地,所述矩阵的获取通过计算下列最小值问题:
[0016][0017]
使得,对任意的i,有
[0018]
对任意的j,有
[0019]
进一步地,所述矩阵的获取通过求取下列公式:
[0020][0021]
其中,h和i分别是子块v
ci
和v
sj
中图像块的个数,是光流值。
[0022]
进一步地,所述的获取是通过求解下列最小值问题:
[0023][0024]
满足
[0025]
对任意的u,
[0026]
对任意的v,
[0027]
其中,f
uv是
光流信息。
[0028]
进一步地,上述d
uv
是视频v
ci
和v
sj
中两个图像块的欧式距离,具体公式如下:
[0029][0030]
其中,(x
11
,

,x
1t

,x
1n
)是子块v
ci
中图像块的梯度直方图(histogram of oriented gradients,hog)特征,(y
11
,

,y
1t

,y
1n
),子块v
sj
中图像块的梯度直方图特征。
[0031]
进一步地,所述步骤s2过程如下:
[0032]
利用完备的简单动作数据库,对简单动作进行最小值优化操作,获取权值参数,最小值优化操作的计算公式如下:
[0033]
[0034]
其中,s表示简单动作类别数目,k表示简单动作类别中第k个类别,nk是简单动作第k类别的样本数量,p表示简单动作第k类别中第p个样本,wk是简单动作第k类别的权值,所有类别的权值构成ws,表示为ws=w1,

,ws],ls是简单动作之间共享的动作属性,f是预测函数且f(x
p
;lswk)=(lswk)
t
x
p
,x
p
是第k个类别中第p个样本的特征向量,y
p
是该样本对应的类标签,项||ws||1是表示简单动作权值的范数约束,用来学习稀疏矩阵ws,项用来避免过拟合,λ1和λ2是第一和第二平衡参数,表示平方损失函数,具体公式为:
[0035][0036]
进一步地,上述第k个类别中第p个样本特征向量x
p
是由改进的密集轨迹进行提取的,其包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和x及y方向上的光流信息。
[0037]
进一步地,采用交替迭代优化方法,更新ws,ls。由于范数的存在,采用快速迭代收缩阈值,求得最优的ws,,用于复杂动作最优权值的学习。
[0038]
进一步地,所述步骤s3过程如下:
[0039]
利用简单动作的权值参数,对复杂动作进行权值最优组合操作,获取权值参数,权值最优组合操作的计算公式如下:
[0040][0041]
其中,t表示复杂动作类别数目,q表示复杂动作类别中第q个类别。nq是复杂动作第q类别的样本数量,l表示复杂动作第q类别中第l个样本,w
l
是复杂动作第q类别的权值,所有类别的权值构成w
t
,其表示为w
t
=w1,

,w
t
],l
t
是复杂动作之间共享的动作属性,f是预测函数且f(x
l
;l
twl
)=(l
twl
)
t
x
l
,x
l
表示第q个类别中第l个样本的特征向量,y
l
表示第q个类别中第l个样本对应的类标签,表示组合稀疏,项表示复杂动作的权值由最相关的简单动作权值组合而成,μ1、μ2、μ3和μ4分别是用于实现重建复杂动作权值参数、避免过拟合、稀疏参数及避免过拟合功能的第一、第二、第三、第四平衡参数。
[0042]
进一步地,上述第q个类别中第l个样本特征向量x
l
是由改进的密集轨迹进行提取的,其包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和x及y方向上的光流信息。
[0043]
进一步地,采用交替迭代优化方法,更新w
t
,l
t
。由于范数的存在,采用快速迭代收缩阈值,求得最优的w
t
,,用于复杂动作的学习。
[0044]
本发明的第二个目的在于提供一种基于层级终身学习的复杂动作识别装置,所述复杂动作识别装置包括:
[0045]
提取构建模块,用于提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
[0046]
权重获取模块,用于对完备的简单动作进行最小值优化操作,获取简单动作的权值参数;
[0047]
复杂动作模块,用于通过简单动作的权值参数,建立权值最优组合模型,完成知识
跨域迁移,实现复杂动作的学习。
[0048]
本发明的第三个目的在于提供一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现基于层级终身学习的复杂动作识别方法。
[0049]
本发明的第四个目的在于提供一种存储介质,存储有程序,所述程序被处理器执行时,实现基于层级终身学习的复杂动作识别方法。
[0050]
本发明相对于现有技术具有如下的优点及效果:
[0051]
(1)本发明对复杂动作进行分析,考虑复杂动作可以分解成一系列的简单动作,提出一种全新的框架用于复杂动作的识别。
[0052]
(2)本发明提出简单动作完备性的学习,更好实现跨域简单动作知识迁移,进而提高复杂动作的识别率。
附图说明
[0053]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0054]
图1是本发明公开的一种基于层级终身学习的复杂动作识别方法的流程图;
[0055]
图2是简单动作和复杂动作库中的样本示例图;
[0056]
图3是本发明实施例2中复杂动作识别装置的结构框图;
[0057]
图4是本发明实施例3中计算机设备的结构框图。
具体实施方式
[0058]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]
实施例1:
[0060]
图1是本发明提出的基于层级终身学习的复杂动作识别方法的流程图,如图1所示,所述方法包括以下步骤:
[0061]
步骤s1、提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
[0062]
步骤s1中,相似性度量值若小于等于事先设定的比较阈值(取0到1的一个动态阈值),则代表复杂动作与简单动作库中简单动作是相似动作,反之则为不相似动作,如果不相似,将复杂动作分解成简单动作,并加入到简单动作库中,持续进行,直到简单动作库完备。
[0063]
步骤s1中,相似性度量中视频v
ci
和v
sj
中两个图像块的欧式距离d
uv
,公式如下:
[0064][0065]
其中,(x
11
,

,x
1t

,x
1n
)是子块
vc
i中图像块的梯度直方图(histogram of oriented gradients,hog)特征,(y
11
,

,y
1t

,y
1n
),子块v
sj
中图像块的梯度直方图特征。
利用fisher vector进行编码,高斯混合模型(gmm:gaussian mixture model)中k的大小设为256,最后得到特征的维数是27648。
[0066]
步骤s2、利用完备的简单动作数据库,对简单动作进行最小值优化操作,获取权值参数。
[0067]
步骤s2中,具体最小值优化操作的计算公式如下:
[0068][0069]
其中,s表示简单动作类别数目,k表示简单动作类别中第k个类别,nk是简单动作第k类别的样本数量,p表示简单动作第k类别中第p个样本,wk是简单动作第k类别的权值,所有类别的权值构成ws,表示为ws=w1,

,ws],ls是简单动作之间共享的动作属性,f是预测函数且f(x
p
;lswk)=(lswk)
t
x
p
,x
p
是第k个类别中第p个样本的特征向量,y
p
是该样本对应的类标签,项||ws||1是表示简单动作权值的范数约束,用来学习稀疏矩阵ws,项用来避免过拟合,λ1和λ2是第一和第二平衡参数,表示平方损失函数,具体公式为:
[0070][0071]
步骤s2中,样本特征向量xq是由改进的密集轨迹进行提取的,其包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和x及y方向上的光流信息。利用fisher vector进行编码,高斯混合模型(gmm:gaussian mixture model)中k的大小设为256,最后得到特征的维数是109056。
[0072]
步骤s2中,采用交替迭代优化方法,更新ws,ls。由于范数的存在,采用快速迭代收缩阈值,求得最优的ws,,用于复杂动作最优权值的学习。
[0073]
步骤s3、利用简单动作的权值参数,对复杂动作进行权值最优组合操作,获取权值参数。
[0074]
步骤s3中,具体权值最优组合操作的计算公式如下:
[0075][0076]
其中,t表示复杂动作类别数目,q表示复杂动作类别中第q个类别。nq是复杂动作第q类别的样本数量,l表示复杂动作第q类别中第l个样本,w
l
是复杂动作第q类别的权值,所有类别的权值构成w
t
,其表示为w
t
=w1,

,w
t
],l
t
是复杂动作之间共享的动作属性,f是预测函数且f(x
l
;l
twl
)=(l
twl
)
t
x
l
,x
l
表示第q个类别中第l个样本的特征向量,y
l
表示第q个类别中第l个样本对应的类标签,表示组合稀疏,项表示复杂动作的权值由最相关的简单动作权值组合而成,μ1、μ2、μ3和μ4分别是用于实现重建复杂动作权值参数、避免过拟合、稀疏参数及避免过拟合功能的第一、第二、第三、第四平衡参数。
[0077]
步骤s3中,样本特征向量x
l
是由改进的密集轨迹进行提取的,其包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和x及y方向上的光流信息。利用fisher vector进
行编码,高斯混合模型(gmm:gaussian mixture model)中k的大小设为256,最后得到特征的维数是109056。
[0078]
步骤s3中,,采用交替迭代优化方法,更新w
t
,l
t
。由于范数的存在,采用快速迭代收缩阈值,求得最优的w
t
,,用于复杂动作的学习。
[0079]
在已发表的最新论文中,在kth和weizmann数据库的基础上增加了5个简单动作构成新的简单动作数据库,用来帮助复杂动作的学习。在复杂动作库olympic sports数据库上40%的样本可以达到79.1%,取的不错的效果。本次发明技术我们对简单动作进行完备性学习,使得复杂动作更大程度上迁移已有的简单动作知识帮助复杂动作的学习,将会产生不错的效果。
[0080]
实施例2:
[0081]
如图3所示,本实施例提供了一种基于层级终身学习的复杂动作识别装置,该装置包括提取构建模块301、权重获取模块302和复杂动作模块303,各个模块的具体功能如下:
[0082]
提取构建模块301,用于提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
[0083]
权重获取模块302,用于对完备的简单动作进行最小值优化操作,获取简单动作的权值参数;
[0084]
复杂动作模块303,用于通过简单动作的权值参数,建立权值最优组合模型,完成知识跨域迁移,实现复杂动作的学习。
[0085]
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0086]
实施例3:
[0087]
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图4所示,其通过系统总线401连接的处理器402、存储器、输入装置403、显示器404和网络接口405,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质406和内存储器407,该非易失性存储介质406存储有操作系统、计算机程序和数据库,该内存储器407为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器402执行存储器存储的计算机程序时,实现上述实施例1提出的一种基于层级终身学习的复杂动作识别方法,所述复杂动作识别方法包括以下步骤:
[0088]
s1、提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
[0089]
s2、对完备的简单动作进行最小值优化操作,获取简单动作的权值参数;
[0090]
s3、通过简单动作的权值参数,建立权值最优组合模型,完成知识跨域迁移,实现复杂动作的学习。
[0091]
实施例4:
[0092]
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的一种复杂动作识别方法,如下:
[0093]
s1、提取简单动作建立简单动作库,然后提取复杂动作,利用相似性度量方法,完成简单动作的完备性学习,构建完备的简单动作库;
[0094]
s2、对完备的简单动作进行最小值优化操作,获取简单动作的权值参数;
[0095]
s3、通过简单动作的权值参数,建立权值最优组合模型,完成知识跨域迁移,实现复杂动作的学习。
[0096]
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(ram,randomaccessmemory)、u盘、移动硬盘等介质。
[0097]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1