1.一种自学习的人体行为识别与异常检测方法,其特征在于,包括如下步骤:
步骤一:生成监控视频中的显著区域向量,并定时自学习更新显著区域;
步骤二:对同一显著区域,根据当前帧人体行为状态计算当前帧的状态特征向量和动作值,以及转移到下一帧后的人体行为状态预测值、奖励值,以及该状态下的动作;
步骤三:执行当前目标网络,计算当前的人体行为动作价值,更新目标动作网络和目标价值网络,保证每一帧视频图像不仅具有预测下一帧视频图像的动作功能,并且具有历史邻近数据的记忆功能;
步骤四:网络参数收敛或满足最大迭代次数后,统计t时间内当前动作网络的反馈奖励值和目标价值网络的人体行为动作价值的加权和,得出行为异常级别。
2.根据权利要求1所述的一种自学习的人体行为识别与异常检测方法,其特征在于,所述步骤一的具体方法如下:
(1)设一个连续时间段ti={t1,t2,...ta,ta},其中ta为某一时间点,a为选择的多个离散时间点数量,1≤a≤a,a≥10,统计ti时间段内的所有图像并组成图像序列,表示为v={v1,v2,...,vn,...,vn},n为ti时间段内的图像数量,1≤n≤n;
(2)对v中的图像vn中的像素表示成集合
(3)遍历集合
(4)定义集合xm的高斯模型概率密度函数为:
遍历整幅图像位置,完成所有像素的k模式高斯分布;
(5)在完成ti时间段内n帧图像的模式为k的高斯分布建模后,对第n+1帧的图像在点m(x,y)位置的像素
其中,μk,m为均值,δk,m为方差;
如满足上述公式,则判断为属于后景,否则不属于;
(6)根据步骤(5)中的公式判断
其中,α为学习速率,ωk,n+1和ωk,n为更新前后的权重参数,ρ为更新μk,m和δk,m的参数计算,
(7)在随机变量
(8)根据模式总数为k的高斯模型统计ti时间段内的视频前景框,并进行非极大值抑制,令t={t1,t2,...,ti...,ti}时,遍历t集合,按照步骤(1)~(7)统计所有时间段ti内的视频前景框,1≤i≤i,i为集合t中包含的时间段的数量,i≥100;合并具有连通性质的前景框,最终得到相互独立的d个前景区域,又称为显著区域,表示成向量r={r1,r2,...,rd,...,rd},d=1,2,...,d;
(9)当出现摄像机的人为移动,或定义间隔时间γ时,按照上述方式重新自学习更新显著区域r。
3.根据权利要求2所述的一种自学习的人体行为识别与异常检测方法,其特征在于,所述步骤二的具体方法如下:
(1)执行动作当前网络acurrent,根据当前的人体行为状态sst定义其特征向量为φ(sst)={sst,1,sst,2,...sst,p,...,sst,p},1≤p≤p,p为特征向量的维度,得到候选动作值集合a={a1,a2,...,ac,...,ac},1≤c≤c,c为候选的动作值集合中动作值的数量;
设预测当前最优动作值为ast,且ast∈a,设在最优动作值为ast的下一个人体行为状态s′st,反馈奖励值rst,其中,奖励值rst根据异常级别等级le={le1,le2,...,leb,...leb},1≤b≤b,定义为:
其中,ast=πθ(φ(sst))+ξ,β为0.5~1之间的奖励系数,通过动作策略函数与随机噪声ξ来选择最优动作值ast,表达为:
q(φ(sst))为当前动作网络价值,ε为0.001;在进行网络参数更新收敛过程中,增加样本的随机性,在得到的人体行为动作值ast后随机增加噪声信息ξ,πθ(φ(sst))为动作的选择策略函数,简称策略函数,并通过动作目标函数j(θ)对θ求解梯度,进行acurrent网络参数更新;
j(θ)对θ求导公式表达为:
(2)将{φ(sst),ast,rst,φ(s′st),is_end}存入经验回放池集合d中,其中,is_end表示一个动作序列是否为终止,如果is_end=1,说明动作终止,否则is_end=0。
4.根据权利要求3所述的一种自学习的人体行为识别与异常检测方法,其特征在于,所述步骤三的具体方法如下:
(1)执行当前目标网络ccurrent,根据步骤二中更新的经验回放池集合d,采样q个样本,{φ(sj),aj,rj,φ(s'j),is_endj},j=1,2,...,q,计算当前的人体行为动作价值yj:
其中,q′(φ(s′j),πθ′(φ(s′j)),ω′)为目标价值网络ctarget的人体行为动作价值,γ为衰减系数,并通过价值目标函数j(ω)对ω求解梯度,进行当前目标网络ccurrent的网络参数ω的更新,其中,价值目标函数为:
(2)更新目标动作网络atarget和目标价值网络ctarget,为保证每一帧视频图像不仅具有预测下一帧视频图像动作功能,并且具有历史邻近数据的记忆功能,采用的参数更新策略为:
θ'←τω+(1-τ)θ',
ω'←τω+(1-τ)ω',其中,τ为0.1或0.01。
5.根据权利要求4所述的一种自学习的人体行为识别与异常检测方法,其特征在于,所述步骤四的具体方法如下:
网络参数收敛或满足最大迭代次数后,统计t时间内当前动作网络acurrent的反馈奖励值rt和目标价值网络的人体行为动作价值qt′的加权和,根据如下公式判断行为异常级别: