一种基于自进化的弱监督的视频异常检测方法

文档序号:35790673发布日期:2023-10-21 20:36阅读:36来源:国知局
一种基于自进化的弱监督的视频异常检测方法

本发明涉及深度学习领域,具体涉及一种基于自进化的弱监督的视频异常检测方法。


背景技术:

1、视频异常检测具有重要的意义。异常事件包括如交通事故、人员受伤、失火等事件可能会造成社会危害,甚至威胁人类的生命安全。所以这需要安保人员在监控视频中发现异常后迅速作出反应,以及时应对异常事件从而最大程度上保证民众的安全降低经济损失维护社会治安。然而,如果纯粹靠人去观察监控视频需要付出大量的时间成本和人力成本,并且由于人的注意力不可能长时间始终保持高度集中,而且每天需要三分之一左右的时间休息,这会导致在监控中会存在漏检和误检等情况,从而导致整个安防的安全性和实用性的降低。

2、为了解决上述难题,视频异常检测应运而生,其旨在利用深度学习方法自动检测视频中违反常规的事件或行为,并准确定位异常事件发生的时间。然而由于异常事件罕见稀少的特点导致异常检测的数据集收集难度较大,且有监督的视频异常检测检测方法需要人工标注的帧级别标签,但是帧级别的标注需要耗费大量的人力成本和时间成本,且异常事件种类繁多同时各种异常之间差异较大故难以统一对异常事件建模。所以通过有监督的方法解决视频异常检测问题是事倍功半的,目前一种主流方法是将异常事件视为是与正常事件差异较大的罕见事件,通过仅含正常事件的无监督数据集训练一个自动编解码器ae,训练阶段仅对正常样本进行建模使其对正常样本有很好的预测或重建效果,在检测时由于没有对异常样本进行过训练故而在异常样本输入ae时重建或预测会有更差的效果,所以将预测误差或重构误差过大的样本归为异常样本。然而,ae本身具有很好的泛化能力,在检测时对一些与正常相近的异常样本也能很好地重建,造成异常样本的重构误差较小从而导致错误警报。

3、目前另一种主流方法为弱监督的异常检测方法,通过对数据集标注视频级的弱标签结合多示例学习完成异常检测任务。弱标签的标记方法即为若视频的所有帧都是正常的则将其标记为正常,如果视频包含若干异常帧则将其标记为异常。多示例学习法,其思想是将视频和片段分别视为包和示例,将异常视频视为正包,正常视频视为负包,选取包内得分最高的k个示例并结合包级别的弱标签通过增大正包和负包中k个实例的差异性来完成训练。虽然上述方法较之前的方法显著提升了异常检测的精度,但依然存在一些问题:首先这些多示例学习方法选取特征幅值最大或异常得分(等刻画异常的描述量)最高的k个片段来训练分类器。对于不存在异常片段的正常视频来说,通过约束top-k片段的异常得分低固然可以限制其他片段的异常得分更低,但对存在少量异常片段的异常视频来说,通过约束异常得分top-k片段的更高却不能对其余的正常片段形成有效约束即令其异常得分更低,会导致异常视频中的正常片段较高的异常得分,增大区分难度。其次在多示例学习训练初期正常片段的异常得分可能很高导致异常视频中选取的top-k片段很可能含有正常片段,这些正常片段由于是从异常视频中选取得到导致其被认为是异常类别,造成损失函数错误更新最终影响训练结果。此外多示例学习方法仅关注于这k个片段未能充分利用到视频的全部信息,浪费了除top-k片段之外的其他片段,而这些被忽略的片段也可能富含对异常检测至关重要的信息。


技术实现思路

1、本发明为解决上述技术问题,提出了一种基于自进化的弱监督的视频异常检测方法,以期能充分利用视频异常事件的时序特性,从而能更加精确的进行视频异常检测。

2、本发明为达到上述发明目的,采用如下技术方案:

3、本发明一种基于自进化的弱监督的视频异常检测方法的特点在于,包括以下步骤:

4、步骤一:获取弱标签的视频集其中,vk表示由t个片段构成的第k个视频,yk∈{0,1}表示第k个视频的标签,若yk=1,表示第k个视频中包含异常片段;若yk=0,表示第k个视频全部为正常片段;|d|表示视频的总数;

5、由弱标签的视频集d中所有标签取值为1的视频构成正包dab;由弱标签的视频集d中所有标签取值为0的视频构成负包dnor,其中,ab表示含有异常片段,nor表示仅含有正常片段;

6、从负包dnor和正包dab中分别选取b/2个视频构成一批视频并输入视频编码器中进行处理,得到一批视频的i3d特征矩阵fnor,ab∈rb×t×c;其中,b为批量大小,c为特征维度,t为片段数,且fnor,ab中的前b/2个特征为负包特征,记为fnor,fnor,ab中的后b/2个特征为正包特征,记为fab;

7、步骤二:构建深度可分离时间依赖性网络,并对所述i3d特征矩阵fnor,ab∈rb×t×c进行处理,得到总时间依赖特征

8、将所述总时间依赖特征输入第一全连接层中进行处理,得到异常检测特征并继续输入第二全连接层中进行处理,得到第二异常检测特征对第二异常检测特征进行线性归一化处理后,得到异常检测概率向量scab∈r(b×t)×1;

9、步骤三:通过自进化方法对总时间依赖特征进行处理,得到置信度矩阵w和相似度标签矩阵rl;

10、根据式(10)构建均方误差损失函数l(rlij,wij,csij):

11、

12、式(10)中,wij表示置信度矩阵w中第i行第j行的置信度;rlij表示似度标签矩阵rl中第i行第j行的相似度标签;csij为相似度矩阵cs中第i行第j行的元素,表示一批视频中第i个片段与第j个片段的相似度;

13、根据式(11)构建所述深度可分离时间依赖性网络的自进化损失函数lse:

14、

15、式(11)中,f(u,s)表示不可信空间逐步压缩函数;u、s为两个阈值;

16、步骤四:根据相似度标签矩阵rl和置信度矩阵w生成伪标签向量

17、步骤五、构建损失函数:

18、步骤5.1、根据伪标签向量利用式(12)构建所述深度可分离时间依赖性网络的交叉熵损失lce:

19、

20、式(12)中,表示中第m个片段的伪标签,表示中第m个伪标签对应片段为异常的概率,m∈{1,...,2m};

21、步骤5.2、根据式(13)构建所述深度可分离时间依赖性网络的总体损失l:

22、l=lce+λ1lse+λ2lts+λ3lsp    (13)

23、式(11)中,λ1,λ2,λ3为平衡损失项的三个损失权重;lts表示时间平滑损失,并由式(14)得到,lsp表示稀疏性损失,并由式(15)得到;

24、

25、

26、式(14)和式(15)中,表示一批视频中第e个片段到第f个片段的异常检测概率组成的序列;表示第e个片段到第f+1个片段的异常检测概率序列;

27、步骤六、基于弱标签的视频集利用梯度下降法对所述深度可分离时间依赖性网络进行训练,并计算所述总体损失l以更新网络参数,直到所述总体损失l收敛为止,从而得到训练好的视频异常检测模型,用于对任意视频进行异常检测。

28、本发明所述的一种基于自进化的弱监督的视频异常检测方法的特点也在于,所述步骤二的深度可分离时间依赖性网络包括:维度变换模块、深度可分离时序卷积模块和交叉注意力模块;其中,所述维度变换模块包含:两个并联的卷积层,其中一个卷积层后连接深度可分离时序卷积网络模块,另一个卷积层后连接交叉注意力模块;

29、所述深度可分离时序卷积模块由h个空洞卷积模块串联而成,每个空洞卷积模块均由不同卷积核大小的空洞深度可分离卷积层并联组成,且每个并联的空洞深度可分离卷积层的输出结果拼接后,形成一个空洞卷积模块的输出,且每一个空洞卷积模块的输出作为下一个空洞卷积模块的输入;

30、步骤2.1、将所述i3d特征矩阵fnor,ab∈rb×t×c输入所述维度变换模块中,并分别经过两个不同卷积层的处理后,得到维度变换后的第一卷积特征和第二卷积特征

31、步骤2.2、将第一卷积特征输入到深度可分离时序卷积模块中,并依次经过h个空洞卷积模块的处理,从而利用式(1)得到深度可分离时序卷积模块输出的含有丰富短时依赖性的短时特征

32、

33、式(1)中,α表示权重;表示第h个空洞卷积模块dsbh输出的第h个空洞卷积特征,且为第h-1个空洞卷积模块dsbh-1输出的第h-1个空洞卷积特征,h∈{1,···,h};

34、步骤2.3、所述交叉注意力模块对所述短时特征进行卷积处理,得到降维短时特征并对第二卷积特征也进行卷积处理,得到短时卷积特征

35、所述交叉注意力模块对所述降维短时特征分别经过两个卷积层处理后,相应得到第一短时卷积特征和第二短时卷积特征从而利用式(2)生成注意力图像am:

36、

37、式(2)中,t表示转置;

38、所述交叉注意力模块再利用式(3)得到注意力特征fcnor,ab:

39、

40、式(3)中,conv1×1表示卷积核为1×1的卷积操作;

41、所述交叉注意力模块最后利用式(4)得到全局时间特征

42、

43、步骤2.4、所述深度可分离时间依赖性网络利用式(5)得到总时间依赖特征

44、

45、式(5)中,(·,·)表示拼接。

46、所述步骤三包括:

47、步骤3.1、对总时间依赖特征进行尺度变化后,得到降维后的总时间特征xnor,ab∈r(b×t)×c,从而利用式(6)得到相似度矩阵cm:

48、

49、式(6)中,n表示cm的维度;

50、步骤3.2、利用式(7)将相似度矩阵cm归一化到(0,1),从而得到相似度矩阵cs:

51、

52、式(7)中,i表示与cm维度相同的全1阵;

53、步骤3.3、利用式(8)得到相似度标签矩阵rl中第i行第j行的相似度标签rlij:

54、

55、步骤3.4、利用式(9)得到置信度矩阵w中第i行第j行的置信度wij:

56、

57、所述步骤四包括:

58、步骤4.1、取相似度标签矩阵rl的右上方区域,记为rq=rl[n/2:n,0:n/2]∈rn/2×n/2,取置信度矩阵w的右上方区域,记为wq,从而得到标签原生矩阵q=rq·wq;

59、步骤4.2、对标签原生矩阵q求列和后,得到向量ql=colsum(q),其中,colsum()为求矩阵的列和操作;从ql中删除大于等于0的元素后,得到筛选后的向量qd=del(ql)∈rm×1,del()为删除操作;m表示qd的长度;

60、步骤4.3、将负包dnor中所有视频的标签组成异常标签向量ynor,并从ynor中随机筛选出δ个片段的异常标签并组成异常标子向量nl,从而将nl和qd进行拼接后,得到伪标签向量

61、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述视频异常检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

62、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时所述视频异常检测方法的步骤

63、与现有技术相比,本发明的有益效果在于:

64、1、本发明利用了异常事件在视频中的时序相关性,最大限度地利用人力成本较低的弱标签数据集信息,并使用深度可分离时间依赖性网络获取含有丰富多尺度时间依赖性的更具鉴别性的特征,提高了异常检测的精度。

65、2、本发明自进化约束深度网络在训练时样本受置信度矩阵筛选,使网络在训练初期仅关注特征更明显更易于分类的样本,随着网络逐步的更新迭代逐步学习更难以分类的样本,这种根据样本分类难度由易到难的参与训练的方式,降低了多示例学习方法训练初期错误分类对网络模型造成的不良影响,从而能使异常检测模型学习到更多样本信息的同时,由易到难地学习到样本之间的多尺度时间依赖关系,从而提高了视频异常检测的精度。

66、3、本发明利用高置信度的伪标签代替视频级的弱标签进行训练,使所有片段参与训练,从而能更加充分有效地利用数据集,克服了多示例学习方法仅使用k个片段而导致丢失重要信息的可能,进而提高了数据集的利用率同时,能得到更具鉴别性的特征,从而提高了异常检测的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1