一种文本提示学习下的弱监督视频异常检测方法及系统

文档序号:38370705发布日期:2024-06-19 12:24阅读:6来源:国知局
一种文本提示学习下的弱监督视频异常检测方法及系统

本发明涉及模式识别,具体涉及一种文本提示学习下的弱监督视频异常检测方法及系统。


背景技术:

1、视频异常检测应用广泛于安防、监控、工业安全、交通管理、零售业防损以及电力设施监测等领域。它基于模型和算法,能够实时分析视频数据,检测各种异常行为和事件,如入侵、事故、设备故障等,从而提供更高效、准确的监测和预警系统。

2、然而,以往的视频异常检测方法面临着一些挑战。例如,基于规则的方法往往需要手动定义一系列规则和阈值,难以适应复杂的场景变化和异常情况;基于机器学习的方法通常需要大量标记的训练样本,并且对于长期依赖关系的建模存在困难;无监督深度学习的方法通过对正常视频特征分布进行建模,然而训练样本不能概括所有的正常特征;弱监督深度学习的方法通过多实例损失来提取异常样本的特征,然而现有方法没有关注异常样本的类别从而导致模型难以捕捉异常样本的语义信息,容易造成误检和漏检。


技术实现思路

1、为解决上述背景中的技术问题,本发明针对传统弱监督深度学习的方法对异常样本的语义信息提取能力不足的问题,提出了一种文本引导的记忆模块;为了实现文本提示与视频片段的对齐,提出了一种多粒度多尺度时间注意力网络;本发明通过多粒度多尺度时间注意力网络对视频特征进行编码,并通过文本记忆模块分离异常特征,能够准确检测出视频中的异常片段,减少了误检和漏检的情况。

2、为实现上述目的,本发明提供了一种文本提示学习下的弱监督视频异常检测方法,步骤包括:

3、采集监控设备中的视频流,并对视频流的视频特征进行编码;

4、对采集到的视频流进行标注,得到异常视频数据;

5、对所述异常视频数据进行文本描述,并对文本进行编码,得到文本编码特征;

6、基于编码后的所述视频特征和所述文本编码特征构建检测模型;

7、利用所述检测模型完成视频流中的异常事件检测。

8、优选的,对所述视频特征进行编码的方法包括:采用i3d编码方式,将每16帧视频片段编码成一维向量。

9、优选的,所述检测模型包括:注意力网络、记忆模块、交叉注意力机制模块和异常检测头;

10、所述注意力网络用于对所述视频特征进行多粒度融合,得到融合特征;

11、所述记忆模块用于利用所述文本编码特征来增强所述视频特征;

12、所述交叉注意力机制模块用于基于所述融合特征和所述增强后的视频特征,进一步增强所述视频特征的表示;

13、所述异常检测头用于输出异常视频。

14、优选的,所述注意力网络包括:一个多粒度多尺度时间注意力网络;所述注意力网络引入多个并行的卷积层,每个层具有不同的滤波器大小或时间步长,以从不同尺度上提取特征;同时在每个尺度上引入时间注意力机制,以对不同时刻的特征赋予不同的权重,实现特征的多粒度融合,得到所述融合特征。

15、优选的,所述记忆模块包括:一种文本引导更新的记忆模块:将编码后的所述视频特征与所述文本编码特征使用注意力机制进行相似度计算,以检索最相关的异常文本编码特征来增强编码后的所述视频特征,得到所述增强后的视频特征。

16、优选的,所述异常检测头由3层全连接层与relu激活函数组成,最后一层激活函数为sigmoid,确保输出的异常得分在0-1之间,最终通过多实例损失判别异常输出,sa代表异常样本输出,sn代表正常样本输出,多实例损失记作:

17、l3=max(0,1-max(sa)+max(sn))。

18、本发明还提供了一种文本提示学习下的弱监督视频异常检测系统,所述系统用于实现上述方法,包括:采集模块、标注模块、文本描述模块、构建模块和检测模块;

19、所述采集模块用于采集监控设备中的视频流,并对视频流的视频特征进行编码;

20、所述标注模块用于对采集到的视频流进行标注,得到异常视频数据;

21、所述文本描述模块用于对所述异常视频数据进行文本描述,并对文本进行编码,得到文本编码特征;

22、所述构建模块用于基于编码后的所述视频特征和所述文本编码特征构建检测模型;

23、所述检测模块用于利用所述检测模型完成视频流中的异常事件检测。

24、优选的,所述检测模型包括:注意力网络、记忆模块、交叉注意力机制模块和异常检测头;

25、所述注意力网络用于对所述视频特征进行多粒度融合,得到融合特征;

26、所述记忆模块用于利用所述文本编码特征来增强所述视频特征;

27、所述交叉注意力机制模块用于基于所述融合特征和所述增强后的视频特征,进一步增强所述视频特征的表示;

28、所述异常检测头用于输出异常视频。

29、与现有技术相比,本发明的有益效果如下:

30、本发明在视频异常检测任务中展示出良好的检测精准度,能够准确辨识并定位各类异常事件,显著提高了对于复杂环境及场景下异常事件的捕捉效能;与此同时,该发明在正常事件处理方面同样表现良好,成功将误检率有效控制在较低水平;最后,该发明具有良好的泛化性,不仅在特定场景下表现出色,同时在一些新的场景中也能快速适应并准确识别各类事件。



技术特征:

1.一种文本提示学习下的弱监督视频异常检测方法,其特征在于,步骤包括:

2.根据权利要求1所述的文本提示学习下的弱监督视频异常检测方法,其特征在于,对所述视频特征进行编码的方法包括:采用i3d编码方式,将每16帧视频片段编码成一维向量。

3.根据权利要求1所述的文本提示学习下的弱监督视频异常检测方法,其特征在于,所述检测模型包括:注意力网络、记忆模块、交叉注意力机制模块和异常检测头;

4.根据权利要求3所述的文本提示学习下的弱监督视频异常检测方法,其特征在于,所述注意力网络包括:一个多粒度多尺度时间注意力网络;所述注意力网络引入多个并行的卷积层,每个层具有不同的滤波器大小或时间步长,以从不同尺度上提取特征;同时在每个尺度上引入时间注意力机制,以对不同时刻的特征赋予不同的权重,实现特征的多粒度融合,得到所述融合特征。

5.根据权利要求3所述的文本提示学习下的弱监督视频异常检测方法,其特征在于,所述记忆模块包括:一种文本引导更新的记忆模块:将编码后的所述视频特征与所述文本编码特征使用注意力机制进行相似度计算,以检索最相关的异常文本编码特征来增强编码后的所述视频特征,得到所述增强后的视频特征。

6.根据权利要求3所述的文本提示学习下的弱监督视频异常检测方法,其特征在于,所述异常检测头由3层全连接层与relu激活函数组成,最后一层激活函数为sigmoid,确保输出的异常得分在0-1之间,最终通过多实例损失判别异常输出,sa代表异常样本输出,sn代表正常样本输出,多实例损失记作:

7.一种文本提示学习下的弱监督视频异常检测系统,所述系统用于实现权利要求1-6任一项所述的方法,其特征在于,包括:采集模块、标注模块、文本描述模块、构建模块和检测模块;

8.根据权利要求7所述的文本提示学习下的弱监督视频异常检测系统,其特征在于,所述检测模型包括:注意力网络、记忆模块、交叉注意力机制模块和异常检测头;


技术总结
本发明公开了一种文本提示学习下的弱监督视频异常检测方法及系统,其中方法步骤包括:采集监控设备中的视频流,并对视频流的视频特征进行编码;对采集到的视频流进行标注,得到异常视频数据;对异常视频数据进行文本描述,并对文本进行编码,得到文本编码特征;基于编码后的视频特征和文本编码特征构建检测模型;利用检测模型完成视频流中的异常事件检测。本发明在视频异常检测任务中展示出良好的检测精准度,能够准确辨识并定位各类异常事件,显著提高了对于复杂环境及场景下异常事件的捕捉效能;与此同时,该发明在正常事件处理方面同样表现良好,成功将误检率有效控制在较低水平;最后,该发明具有良好的泛化性,能快速适应新场景的任务。

技术研发人员:沈钧戈,武迎龙,毛昭勇,涂钦好,刘广林
受保护的技术使用者:西北工业大学
技术研发日:
技术公布日:2024/6/18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1