本公开涉及计算机图像检测领域,尤其是一种基于开放集对象检测器的反季节着装识别方法、装置、电子设备和存储介质。
背景技术:
1、随着公共安全监控系统的普及,视频监控数据的实时处理成为了一个重要的研究领域。反季节着装异常行为是潜在安全威胁或犯罪活动的一个重要早期指标,在多变的环境条件下,如何准确快速地识别异常的行为模式,例如反季节着装,对于公安系统预防安全事故和及时响应紧急情况至关重要。对于反季节着装异常行为的识别,由于服装种类众多,公共环境多变,目前还未存在成熟的自动识别方法。在计算机视觉领域,传统的对象检测器如faster r-cnn和yolo等,虽然在特定类别上取得了显著成效,但它们在处理开放集数据,即在训练期间未出现过的对象类别时,性能大大下降。这主要是因为它们缺乏将图像特征与文本描述结合的能力,从而无法有效泛化到新的或未知的对象上。
2、最近,transformer技术的引入标志着一个重要的发展,它为改善模型的泛化能力和理解复杂场景提供了新的可能性。特别是,基于transformer模型的对象检测器,如detr和其衍生模型,通过直接利用全图像的全局信息来预测对象,显示出了对复杂场景的更好理解。然而,即使是基于transformer的模型也面临着难以融合视觉和语言信息以实现开放集对象检测的挑战。grounding dino模型作为最新的研究成果,通过整合基于transformer的检测器dino与基础预训练,为开放集对象检测提供了新的解决方案。grounding dino大模型通过在多个阶段执行视觉语言模态融合来扩展闭集检测器dino,包括特征增强器、语言引导的查询选择模块和跨模态解码器(liu,shilong,et al."grounding dino:marryingdino with grounded pre-training for open-set object detection."arxiv preprintarxiv:2303.05499(2023).)。它不仅采用了现代的深度学习架构,而且通过引入语言作为辅助信息,极大地提升了模型对未知和多变环境中对象的检测能力。目前还未见将grounding dino模型应用于反季节着装识别的相关技术。
技术实现思路
1、本公开旨在至少解决现有技术中存在的技术问题之一。
2、为此,本公开提出了一种基于开放集对象检测器的反季节着装识别方法、装置、电子设备和存储介质,能够在复杂的公共安全监控环境中准确且高效地识别出反季节着装现象。
3、为了实现上述目的,本公开采用如下技术方案:
4、本公开第一方面提供的一种反季节着装识别方法,包括以下步骤:
5、步骤1、在公共场所以设定的分辨率和帧率捕获清晰连贯的实时视频,并将其分割为单帧图像;
6、步骤2、对获得的各帧图像均分别进行清晰度增强、灰度化、几何变换和图像增强的预处理,设定反季节着装识别的文本提示信息,确保所述文本提示信息与图像内容具有语义相关性,并将预处理后的图像与设定的文本提示信息构成输入对;
7、步骤3、构建用于开放目标检测的视觉大模型,将所述输入对输入所述视觉大模型中,以筛选出的对象区域框作为标注图像进行输出,从而识别是否存在反季节着装的异常行为;
8、步骤4、若识别到反季节着装的异常行为,则输出一个包含检测到的反季节着装特征的标注图像以及相关的置信度评分,若未识别到反季节着装的异常行为,则输出为原图,不包含任何标注信息。
9、在一些实施例中,采用分辨率为1280x720像素的rgb摄像头在公共场所录制所述实时视频,所述实时视频以15fps的帧率被捕获,并将所述实时视频流逐帧分割,每秒视频产生15帧独立图像,每帧保持1280x720像素的分辨率。
10、在一些实施例中,将基于transformer的检测器dino与基础预训练相结合构建grounding dino视觉模型,将其作为所述视觉大模型,所述视觉大模型的输出为多组对象区域框和名词短语或单词,所述grounding dino视觉模型包括用于图像特征提取的图像主干网络、用于文本特征提取的文本主干网络、用于跨模态特征融合的特征增强器、用于查询初始化的语言引导的查询选择器以及用于对对象区域框进行更精确的调整和优化的跨模态解码器。
11、在一些实施例中,使用swin transformer网络作为所述图像主干网络,使用bert模型作为文本主干网络,以进行图像与文本的多尺度特征提取。
12、在一些实施例中,通过所述特征增强器进行交叉模态的特征融合,并利用可变形自注意力及交叉注意力机制优化特征对齐。
13、在一些实施例中,通过所述语言引导的查询选择器选择与输入的文本提示信息相关的特征作为所述跨模态解码器的跨模态查询。
14、在一些实施例中,每个所述跨模态解码器的跨模态查询输入至所述跨模态解码器中,先后通过自注意力层和图像交叉注意力层来结合图像特征,随后通过文本交叉注意力层来结合文本特征,最后通过前馈神经网络对特征进行进一步的加工和细化,使得最终的查询能够更准确地代表所要检测的对象。
15、本公开第二方面提供的一种反季节着装识别装置,包括:
16、采集模块,用于在公共场所以设定的分辨率和帧率捕获清晰连贯的实时视频,并将其分割为单帧图像;
17、预处理模块,用于对获得的各帧图像均分别进行清晰度增强、灰度化、几何变换和图像增强的预处理,设定反季节着装识别的文本提示信息,确保所述文本提示信息与图像内容具有语义相关性,并将预处理后的图像与设定的文本提示信息构成输入对;
18、反季节着装识别模块,用于构建用于开放目标检测的视觉大模型,将所述输入对输入所述视觉大模型中,以筛选出的对象区域框作为标注图像进行输出,从而识别是否存在反季节着装的异常行为;
19、输出模块,用于输出所述反季节着装识别模块的识别结果,若识别到反季节着装的异常行为,则输出一个包含检测到的反季节着装特征的标注图像以及相关的置信度评分,若未识别到反季节着装的异常行为,则输出为原图,不包含任何标注信息
20、本公开第三方面提供的一种电子设备,包括:
21、至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;
22、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行根据本公开第一方面任一实施例所述的反季节着装识别方法。
23、本公开第四方面提供的一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行根据本公开第一方面任一实施例所述的反季节着装识别方法。
24、本公开的有益效果如下:
25、本公开的一种反季节着装识别方法、装置、电子设备和存储介质,具有显著的有益效果。首先,通过融合先进的深度学习架构和自然语言处理技术,实现了公共场所监控视频中异常着装特征的实时自动识别,显著提高了对于反季节着装现象的识别准确性和响应速度。其次,由于模型的开放集数据处理能力,它能够有效地识别训练集中未曾见过的目标,以应对监控场景的未知和非标准事件,极大提高了系统的泛化能力和适应性,这对于动态变化的公共安全监控环境尤为重要。此外,语言引导的查询选择机制和跨模态解码器,增强了模型对于图像中目标与文本描述的匹配准确性,进一步确保了识别过程的精确性和相关性,提升了对动态变化场景的适应能力,允许系统准确地解释和响应复杂场景,为安全监控人员提供了一个强有力的辅助工具。综上所述,本公开不仅提升了公共安全监控的效能,也为相关领域提供了一种新的解决方案,有望在提高公共场所安全性方面发挥重要作用。