1.本发明属于工业监控视频的智能检测领域,更具体地,涉及一种工业场景下的遗留物检测方法和系统。
背景技术:2.遗留物检测是智能监控视频领域具有重要意义的研究方向,特别是在工业生产区中,环境安全要求极为严格,不明物品的遗留可能会影响机组作业,带来安全隐患,从而造成重大损失,该算法能检测出人员遗留在工业生产区中的物品,并及时向监控中心发送报警信息,保障生产安全。
3.近年来,许多研究者提出了一些遗留物检测算法,这些算法在公共数据集上的表现较好,但因为大多采用传统图像处理方法。然而,实际环境中存在光线变化、运动遮挡、目标尺度变化、背景干扰等挑战,导致目前的方法难以应用到实际场景中,工业场景下的遗留物检测仍然存在一些问题,主要体现为以下几点:
4.1.现有研究方案缺乏满足工业需求的遗留数据集。一方面,现有公共数据集场景多为机场、火车站站台,场景风格单一、背景简单,未定义和区分人员的各种遗留行为,无法检测和评估工业环境下人员较为复杂多样的遗留行为。另一方面,现有遗留物数据集中的物品多为行李箱、背包等,而工业环境中人员常遗留杂物、工具等,遗留物品类别差别较大导致深度学习方法无法发挥其的检测优势;此外,虽然目标检测领域数据集较多,但是其中的目标为日常场景中的大型目标,而监控视频中的目标多为中小型目标,目前已有数据集的目标类型和尺度大小都不符合工业检测需求。
5.2.现有研究方案漏检率和误判率高。现有算法主要采用传统图像处理方法,非常容易将静止的车、人等目标误判为遗留物,而且工厂中工人的频繁移动停留、肢体摆动、运动遮挡和相似背景干扰都会造成严重的漏检。
6.3.现有研究方案鲁棒性差。现有算法依赖人为经验设计特征提取器,往往在特定的背景下才能发挥作用,当背景发生变化则失效,特别是在工业背景复杂程度较高的情况下,传统方法会产生极大的干扰,导致检测不稳定。
技术实现要素:7.针对现有技术的缺陷和改进需求,本发明提供了一种工业场景下的遗留物检测方法和系统,其目的在于降低工业场景下遗留物检测的误判率和漏检率。
8.为实现上述目的,按照本发明的第一方面,提供了一种工业场景下的遗留物检测方法,该方法包括:
9.分别提取监控视频当前帧的特征图和背景帧的特征图,所述背景帧与工业监控摄像头一一对应,为不包含任何遗留物的摄像头监控的工业生产区,一旦发生变化需重新标定;
10.使用负相关的相关性算子计算当前帧特征图和背景帧特征图的相关性,得到相关
特征图;
11.从相关特征图中检测得到当前帧不属于背景的所有前景目标的回归框及位置;
12.对每个前景目标进行分类,得到前景目标的类别;
13.根据当前帧中的前景目标的类别和位置,结合工业场景特性,输出遗留物检测结果。
14.优选地,所述使用负相关的相关性算子计算当前帧特征图和背景帧特征图的相关性,得到相关特征,具体如下:
[0015][0016]
其中,f(a,b)为当前帧与背景帧的相关特征图,a为当前帧特征图,b为背景帧特征图,a
ij
为前帧特征图第i行j列的特征,b
ij
为背景帧特征图第i行j列的特征,i=1,
…
,m,j=1,
…
,n,m、n分别为特征图的长、宽。
[0017]
有益效果:针对不同遗留物深度特征与背景深度特征之差差异大的问题,本发明直接采用特征图差值再经过softmax函数作为当前帧的新特征图,使得不同遗留物插值处在同样的范围,在检测中能够以相同的优先级被对待。
[0018]
优选地,采用孪生神经网络分别提取监控视频当前帧的特征图和背景帧的特征图,所述所述孪生神经网络的两个分支网络结构相同,网络主干结构均为resnet50的前四层网络结构组成级联结构,两个分支网络参数不同。
[0019]
有益效果:本发明采用上述优选结构的特征提取网络,能够有效地提取出背景帧与当前帧的级联特征,由两个网络级联特征构成的相关特征可以很好的表达当前帧中不属于背景帧的前景目标;从计算速度上,当前结构在gpu上运行时可满足实时检测的要求。
[0020]
优选地,采用目标检测网络从相关特征图中检测得到当前帧不属于背景的所有前景目标的回归框及位置,所述目标检测网络为串联的rpn head和roi head。
[0021]
有益效果:本发明采用上述优选结构的目标检测网络,该结构能有有效地提取出不属于背景帧的前景目标,漏检率和误判率都满足工业场景下的使用要求;从计算速度上,当前结构在gpu上运行时可满足实时检测的要求。
[0022]
优选地,若连续m帧中检测出同一物品前景目标且未检测到人,判定该前景目标为遗留物,进行标记并发送报警信息。
[0023]
优选地,对每个新出现的物品前景目标,匹配与其距离最近的人;若物品前景目标所匹配的人消失超过一定时间,将其标记为遗留物,进行标记并发送报警信息。
[0024]
优选地,统计其遗留的帧数并根据视频帧率将其转换为遗留时间,在画面上标记遗留物的位置和遗留时间,并向监控中心推送报警信息。
[0025]
为实现上述目的,按照本发明的第二方面,提供了一种工业场景下的遗留物检测系统,包括:计算机可读存储介质和处理器;
[0026]
所述计算机可读存储介质用于存储可执行指令;
[0027]
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方
面所述的工业场景下的遗留物检测方法。
[0028]
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
[0029]
针对现有工业场景遗留物检测误判率和漏检率高的问题,本发明利用工业场景中监控视频的背景变化较小的特点,提出构建消除背景影响的特征图,然而在工业场景下背景会受到光线变化、摄像头抖动、噪声等因素影响,像素级下背景变化非常大,无法直接采用传统背景差分方法,本发明采用负相关性算子计算得到当前帧特征图与背景帧特征图的相关特征,能够准确识别背景以外的所有前景目标,消除光线变化等干扰影响,降低遗留物检测的误判率和漏检率。
附图说明
[0030]
图1为本发明提供的一种工业场景下的遗留物检测方法流程图。
[0031]
图2为本发明提供的新特征图构建示意图。
[0032]
图3为aod数据集的十种目标类别示意图。
[0033]
图4为存在遗留物的三种算法检测效果对比,(a)为算法1,(b)为算法2,(c)为本发明。
[0034]
图5为不存在遗留物的三种算法检测效果对比,(a)为算法1,(b)为算法2,(c)为本发明。
具体实施方式
[0035]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0036]
如图1所示,本发明公开一种工业场景下的遗留物检测方法,包括以下步骤:
[0037]
分别提取监控视频当前帧的特征图和背景帧的特征图,所述背景帧与工业监控摄像头一一对应,为不包含任何遗留物的摄像头监控的工业生产区,一旦发生变化需重新标定。
[0038]
如图2所示,采用孪生神经网络分别提取监控视频当前帧的特征图和背景帧的特征图,所述孪生神经网络的两个分支网络结构相同,网络主干结构均为resnet50的前四层网络结构组成级联结构,两个分支网络参数不同,分别用作提取当前帧与背景帧的级联特征。在工业场景的遗留物数据集中训练得到权重,分别用于提取当前帧、背景帧的级联特征。
[0039]
使用负相关的相关性算子计算当前帧特征图和背景帧特征图的相关性,得到相关特征图。
[0040]
所述使用负相关的相关性算子计算当前帧特征图和背景帧特征图的相关性,得到相关特征,具体如下:
[0041][0042]
其中,f(a,b)为当前帧与背景帧的相关特征图,a为当前帧特征图,b为背景帧特征图,为当前帧特征图与背景特征间图的棋盘距离,a
ij
为前帧特征图第i行j列的特征,b
ij
为背景帧特征图第i行j列的特征,i=1,
…
,m,j=1,
…
,n,m、n分别为特征图的长、宽。
[0043]
上述为优选算子,也可以是以下算子:
[0044][0045][0046]
从相关特征图中检测得到当前帧不属于背景的所有前景目标的回归框及位置。
[0047]
采用目标检测网络从相关特征图中检测得到当前帧不属于背景的所有前景目标的回归框及位置,所述目标检测网络为串联的rpn head和roi head,其中,rpn head的输入为上一步骤中的大批的相关特征,输出为proposal regions,roi head的输入为proposal regions,输出为感兴趣区域,即目标的回归框。
[0048]
本发明采用端到端的训练方式,数据集为各工业监控摄像头监控的1年的历史数据,采用80%作为训练数据,20%作为测试数据。标注各视频帧中遗留物的位置和类别,作为标签。本实施例中类别为10种,其中包括“人”。
[0049]
对每个前景目标进行分类,得到前景目标的类别。
[0050]
本实施例中图像分类算法采用resnet18网络的主干结构,输出层根据工业场景遗留物数据集进行调整,网络中的权重使用工业场景遗留物数据集进行训练。分类网络将上一步骤得到的感兴趣区域的目标进行分类。
[0051]
根据当前帧中的前景目标的类别和位置,结合工业场景特性,输出遗留物检测结果。
[0052]
第一种遗留物检测机制:若连续m帧中检测出同一物品前景目标且未检测到人,判定该前景目标为遗留物,进行标记并发送报警信息。
[0053]
第二种遗留物检测机制:对每个新出现的物品前景目标,匹配与其距离最近的人;若物品前景目标所匹配的人消失超过一定时间,将其标记为遗留物,进行标记并发送报警信息。
[0054]
统计其遗留的帧数并根据视频帧率将其转换为遗留时间,在画面上标记遗留物的位置和遗留时间,并向监控中心推送报警信息。
[0055]
本实施例构建了工业场景下的遗留物数据集(abandoned objects dataset,下文简称“aod”)。aod主要用于评估深度学习的检测模型,分为训练集、验证集和测试集。aod的采样需要将各类遗留物放置在场景的不同位置,遗留物品需要全面考虑工业生产下可能出现的物品,在多次观察和现场调研后,选取工具箱、背包等九类物品,再加上工厂中的人员共十类作为待标注目标,aod目标如图3所示。同时需要保证数据集中的目标具有不同角度、大小、亮度以及不同遮挡程度变化。设置测试集以便对比后续不同模型的检测精度。aod数据集共包含3600张图像,10029个目标实例。其中训练集包含1900张图像,5159个目标实例,验证集包含300张图像,477个目标实例,测试集包含1400张图像,4393个目标实例。由于人员活动较多,故人员目标实例最多,其余物品目标实例个数均衡,aod的各类目标个数的统计信息如表1所示。小目标定义为宽高均小于视频帧宽高10%的目标,其中小目标实例为3968个,占比约为40%,中等尺寸目标实例为8566个,占比约为85%。aod包含了不同尺度和不同状态的目标,其中大量的中小型目标和其在工业场景下难以区分的特征,大大增加了对模型的检测难度。
[0056]
表1 aod实例数目统计信息
[0057][0058]
将本发明的方法分别与“abandoned object detection using frame differencing and background subtraction”中算法1和“application of yolo deep learning model for real time abandoned baggage detection”中的算法2进行对比,用漏检率和误判率指标评估算法的检测准确度。
[0059]
漏检率等于没有检测出的遗留物数量除以实际遗留物总数;误判率等于遗留物被错误分类的物品数量除以检测出的遗留物总数。各类事件检测结果统计如表2所示。
[0060]
表2不同遗留物检测方法对比
[0061] 漏检率误判率算法160.00%65.46%算法234.82%34.33%本方法9.63%4.50%
[0062]
从表2和图4-图5可以看出,本发明的方法对工业监控视频的漏检率和误判率要远远低于其它方法。
[0063]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。