1.本发明涉及计算机识别技术领域,特别涉及一种后厨混乱性检测方法及终端。
背景技术:2.后厨环境卫生状况是食品安全监管的重中之重。通过运用人工智能技术,后厨环境卫生监管正逐步朝智能化方向发展,主要体现为对后厨作业人员违规行为的识别(如:未戴口罩、未戴手套、未戴帽子、吸烟等)以及蛇鼠等活物的检测。
3.但对于评估后厨环境卫生状况最直观的指标之一的“混乱性”,目前现有技术对其的自动化检测仍然处于空白状态,主要原因在于两点:一是混乱性偏向于人们的主观感受,很难对其进行量化衡量;二是后厨场景复杂多变,对其混乱性进行检测具有很大难度。
技术实现要素:4.本发明所要解决的技术问题是:提供一种后厨混乱性检测方法及终端,能对后厨的混乱性进行自动识别。
5.为了解决上述技术问题,本发明采用的技术方案为:
6.一种后厨混乱性检测方法,
7.获取检测帧和参考帧,提取检测帧和参考帧的物品,将多个摆放在一起的同类别物品合并作为一个物品;
8.比较检测帧和存储的参考帧的物品数量的净增数量,定量分析检测帧相较参考帧的混乱性;
9.参考帧为后厨整洁有序的视频帧,检测帧为待检测的视频帧。
10.为了解决上述技术问题,本发明采用的另一种技术方案为:
11.一种后厨混乱性检测终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
12.本发明的有益效果在于:一种后厨混乱性检测方法及终端,规定在统计物品数量时,将多个紧密有序摆放在一起的同类别物品作为一个整体,数量记为一,这样就将物品摆放的有序性转化为物品数量进行量化了,从而实现对后厨混乱性进行量化分析,能够更加有效地对后厨环境卫生状况进行定量评估。
附图说明
13.图1为本发明实施例的一种后厨混乱性检测方法的流程示意图;
14.图2是本发明实施例涉及的特征图生成部分的网络结构;
15.图3是本发明实施例涉及的感兴趣区域生成部分的网络结构;
16.图4是本发明实施例涉及的感兴趣区域特征截取部分的网络结构;
17.图5是本发明实施例涉及的计算感兴趣区域内检测帧和参考帧上目标的相似性的网络结构;
18.图6是本发明实施例涉及的感兴趣区域矫正网络结构;
19.图7是本发明实施例涉及的目标选择模块;
20.图8为本发明实施例的一种后厨混乱性检测终端的结构示意图。
21.标号说明:
22.1、一种后厨混乱性检测终端;2、处理器;3、存储器。
具体实施方式
23.为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
24.请参照图1至图7,一种后厨混乱性检测方法,
25.获取检测帧和参考帧,提取检测帧和参考帧的物品,将多个摆放在一起的同类别物品合并作为一个物品;
26.比较检测帧和存储的参考帧的物品数量的净增数量,定量分析检测帧相较参考帧的混乱性;
27.参考帧为后厨整洁有序的视频帧,检测帧为待检测的视频帧。
28.由上述描述可知,本发明的有益效果在于:一种后厨混乱性检测方法及终端,规定在统计物品数量时,将多个紧密有序摆放在一起的同类别物品作为一个整体,数量记为一,这样就将物品摆放的有序性转化为物品数量进行量化了,从而实现对后厨混乱性进行量化分析,能够更加有效地对后厨环境卫生状况进行定量评估。
29.进一步地,所述提取检测帧和参考帧的物品,以及比较检测帧和存储的参考帧的物品数量的净增数量具体包括步骤:
30.s1、将参考帧和检测帧输入骨干网络和特征金字塔网络,以提取训练数据里参考帧和检测帧的特征图;
31.s2、将参考帧和检测帧的特征图分别输入区域建议网络以提取感兴趣区域;
32.s3、将参考帧的特征图和参考帧的感兴趣区域输入感兴趣区域对齐模块,截取参考帧的感兴趣区域内的参考帧特征以作为第一参考帧特征;
33.将参考帧的特征图和检测帧的感兴趣区域输入感兴趣区域对齐模块,截取检测帧的感兴趣区域内的参考帧特征以作为第二参考帧特征;
34.将检测帧的特征图和检测帧的感兴趣区域输入感兴趣区域对齐模块,截取检测帧的感兴趣区域内的检测帧特征以作为第一检测帧特征;
35.将检测帧的特征图和参考帧的感兴趣区域输入感兴趣区域对齐模块,截取参考帧的感兴趣区域内的检测帧特征以作为第二检测帧特征;
36.s4、根据所述第一参考帧特征和所述第二检测帧特征,计算参考帧的感兴趣区域内,检测帧上的目标和参考帧上的目标的相似性;根据第二参考帧特征和第一检测帧特征,计算检测帧的感兴趣区域内,参考帧上的目标和检测帧上的目标的相似性;
37.s5、将检测帧的感兴趣区域内,和参考帧上的目标的相似性小于设定阈值的检测帧上的目标作为新增的物品;
38.将参考帧的感兴趣区域内,和检测帧上的目标的相似性小于设定阈值的参考帧上的目标作为移除的物品;
39.计算新增的物品和移除的物品的数量差以作为净增数量。
40.由上述描述可知,通过使用卷积神经网络和相似性学习,基于参考图对后厨物品进行检测,解决了复杂多变场景下形状大小各异的物品难以检测的问题。
41.进一步地,所述步骤s4具体包括:
42.将第二检测帧特征和第一参考帧特征输入孪生网络,通过相似性学习分别生成高维度的参考帧的感兴趣区域内的检测帧上目标的特征向量和参考帧的感兴趣区域内的参考帧上目标的特征向量,计算参考帧的感兴趣区域内的检测帧上目标的特征向量和参考帧的感兴趣区域内的参考帧上目标的特征向量的欧式距离,以作为参考帧的感兴趣区域内检测帧上的目标和参考帧的感兴趣区域内参考帧上的目标的相似性;
43.将第二参考帧特征和第一检测帧特征特征输入孪生网络,通过相似性学习分别生成高维度的检测帧的感兴趣区域内的参考帧上目标的特征向量和检测帧的感兴趣区域内的检测帧上目标的特征向量,计算检测帧的感兴趣区域内的参考帧上目标的特征向量和检测帧的感兴趣区域内的检测帧上目标的特征向量的欧式距离以作为检测帧的感兴趣区域内参考帧上的目标和检测帧的感兴趣区域内检测帧上的目标的相似性。
44.进一步地,对方法整体的网络进行训练时,损失函数包括孪生网络损失函数,所述孪生网络损失函数公式为:
[0045][0046]
式中n为mini-batch内感兴趣区域数量,y表示感兴趣区域内检测帧上目标和参考帧上目标是否相同,若相同则为1,不同则为0,d表示区域内检测帧上目标和参考帧上目标特征向量之间的欧式距离。
[0047]
由上述描述可知,给出了孪生网路参数训练方案。
[0048]
进一步地,还包括在步骤s4和步骤s5之间执行的以下步骤:
[0049]
s41、将检测帧的感兴趣区域内的检测帧上的目标输入到感兴趣区域矫正网络,从而生成更加精确的检测帧上目标;将参考帧的感兴趣区域内的参考帧上的目标输入到感兴趣区域矫正网络,从而生成更加精确的参考帧上目标;
[0050]
所述感兴趣区域矫正网络包括依次连接的一个展平层、两个全连接层和一个输出层,所述全连接层均包含批正则化和relu激活函数,所述输出层的输出神经元个数为4,分别表示目标边框中心横纵坐标偏移量和宽高偏移量的编码值。
[0051]
由上述描述可知,能够通过矫正网络生成更加精确的检测帧和参考帧上目标边框。
[0052]
进一步地,对方法整体的网络进行训练时,损失函数包括区域建议网络损失函数和感兴趣区域矫正网络损失函数,所述区域建议网络损失函数和感兴趣区域矫正网络损失函数公式均为:
[0053][0054]
式中,pi为先验框预测为目标的概率,为先验框ground truth的概率,正例为1,负例为0,n
cls
为mini-batch内的检测框数量,l
cls
为交叉熵分类损失函数,λ为回归损失
函数的权重,ti表示预测框相对于先验框的中心横纵坐标偏移量和宽高偏移量的编码值,l
reg
为回归损失函数,表示正例ground truth边框相对于先验框的偏移量的编码值;
[0055]
所述交叉熵分类损失函数l
cls
公式如下:
[0056][0057]
所述回归损失函数l
reg
公式如下:
[0058][0059]
式中,r为:
[0060][0061]
由上述描述可知,实现了对区域建议网络损失函数和感兴趣区域矫正网络的训练。
[0062]
进一步地,所述步骤s2,还包括:采用非极大值抑制过滤去除感兴趣区域中重叠的区域和置信度低的区域。
[0063]
由上述描述可知,通过极大值抑制过滤掉大部分重叠的区域和置信度低的区域。
[0064]
请参照图8,一种后厨混乱性检测终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
[0065]
本发明用于根据检测帧和参考帧检测后厨的混乱度,为后厨管理提供参考和依据。
[0066]
请参照图1至图7,本发明的实施例一为:
[0067]
一种后厨混乱性检测方法,其获取检测帧和参考帧,提取检测帧和参考帧的物品,将多个紧密有序摆放在一起的同类别物品合并作为一个物品;
[0068]
比较检测帧和存储的参考帧的物品数量的净增数量,定量分析检测帧相较参考帧的混乱性。
[0069]
其中,参考帧为后厨中整洁有序的视频帧,其可以是预先的存储,也可以是随检测帧一同传输以被获取,检测帧为待检测的视频帧,其可以是对监测视频提取以获取,也可以由外部获取后输入,本发明不以此为限。
[0070]
混乱通常表现为特定空间内陈列的物品繁多且杂乱无序,所以对后厨混乱性进行量化需考虑两个因素:厨房内物品数量以及物品摆放的有序性。物品数量可以通过清点物品计算得到,物品摆放的有序性则很难量化,本发明对其量化规则是:将多个紧密有序摆放在一起的同类别物品作为一个整体,数量记为一个,这样便可以将物品摆放的有序性转化为物品数量进行量化了。本发明通过对后厨监控视频抽帧来检测图片上所含物品进而计算物品数量,考虑到后厨场景复杂多变且其内物品种类繁多、形状大小各异,所以检测难度很大,为提高检测精度,我们先从后厨监控视频中筛选一张整洁有序的视频帧,作为混乱性检测的参考帧ir,后续待检测的视频帧称为检测帧id。然后对比参考帧和检测帧,将检测帧上比参考帧上多出的物品标记为新增的目标,新增目标数量记为c
added
;将参考帧上比检测帧上多出的物品标记为移除的目标,移除的目标数量记为c
removed
。那么检测帧的混乱性就可
量化为检测帧上目标比参考帧上目标的净增数量c
netadded
,具体计算公式为:
[0071]cnetadded
=c
added-c
removed
。
[0072]
卷积神经网络(convolutional neural network,cnn)是一种经典的人工神经网络,是深度学习的代表算法之一。卷积神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网络的复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性,并具有强鲁棒性和容错能力,且也易于训练和优化网络结构。因此卷积神经网络被广泛应用于图像分类、目标检测、姿态估算、人脸识别等计算机视觉领域。
[0073]
相似性学习(similarity learning)属于机器学习中的监督学习,它的目标是学习得到一个相似性函数,该函数可以用来衡量两个目标的相似或相关程度。相似性学习主要应用于推荐系统、信息检索排序、人脸验证和目标跟踪等领域。孪生网络(siamese neural network)是相似性学习的常用网络架构,一般由两个结构相同且权重共享的神经网络组成,它们分别接收一个输入并各自生成一个高维度表征的特征向量(feature vector),最后通过计算两个向量之间的欧式距离来衡量这两个输入的相似或相关程度。
[0074]
由此,可以得到以下提取检测帧和参考帧的物品的具体步骤:
[0075]
请参照图2,s1、将参考帧和检测帧输入骨干网络和特征金字塔网络,以提取训练数据里参考帧和检测帧的特征图。
[0076]
使用双线性插值,将检测帧和参考帧的大小调整到宽高均为640像素,然后将它们分别输入resnet-50骨干网络和fpn特征金字塔网络,从而提取到检测帧的多尺度特征图dp2、dp3、dp4、dp5、dp6以及参考帧的多尺度特征图rp2、rp3、rp4、rp5、rp6。其中dp2和rp2的shape为(160,160,256);dp3和rp3的shape为(80,80,256);dp4和rp4的shape为(40,40,256);dp5和rp5的shape为(20,20,256);dp6和rp6的shape为(10,10,256);
[0077]
其中,80、40、20、10为特征图的尺寸,256为特征图的维度。
[0078]
请参照图3,s2、将参考帧和检测帧的特征图分别输入区域建议网络以提取感兴趣区域。
[0079]
具体而言,将检测帧特征图和参考帧特征图分别输入区域建议网络(rpn)以提取检测帧和参考帧上粗略的目标区域。特征图经过区域建议网络后,将生成大量的粗略的目标区域,所以还需经过非极大值抑制(nms)过滤掉大部分重叠的区域和置信度低的区域,最终保留500个感兴趣区域。
[0080]
请参照图4,s3、将参考帧的特征图和参考帧的感兴趣区域输入感兴趣区域对齐模块,截取参考帧的感兴趣区域内的参考帧特征以作为第一参考帧特征;
[0081]
将参考帧的特征图和检测帧的感兴趣区域输入感兴趣区域对齐模块,截取检测帧的感兴趣区域内的参考帧特征以作为第二参考帧特征;
[0082]
将检测帧的特征图和检测帧的感兴趣区域输入感兴趣区域对齐模块,截取检测帧的感兴趣区域内的检测帧特征以作为第一检测帧特征;
[0083]
将检测帧的特征图和参考帧的感兴趣区域输入感兴趣区域对齐模块,截取参考帧的感兴趣区域内的检测帧特征以作为第二检测帧特征。
[0084]
将检测帧特征图和检测帧感兴趣区域输入感兴趣区域对齐(roi align)模块以截取检测帧roi(感兴趣区域)内的检测帧特征;将参考帧特征图和检测帧感兴趣区域输入感兴趣区域对齐模块以截取检测帧roi内的参考帧特征;将检测帧特征图和参考帧感兴趣区
域输入感兴趣区域对齐模块以截取参考帧roi内的检测帧特征;将参考帧特征图和参考帧感兴趣区域输入感兴趣区域对齐模块以截取参考帧roi内的参考帧特征。上述感兴趣区域对齐模块的池化尺度(pool size)为7
×
7,所以以上各感兴趣区域的特征图大小被统一为7
×7×
256。
[0085]
由于感兴趣区域对齐(roi align)模块为现有技术,本处不展开说明。
[0086]
请参照图5,s4、根据所述第一参考帧特征和所述第二检测帧特征,计算参考帧的感兴趣区域内,检测帧上的目标和参考帧上的目标的相似性;根据第二参考帧特征和第一检测帧特征,计算检测帧的感兴趣区域内,参考帧上的目标和检测帧上的目标的相似性。
[0087]
将检测帧roi内的检测帧特征和参考帧特征输入孪生网络(siamese network),从而通过相似性学习(similarity learning)分别生成高维度的检测帧roi内的检测帧上目标的特征向量(feature vector)和该区域参考帧上目标的特征向量,从而通过计算这两个向量的欧式距离来确定检测帧roi内检测帧上的目标和该区域参考帧上的目标的相似性;同理,可计算出参考帧roi内检测帧上的目标和该区域参考帧上的目标的相似性。
[0088]
请参照图6,s41、将检测帧的感兴趣区域内的检测帧上的目标输入到感兴趣区域矫正网络,从而生成更加精确的检测帧上目标;将参考帧的感兴趣区域内的参考帧上的目标输入到感兴趣区域矫正网络,从而生成更加精确的参考帧上目标。
[0089]
将检测帧roi内的检测帧上的目标特征输入到roi矫正网络,从而生成更加精确的检测帧上目标边框(box);同理,将参考帧roi内的参考帧上的目标特征输入到roi矫正网络,从而生成更加精确的参考帧上目标边框(box)。roi矫正网络由一个展平层(flatten)后接两个全连接层(fc)和一个输出层构成,其中的全连接层均包含批正则化(batch normalization)和relu激活函数,输出层的输出神经元个数为4,分别表示目标边框中心横纵坐标偏移量和宽高偏移量的编码值。
[0090]
请参照图7,s5、将检测帧的感兴趣区域内,和参考帧上的目标的相似性小于设定阈值的检测帧上的目标作为新增的目标;
[0091]
将参考帧的感兴趣区域内,和检测帧上的目标的相似性小于设定阈值的参考帧上的目标作为移除的目标;
[0092]
计算新增的物品和移除的物品的数量差以作为净增数量。
[0093]
将检测帧roi内的与该区域参考帧上目标相似性小的检测帧上目标确立为新增的目标,同时忽略掉相似性大的目标,并将矫正后的边框作为该目标的边框;同理,将参考帧roi内的与该区域检测帧上目标相似性小的参考帧上目标确立为移除的目标,同时忽略掉相似性大的目标,并将矫正后的边框作为该目标的边框。
[0094]
上文中的方法所用的网络整体通过以下方法进行训练:
[0095]
a1、获取训练数据,数量数据包括多个训练样本,每个样本包括对应的参考帧和检测帧;
[0096]
本实施例中,首先从100家后厨监控视频中,为每一个后厨场景抽取30张参考帧和30张检测帧,再将参考帧和检测帧两两组合在一起形成一个训练样本,这样我们总计可得到3000个样本。然后对每个样本中的参考帧和检测帧进行标记,具体标记方法为:将检测帧上比参考帧上多出的物品以矩形框的形式标注出来并将其分类为“新增的目标”;将参考帧上比检测帧上多出的物品以矩形框的形式标注出来并将其分类为“移除的目标”;注意在进
行矩形框标注的时候,应该将多个紧密有序摆放在一起的物品当作一个整体进行标注。
[0097]
a2、根据训练数据,采用损失函数对网络整体进行训练,所述损失函数包括区域建议网络(rpn)的损失函数、roi矫正网络损失函数和孪生网络损失函数。
[0098]
其中,区域建议网络的损失函数和roi矫正网络损失函数为:
[0099][0100]
上面等式右侧的第一项为区域建议网络或roi矫正网络的分类损失函数,第二项为区域建议网络或roi矫正网络的边框回归损失函数。式中pi为先验框(anchor)预测为目标的概率,为先验框ground truth的概率,正例先验框概率为1负例为0。n
cls
为mini-batch(执行一次算法迭代步骤所用到的训练样本数据)内的检测框数量,l
cls
为交叉熵分类损失函数:
[0101][0102]
第二项中λ为回归损失函数在整个区域建议网络或roi矫正网络损失函数中的权重,n
reg
为先验框数量,ti={t
x
,ty,tw,th}表示预测框相对于先验框的中心横纵坐标偏移量和宽高偏移量的编码值,相应的表示正例ground truth边框相对于先验框的偏移量的编码值,具体编码如下:
[0103][0104][0105][0106][0107]
其中,x,y,w,h是预测框的中心横纵坐标和宽高,xa,ya,wa,ha为先验框的中心横纵坐标和宽高。同理也是按照上述规则进行编码。l
reg
为回归损失函数,公式为:
[0108][0109]
其中,r为:
[0110][0111]
孪生网络损失函数为对比损失函数(contrastive loss function),其公式为:
[0112][0113]
式中n为mini-batch内感兴趣区域数量,y表示区域内检测帧上目标和参考帧上目标是否相同,若相同则为1,不同则为0。d表示区域内检测帧上目标和参考帧上目标特征向量之间的欧式距离。
[0114]
在进行网络训练时,首先在coco数据集上,对骨干网络和特征金字塔网络进行训
练;然后使用迁移学习(transfer learning),固定骨干网络和特征金字塔网络的参数,使用从步骤a1中获取的数据集,训练rpn网络、roi矫正网络和孪生网络,优化器(optimizer)为adam,学习率(learning rate)为0.001,训练周期(epoch)为50。最后逐渐解除对骨干网络和特征金字塔网络的参数的固定,训练整个网络,此时要将学习率降到0.0001,训练周期为50。
[0115]
请参照图8,本发明的实施例二为:
[0116]
一种后厨混乱性检测终端1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,处理器2执行计算机程序时实现上述实施例一的方法。
[0117]
综上所述,本发明提供的一种后厨混乱性检测方法及终端,规定在统计物品数量时,将多个紧密有序摆放在一起的同类别物品作为一个整体,数量记为一,这样就将物品摆放的有序性转化为物品数量进行量化了,从而实现对后厨混乱性进行量化分析,能够更加有效地对后厨环境卫生状况进行定量评估。
[0118]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。