一种基于YOLO及卷积-循环网络的机房人物重识别方法与流程

文档序号:24788069发布日期:2021-04-23 11:27阅读:132来源:国知局
一种基于YOLO及卷积-循环网络的机房人物重识别方法与流程
一种基于yolo及卷积

循环网络的机房人物重识别方法
技术领域
1.本发明涉及图像捕捉及数据处理技术领域,特别涉及一种基于yolo及卷积

循环网络的 机房人物重识别方法。


背景技术:

2.机房管理是企业稳定运行的重要内容之一。机房内的服务器受到破坏、盗窃、信息 泄露等问题时将对企业造成不可逆转的损失。因此,机房内的安全管理和安全监控愈加 受到重视和关注。其中,视频安全监控能够实现实时监控和集中管理,是企业维稳的重 要方式。由于具备覆盖率高、全方位、无死角的特点,监控技术己经得到长足的发展, 并且广泛使用于各个生产生活领域。但是目前还没有专门用于机房重要人物轨迹监控的 系统,常规的监控技术在后续处理一些目标人物的行动轨迹的时候,存在图像不连续、 视景模糊和不够准确的问题。


技术实现要素:

3.有鉴于此,本发明的目的是提供一种基于yolo及卷积

循环网络的机房人物重识别方法。 能够在各个监控的视频帧中准确捕捉到目标人物的行动轨迹,作为日后责任断定的根本 依据。
4.本发明的目的是通过以下技术方案实现的:。
5.该种基于yolo及卷积

循环网络的机房人物重识别方法,包括如下步骤:
6.步骤s1:使用yolov3目标检测模型实现人物检测过程;
7.步骤s2:将人物样本输入到卷积

循环网络中进行特征提取,获得与后续重识别结果高 度相关的深层次特征;
8.步骤s3:最后输入至全连接层后经三元损失函数得到与目标人物相关的概率,当该概率 大于设定阈值时即判定检测到目标,模型将标记出目标人物并保存当前帧。
9.特别地,所述步骤s1中,yolov3使用残差神经网络darknet53作为特征提取网络,在 保证检测速度的前提下得到了更高的识别正确率,在卷积层后加入了批标准化(batchnormalization,bn)与leaky relu激活函数,使用darknet53中的第2、3、5个残差块的 输出特征进行多尺度检测,避免出现错检或者漏检现象。
10.特别地,卷积

循环网络选用resnet50

vd和lstm。
11.特别地,所述resnet

vd将下采样环节放置到后续的3*3卷积层中,使卷积核在以步长 为2的滑动过程中依旧能获取每个像素点的信息。
12.特别地,所述resnet

vd在残差支路中设计了一个平均池化层,最大限度上保留了原始 输入的信息。
13.特别地,在resnet50

vd中融入可变形卷积网络,通过设置“偏移变量”,令卷积核可 以在当前位置附近随意采样和学习特征。
14.特别地,在步骤s2中,在卷积过程结束后,将所用特征拉伸成向量输入至lstm网络
中, 所述lstm由遗忘门、输入门、细胞状态更新以及输出门构成。
15.特别地,所述遗忘门决定是否应去除某些状态信息,具体做法为以一定的概率舍弃上一 层的隐藏细胞状态,其表达式为:
16.f
t
=σ(w
f
x
t
+u
f
h
t
‑1+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
17.所述输入门决定了将哪些信息输入至细胞状态中,并创建候选值向量为后续的状态 更新过程做准备,其表达式为:
18.i
t
=σ(w
i
x
t
+u
i
h
t
‑1+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019][0020]
此后根据遗忘门、输入门的结果更新细胞状态:
[0021][0022]
最后基于细胞状态得到输出门o
t
及整个单元的输出值h
t

[0023]
o
t
=σ(w
o
x
t
+u
o
h
t
‑1+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0024]
h
t
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0025]
式1

6中:x
t
为t时刻网络的输入;w、u均为权重,b为偏置向量。
[0026]
特别地,使用三元损失作为模型的损失函数,其表达式如下:
[0027][0028]
式中:a、p、n分别代表anchor(随机样本)、positive(与anchor为同类样本)、negative (与anchor非同类样本);||**||2表示计算欧氏距离,以此衡量嵌入空间距离,故为anchor与positive间的距离度量值,则为anchor与negative间的距离度 量值;α为最小间隔值;“+”代表括号内的值在小于0时取值为0,否则不变。
[0029]
特别地,在步骤s1中,将coordconv结构应用于resnet50

vd每个残差块第一个卷积结 构,帮助卷积获取过滤器的位置。
[0030]
本发明的有益效果是:
[0031]
本发明的方法中,yolov3因使用了残差神经网络darknet53作为特征提取网络,在 保证检测速度的前提下得到了更高的识别正确率,由于机房视频中的人物尺度变化较大, 本发明使用darknet53中的第2、3、5个残差块的输出特征进行多尺度检测,避免出现 错检或者漏检现象;另外在resnet50

vd的残差块中使用可变形卷积结构,从而在保证 重识别速度的情况下保证识别精度,本发明的方法利用对基于yolo及卷积

循环网络的创 新性应用的改进,能够提升识别精度,满足本发明的实际检测场景需求。
[0032]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且 在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述 的权利要求书来实现和获得。
附图说明
[0033]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一 步的详细描述,其中:
[0034]
图1为本发明的方法步骤示意图;
[0035]
图2为人物检测模型结构图;
[0036]
图3为resnet50

vd的残差单元原理图;
[0037]
图4为可变形卷积原理图;
[0038]
图5为lstm结构图;
[0039]
图6为coordconv原理图;
[0040]
图7为coordconv实现效果图。
具体实施方式
[0041]
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例 仅为了说明本发明,而不是为了限制本发明的保护范围。
[0042]
如图1所示,本发明的一种基于yolo及卷积

循环网络的机房人物重识别方法,包括如 下步骤:
[0043]
步骤s1:使用yolov3目标检测模型实现人物检测过程;
[0044]
步骤s2:将人物样本输入到卷积

循环网络中进行特征提取,获得与后续重识别结果高 度相关的深层次特征;所述深层次特征即深度网络中自适应学习到的高维度特征,这类特征 与原视频帧高度相关;
[0045]
步骤s3:最后输入至全连接层后经三元损失函数得到与目标人物相关的概率,当该概率 大于设定阈值时即判定检测到目标,模型将标记出目标人物并保存当前帧。
[0046]
其中,步骤s1中,yolo目标检测的基本思想是使用回归方式获取图像的类别和位置, 本实施例中,yolov3使用了残差神经网络darknet53作为特征提取网络,在保证检测速度的 前提下得到了更高的识别正确率,满足本发明的实际检测场景需求。模型的运行流程如图2 所示。图中,dbl的全称为darknetconv2d

bn

leaky,即在卷积层后加入了批标准化(batchnormalization,bn)与leaky relu激活函数。本实施例中,由于机房视频中的人物尺度变 化较大,此处使用darknet53中的第2、3、5个残差块的输出特征进行多尺度检测,避免出 现错检或者漏检现象。具体来说,darknet53共包括5个残差块输出,即图2中的res部分。 原始的yolov3目标检测网络使用了第3、4、5个残差块的输出特征作为后续多尺度检测模块 的输入,但这样做对于机房人物检测并不具备针对性,因为在光照不足、人物尺度变化大的 机房监控视频中,也需要捕捉更加微小的人物特征,所以此处使用第2、3、5个残差块的输 出特征进行多尺度检测,使用这三种由小到大的尺度用于最终的人物识别及定位,对应图2 中y1、y2、y3的输出结果。图中13*13、52*52、104*104表示特征图的尺寸,18表示特征 图中每个像素点均输出3*(1+5)个结果,其中3代表三种尺度的检测框,1代表类别(即人 物),5代表4个位置信息和1个得分信息。
[0047]
在步骤s2中,本实施例的卷积

循环网络选用resnet50

vd和lstm。前者的内部原理以 及与resnet50的不同之处均在图3中进行了表示。传统的resnet网络在每个残差块的下采 样单元中均会设计一个步长为2的1*1卷积,已达到缩减特征图尺寸、减少计算量的目
的。 但这样的方式往往使得特征图中大量信息没有得到有效利用,从而造成信息流失。resnet

vd 则巧妙地弥补了这一问题。一方面,它将下采样环节放置到后续的3*3卷积层中,使卷积核 在以步长为2的滑动过程中依旧能获取每个像素点的信息;另一方面,它在残差支路 (shortcut)中设计了一个平均池化层(即图中avgpool),同样最大限度上保留了原始输 入的信息。
[0048]
作为进一步的改进,在resnet50

vd中融入可变形卷积网络(deformable convolutional networks)思想。其核心思想在于设计“偏移变量”,令卷积核可以在当前位置附近随意采 样和学习特征,而不仅仅限于之前规则的感受野。其原理图可由图4表示。图中展示了卷积 核大小为3x3的正常卷积和可变形卷积的采样方式,(a)所示的正常卷积规律的采样点, (b)(c)(d)为可变形卷积,在正常的采样坐标上加上一个位移量(箭头所示),其中(c)(d)作 为(b)的特殊情况,展示了可变形卷积可以作为尺度变换,比例变换和旋转变换的特殊情况。 事实上,可变形卷积单元中增加的偏移量是网络结构的一部分,通过另外一个平行的标准卷 积单元计算得到,进而也可以通过梯度反向传播进行端到端的学习。加上该偏移量的学习之 后,可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整,其直观效 果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化,从而适应不同物体 的形状、大小等几何形变。可变形卷积结构仅在resnet50

vd的最后两个残差块中使用,从 而在保证重识别速度的情况下保证识别精度。
[0049]
作为进一步的改进,在步骤s2中,在卷积过程结束后,将所用特征拉伸成向量输入至 lstm网络中,作为rnn的改进版本,能较好处理普通循环神经网络(rnn)梯度消失的短板。 其结构如图5所示。图中,c表示细胞状态;σ表示sigmoid激活函数。lstm主要由遗忘门 (图5中序号2部分)、输入门(序号3部分)、细胞状态更新(序号1及序号4部分)以 及输出门(序号5)构成。
[0050]
其中,所述遗忘门决定是否应去除某些状态信息,具体做法为以一定的概率舍弃上一层 的隐藏细胞状态,其表达式为:
[0051]
f
t
=σ(w
f
x
t
+u
f
h
t
‑1+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0052]
所述输入门决定了将哪些信息输入至细胞状态中,并创建候选值向量为后续的状态 更新过程做准备,其表达式为:
[0053]
i
t
=σ(w
i
x
t
+u
i
h
t
‑1+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0054][0055]
此后根据遗忘门、输入门的结果更新细胞状态:
[0056][0057]
最后基于细胞状态得到输出门o
t
及整个单元的输出值h
t

[0058]
o
t
=σ(w
o
x
t
+u
o
h
t
‑1+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0059]
h
t
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0060]
式1

6中:x
t
为t时刻网络的输入;w、u均为权重,b为偏置向量。
[0061]
本实施例中,使用三元损失作为模型的损失函数,其表达式如下:
[0062][0063]
式中:a、p、n分别代表anchor(随机样本)、positive(与anchor为同类样本)、negative (与anchor非同类样本);||**||2表示计算欧氏距离,以此衡量嵌入空间距离,故为anchor与positive间的距离度量值,则为anchor与negative间的距离度 量值;α为最小间隔值;“+”代表括号内的值在小于0时取值为0,否则不变。
[0064]
卷积神经网络无法将空间表示转换成笛卡尔空间中的坐标和one

hot像素空间中的坐 标,这在一定程度上影响了它的特征提取能力。卷积是等变的,也就是说当每个过滤器应用 到输入特征上时,并不知道每个过滤器在哪里。coordconv结构可以帮助卷积获取过滤器的 位置。这一过程需要在输入上添加两个通道实现,一个表示x坐标,另一个表示y坐标。其 实现原理如图6所示。图中,x和y分别表示以1为步长,取区间[1,w]和区间[1,h]的像素 点位置。
[0065]
作为进一步的改进,在步骤s1中,将coordconv结构应用于resnet50

vd每个残差块第 一个卷积结构,帮助卷积获取过滤器的位置。其实现效果如图7所示。
[0066]
本发明的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表 示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、 片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出 或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能, 这应被本发明的实施例所属技术领域的技术人员所理解。
[0067]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用 于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以 供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指 令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装 置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通 信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或 设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一 个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器 (ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置, 以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所 述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着 进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将 其存储在计算机存储器中。
[0068]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述 实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软 件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公 知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻 辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列 (pga),
现场可编程门阵列(fpga)等。
[0069]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤 是可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。
[0070]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是 各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模 块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块 如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计 算机可读取存储介质中。
[0071]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳 实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技 术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发 明的权利要求范围当中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1