一种基于视频的人体行为网络模型及识别方法

文档序号:25424203发布日期:2021-06-11 21:37阅读:来源:国知局

技术特征:

1.一种基于视频的人体行为网络模型,其特征在于,包括:3d卷积层、block网络块、全局均值池化层和softmax激活函数层;其中,3d卷积层对输入的连续视频帧进行卷积以及提高维度;block网络模块一共有四个且结构相同,都是由改进的残差块以及se模块构成;改进残差块由bn层-relu激活函数-卷积层(3×3×3)-bn层-relu激活函数-卷积层(3×3×3)-shortcut连接构成;改进的se模块由:全局平均池化层-逐点卷积层(1×1×1)-relu激活函数-逐点卷积层(1×1×1)-sigmoid激活函数层构成;

在单个block网络模块里,连续的视频帧先经过残差块,解决了模型退化以及梯度爆炸的问题,从而提取出有效地特征,然后改进的se模块对残差块输出的通过进行重要度判别,从而提高重要通道的利用率,加强有用特征的提取,压缩无用特征的使用;四个模块依次叠加,加深网络,使提取有效特征的能力最大化,从而提高识别精度;全局平均池化层起到全连接层的作用,还可以有效地减少网络模型参数,同时在结构上做正则化防止过拟合;softmax激活层用于输出行为类别。

2.根据权利要求1所述的网络模型的人体行为识别方法,其特征在于,包括以下步骤:

s1、对网络模型进行训练;

s2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作,之后进入bn层进行归一化操作,最后进入relu激活函数层,进行非线性变换;其中,bn层用于将每层的输出规范为标准正态分布,即将均值归一化为0,将方差归一化为1;

s3、将relu激活函数层的输出输入到第一层block网络模块、第二层block网络模块、第三层block网络模块和第四层block网络模块进行特征提取后输入到全局平均池化层;其中,每一层block网络模块都是按照bn层-relu激活函数-卷积层(3×3×3)-bn层-relu激活函数-卷积层(3×3×3)-全局平均池化层-逐点卷积层(1×1×1)-relu激活函数-逐点卷积层(1×1×1)-sigmoid激活函数层-shortcut连接构成;

s4、所述全局均值池化层对输入数据做正则化防止过拟合后输出到softmax激活函数层,最后输出行为类别。

3.根据权利要求2所述的人体行为识别方法,其特征在于,s1的子步骤如下:

s11、采集人体行为数据并对其标注类别后制作成有效的视频数据集;最后,通过图像预处理的后,将视频数据集按照7:3的比列划分为训练集和测试集;

s12、通过网络模型提取图像的特征并对其进行向前传播得到训练类别,再由损失函数反向传播更新梯度参数;

s13、训练好网络模型后,选取测试集输入到上述完成训练的网络模型中,通过前向传播得到行为类别,从而获得识别准确率;

s14、结束网络模型的训练与测试。

4.根据权利要求2所述的人体行为识别方法,其特征在于:视频数据集制作为:首先,对校园的异常行为进行定义,异常行为包括:打架、脚踢、跑步、吸烟和摔倒;然后将该数据集输入到网络模型中进行预测,然后,通过视频监控的方式进行视频拍摄,从而获取视频数据集。

5.根据权利要求2所述的人体行为识别方法,其特征在于:在训练开始之前,将网络模型随机初始化,并使用sgd作为优化器,其中出示学习设置为0.01,然后每隔10个epochs除以10,mini-batch设置为16,总的epochs设置为100,使用交叉熵损失函数。


技术总结
本发明公开了一种基于视频的人体行为网络模型及识别方法,包括:3D卷积层、四层Block模块、全局平均池化层以及Softmax激活层。首先,所述3D卷积层,将输入的连续视频帧进行3D卷积操作,然后进入Block模块;所述Block模块主要由改进的3D残差块和SE模块构成,首先利用3D残差块对视频帧进行特征提取,然后经过SE模块,让网络自动获取每个特征通道的重要程度,从而增加重要通道的利用率;最后,将通过全局平均池化层的特征输入到Softmax激活层,输出人体行为类别。本发明的优点是:简单、快捷,且识别精度高,提高了提取时空特征的能力,解决了网络模型的参数较多以及准确率较低的问题。

技术研发人员:张鹏超;徐鹏飞
受保护的技术使用者:陕西理工大学
技术研发日:2021.02.26
技术公布日:2021.06.11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1