一种基于视频的人体行为网络模型及识别方法

文档序号：25424203发布日期：2021-06-11 21:37阅读：来源：国知局

技术特征：

1.一种基于视频的人体行为网络模型，其特征在于，包括：3d卷积层、block网络块、全局均值池化层和softmax激活函数层；其中，3d卷积层对输入的连续视频帧进行卷积以及提高维度；block网络模块一共有四个且结构相同，都是由改进的残差块以及se模块构成；改进残差块由bn层-relu激活函数-卷积层(3×3×3)-bn层-relu激活函数-卷积层(3×3×3)-shortcut连接构成；改进的se模块由：全局平均池化层-逐点卷积层(1×1×1)-relu激活函数-逐点卷积层(1×1×1)-sigmoid激活函数层构成；

在单个block网络模块里，连续的视频帧先经过残差块，解决了模型退化以及梯度爆炸的问题，从而提取出有效地特征，然后改进的se模块对残差块输出的通过进行重要度判别，从而提高重要通道的利用率，加强有用特征的提取，压缩无用特征的使用；四个模块依次叠加，加深网络，使提取有效特征的能力最大化，从而提高识别精度；全局平均池化层起到全连接层的作用，还可以有效地减少网络模型参数，同时在结构上做正则化防止过拟合；softmax激活层用于输出行为类别。

2.根据权利要求1所述的网络模型的人体行为识别方法，其特征在于，包括以下步骤：

s1、对网络模型进行训练；

s2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作，之后进入bn层进行归一化操作，最后进入relu激活函数层，进行非线性变换；其中，bn层用于将每层的输出规范为标准正态分布，即将均值归一化为0，将方差归一化为1；

s3、将relu激活函数层的输出输入到第一层block网络模块、第二层block网络模块、第三层block网络模块和第四层block网络模块进行特征提取后输入到全局平均池化层；其中，每一层block网络模块都是按照bn层-relu激活函数-卷积层(3×3×3)-bn层-relu激活函数-卷积层(3×3×3)-全局平均池化层-逐点卷积层(1×1×1)-relu激活函数-逐点卷积层(1×1×1)-sigmoid激活函数层-shortcut连接构成；

s4、所述全局均值池化层对输入数据做正则化防止过拟合后输出到softmax激活函数层，最后输出行为类别。

3.根据权利要求2所述的人体行为识别方法，其特征在于，s1的子步骤如下：

s11、采集人体行为数据并对其标注类别后制作成有效的视频数据集；最后，通过图像预处理的后，将视频数据集按照7:3的比列划分为训练集和测试集；

s12、通过网络模型提取图像的特征并对其进行向前传播得到训练类别，再由损失函数反向传播更新梯度参数；

s13、训练好网络模型后，选取测试集输入到上述完成训练的网络模型中，通过前向传播得到行为类别，从而获得识别准确率；

s14、结束网络模型的训练与测试。

4.根据权利要求2所述的人体行为识别方法，其特征在于：视频数据集制作为：首先，对校园的异常行为进行定义，异常行为包括：打架、脚踢、跑步、吸烟和摔倒；然后将该数据集输入到网络模型中进行预测，然后，通过视频监控的方式进行视频拍摄，从而获取视频数据集。

5.根据权利要求2所述的人体行为识别方法，其特征在于：在训练开始之前，将网络模型随机初始化，并使用sgd作为优化器，其中出示学习设置为0.01，然后每隔10个epochs除以10，mini-batch设置为16，总的epochs设置为100，使用交叉熵损失函数。

技术总结
本发明公开了一种基于视频的人体行为网络模型及识别方法，包括：3D卷积层、四层Block模块、全局平均池化层以及Softmax激活层。首先，所述3D卷积层，将输入的连续视频帧进行3D卷积操作，然后进入Block模块；所述Block模块主要由改进的3D残差块和SE模块构成，首先利用3D残差块对视频帧进行特征提取，然后经过SE模块，让网络自动获取每个特征通道的重要程度，从而增加重要通道的利用率；最后，将通过全局平均池化层的特征输入到Softmax激活层，输出人体行为类别。本发明的优点是：简单、快捷，且识别精度高，提高了提取时空特征的能力，解决了网络模型的参数较多以及准确率较低的问题。

技术研发人员：张鹏超;徐鹏飞
受保护的技术使用者：陕西理工大学
技术研发日：2021.02.26
技术公布日：2021.06.11

完整全部详细技术资料下载

当前第2页1 2