视频中打架行为的检测方法、装置、存储介质及处理器与流程

文档序号：16000720发布日期：2018-11-20 19:25阅读：253来源：国知局

本发明涉及视频处理领域，具体而言，涉及一种视频中打架行为的检测方法、装置、存储介质及处理器。

背景技术：

近年来，随着监控摄像头数量猛增，对海量视频进行实时高效分析处理的需求日益迫切。在传统的人工分析监管模式中，一个安保人员通常需要时刻关注多个监控视频画面，人员的视觉疲劳、精力分散等极易造成判别能力的降低，带来误检或漏检等诸多问题。为了第一时间发现打架斗殴等异常行为，进行实时预警，视频的智慧分析成为了研究重点。

针对视频的打架斗殴等异常行为检测，现有技术中通过时空兴趣点来描述视频中的人体动作，通过分析时空兴趣点的分布及其质心的平均位移量来检测人体交互的剧烈程度，从而判别是否发生打架行为。该方法将质心作为判断打架行为的唯一依据，信息量有限，误判率较高。此外，现有技术中还通过光流法从输入视频序列中提取光流运动矢量，结合聚类分析进行打架斗殴的检测识别。然而光流法对于外界照明变化较为敏感，准确性难以得到保证。综上，现有技术中的视频中打架行为检测存在检测精度较低、检测效率较差的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种视频中打架行为的检测方法、装置、存储介质及处理器，以至少解决现有技术中的视频中打架行为检测存在的检测精度较低、检测效率较差的技术问题。

根据本发明实施例的一个方面，提供了一种视频中打架行为的检测方法，该方法包括：对待检测视频进行解码，得到多张单帧图片；根据预设深度学习姿态估计模型对上述多张单帧图片进行提取处理，得到上述多张单帧图片中的人体关键节点的位置信息；基于上述位置信息得到多张人体骨架序列图；将上述多张人体骨架序列图输入至预设三维卷积神经网络异常行为检测模型，得到与上述多张人体骨架序列图的数目相匹配的一个或多个初步检测结果；对上述一个或多个初步检测结果进行计算，得到目标检测结果。

进一步地，在根据预设深度学习姿态估计模型对上述多张单帧图片进行提取处理之前，上述方法还包括：创建预设人体姿态估计数据集和第一预设模型；根据上述预设人体姿态估计数据集训练上述第一预设模型，得到上述预设深度学习姿态估计模型，其中，上述预设深度学习姿态估计模型为达到收敛状态的上述第一预设模型。

进一步地，在根据预设三维卷积神经网络异常行为检测模型对上述多张人体骨架序列图进行检测之前，上述方法还包括：创建预设人体异常行为检测数据集和第二预设模型；根据上述预设人体异常行为检测数据集训练上述第二预设模型，得到上述预设三维卷积神经网络异常行为检测模型，其中，上述预设三维卷积神经网络异常行为检测模型为达到收敛状态的上述第二预设模型。

进一步地，上述对上述一个或多个初步检测结果进行计算，得到目标检测结果包括：计算上述多个初步检测结果的平均值或极大值，得到上述目标检测结果。

根据本发明实施例的另一方面，还提供了一种视频中打架行为的检测装置，该装置包括：解码单元，用于对待检测视频进行解码，得到多张单帧图片；处理单元，用于根据预设深度学习姿态估计模型对上述多张单帧图片进行提取处理，得到上述多张单帧图片中的人体关键节点的位置信息；获取单元，用于基于上述位置信息得到多张人体骨架序列图；检测单元，用于将上述多张人体骨架序列图输入至预设三维卷积神经网络异常行为检测模型，得到与上述多张人体骨架序列图的数目相匹配的一个或多个初步检测结果；计算单元，用于对上述一个或多个初步检测结果进行计算，得到目标检测结果。

进一步地，上述装置还包括：第一创建单元，用于创建预设人体姿态估计数据集和第一预设模型；第一训练单元，用于根据上述预设人体姿态估计数据集训练上述第一预设模型，得到上述预设深度学习姿态估计模型，其中，上述预设深度学习姿态估计模型为达到收敛状态的上述第一预设模型。

进一步地，上述装置还包括：第二创建单元，用于创建预设人体异常行为检测数据集和第二预设模型；第二训练单元，用于根据上述预设人体异常行为检测数据集训练上述第二预设模型，得到上述预设三维卷积神经网络异常行为检测模型，其中，上述预设三维卷积神经网络异常行为检测模型为达到收敛状态的上述第二预设模型。

进一步地，上述计算单元包括：计算子单元，用于计算上述多个初步检测结果的平均值或极大值，得到上述目标检测结果。

根据本发明实施例的另一方面，又提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述的视频中打架行为的检测方法。

根据本发明实施例的另一方面，又提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述的视频中打架行为的检测方法。

在本发明实施例中，采用对待检测视频进行解码，得到多张单帧图片的方式；进而根据预设深度学习姿态估计模型对多张单帧图片进行提取处理，得到多张单帧图片中的人体关键节点的位置信息；基于位置信息得到多张人体骨架序列图；通过将多张人体骨架序列图输入至预设三维卷积神经网络异常行为检测模型，得到与多张人体骨架序列图的数目相匹配的一个或多个初步检测结果；达到了对一个或多个初步检测结果进行计算，得到目标检测结果的目的，从而实现了提升现有技术中的视频中打架行为检测的检测精度、提高检测效率的技术效果，进而解决了现有技术中的视频中打架行为检测存在的检测精度较低、检测效率较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频中打架行为的检测方法的流程示意图；

图2是根据本发明实施例的另一种视频中打架行为的检测方法的流程示意图；

图3是根据本发明实施例的又一种视频中打架行为的检测方法的流程示意图；

图4是根据本发明实施例的一种视频中打架行为的检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

根据本发明实施例，提供了一种视频中打架行为的检测方法的实施例。

图1是根据本发明实施例的一种视频中打架行为的检测方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，对待检测视频进行解码，得到多张单帧图片；

步骤S104，根据预设深度学习姿态估计模型对多张单帧图片进行提取处理，得到多张单帧图片中的人体关键节点的位置信息；

步骤S106，基于位置信息得到多张人体骨架序列图；

步骤S108，将多张人体骨架序列图输入至预设三维卷积神经网络异常行为检测模型，得到与多张人体骨架序列图的数目相匹配的一个或多个初步检测结果；

步骤S110，对一个或多个初步检测结果进行计算，得到目标检测结果。

可选地，步骤S102中的待检测视频可以为彩色视频，包含R、G、B三通道，不含深度信息。

可选地，步骤S106中的人体骨架序列图可以分为多段，每段包含M张人体骨架图片，其中，人体骨架序列图包含R、G、B三个通道，背景为黑色，人体不同位置的关键节点和肢体可以用不同颜色进行表示。其中，M为大于1的整数。优选地，本实施例中M为8。

可选地，步骤S108中，预设三维卷积神经网络异常行为检测模型的输入可以是多张图(M张)，从而得到1个初步检测结果。例如：M取8，那么输入8张图得到1个初步检测结果，输入12张图得到2个结果；若待检测视频包含80张图，那么共得到10个初步检测结果。人体骨架序列图的数目和初步检测结果的数目之间存在数值匹配关系。

可选地，图2是根据本发明实施例的另一种视频中打架行为的检测方法的流程示意图，如图2所示，在根据预设深度学习姿态估计模型对多张单帧图片进行提取处理之前，该方法还可以包括：

步骤S202，创建预设人体姿态估计数据集和第一预设模型；

步骤S204，根据预设人体姿态估计数据集训练第一预设模型，得到预设深度学习姿态估计模型，其中，预设深度学习姿态估计模型为达到收敛状态的第一预设模型。

可选地，步骤S202中的预设人体姿态估计数据集中包含多张单帧图片，可以基于深度学习技术构建第一预设模型。

可选地，预设人体姿态估计数据集可以是LSP、FLIC、MPII、MSCOCO、AIChallenge等开源基准数据集。第一预设模型可以采用Convolutional Pose Machines、OpenPose等模型结构。优选地，本实施例采用OpenPose。

可选地，图3是根据本发明实施例的又一种视频中打架行为的检测方法的流程示意图，如图3所示，在根据预设三维卷积神经网络异常行为检测模型对多张人体骨架序列图进行检测之前，方法还包括：

步骤S302，创建预设人体异常行为检测数据集和第二预设模型；

步骤S304，根据预设人体异常行为检测数据集训练第二预设模型，得到预设三维卷积神经网络异常行为检测模型，其中，预设三维卷积神经网络异常行为检测模型为达到收敛状态的第二预设模型。

可选地，步骤S302中的预设人体异常行为检测数据集包含多段视频，每段视频的帧数长度为M，标签为每段视频中出现的行为类别，如打架、摔倒、奔跑等。可以基于深度学习技术构建第二预设模型，该第二预设模型采用三维卷积核，输入部分包含M个分支。

可选地，第二预设模型可以包含8个输入分支、5个三维卷积层、3个三维池化层、1个全连接层，分别是：

输入层：包含8个通道分支，输入图片尺寸为240x320x3；

第一三维卷积层：卷积核尺寸为3x3x3，通道数为32；

第二三维卷积层：卷积核尺寸为3x3x3，通道数为64；

第一三维池化层：池化核尺寸为2x2x2，步长为2；

第三三维卷积层：卷积核尺寸为3x3x3，通道数为128；

第四三维卷积层：卷积核尺寸为3x3x3，通道数为128；

第二三维池化层：池化核尺寸为2x2x2，步长为2；

第五三维卷积层：卷积核尺寸为3x3x3，通道数为256；

第三三维池化层：池化核尺寸为2x2x2，步长为2；

全连接层：神经元个数为1024。

可选地，对一个或多个初步检测结果进行计算，得到目标检测结果包括：计算多个初步检测结果的平均值或极大值，得到目标检测结果。

可选地，视频中打架斗殴等异常行为识别，其主要特征在于多个人体目标之间的动作交互过程。本申请采用深度学习技术构建深度学习姿态估计模型，提取图片中的人体关键节点位置信息，保留了输入图片中最为重要的判别特征，适用于多种场景。此外，本申请基于多张单帧图片中的人体关键节点的位置信息获得多张人体骨架序列图，用人体骨架序列图代替原始图片作为后续网络的输入，避免了背景变化、复杂环境、光线等对于识别精度的影响。再者，基于深度学习构建三维卷积神经网络异常行为检测模型，该模型包含多个输入分支，采用三维卷积核，可同时从输入的多张人体骨架序列图中提取时间信息和空间信息，其中，时间信息对于动作的判别分析具有重要作用。

实施例2

根据本发明实施例的另一方面，还提供了一种视频中打架行为的检测装置，如图4所示，该装置包括：解码单元401，用于对待检测视频进行解码，得到多张单帧图片；处理单元403，用于根据预设深度学习姿态估计模型对多张单帧图片进行提取处理，得到多张单帧图片中的人体关键节点的位置信息；获取单元405，用于基于位置信息得到多张人体骨架序列图；检测单元407，用于将多张人体骨架序列图输入至预设三维卷积神经网络异常行为检测模型，得到与多张人体骨架序列图的数目相匹配的一个或多个初步检测结果；计算单元409，用于对一个或多个初步检测结果进行计算，得到目标检测结果。

可选地，该装置还可以包括：第一创建单元，用于创建预设人体姿态估计数据集和第一预设模型；第一训练单元，用于根据预设人体姿态估计数据集训练第一预设模型，得到预设深度学习姿态估计模型，其中，预设深度学习姿态估计模型为达到收敛状态的第一预设模型。

可选地，该装置还可以包括：第二创建单元，用于创建预设人体异常行为检测数据集和第二预设模型；第二训练单元，用于根据预设人体异常行为检测数据集训练第二预设模型，得到预设三维卷积神经网络异常行为检测模型，其中，预设三维卷积神经网络异常行为检测模型为达到收敛状态的第二预设模型。

可选地，该计算单元可以包括：计算子单元，用于计算多个初步检测结果的平均值或极大值，得到目标检测结果。

可选地，本申请中的存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行本申请实施例1中的视频中打架行为的检测方法。

可选地，本申请中的处理器用于运行程序，其中，程序运行时执行本申请实施例1中的视频中打架行为的检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周文明;王志鹏
技术所有人：深圳市中悦科技有限公司
我是此专利的发明人

上一篇：一种通信设备用固定装置的制作方法
上一篇：一种适用于青少年的核心肌群健身车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。