一种视频行为识别方法及系统与流程

文档序号：23419982发布日期：2020-12-25 11:42阅读：132来源：国知局

本发明涉及行为识别技术领域，具体涉及一种视频行为识别方法及系统。

背景技术：

近年来，行为识别算法发展迅速，基于深度学习的群体行为识别也取得了良好的效果。目前基于深度学习方法的技术，在群体行为识别中获得了良好的识别性能。但目前所有研究都使用群体视频作为整体开展研究，而忽略了与群体行为同样重要的个体行为识别。由于群体行为并不是个体行为的简单叠加，是单个个体行为的时序信息及其个体间的相互作用关系进行综合定义得到具体的群体行为，因此仅考虑群体行为提取群体特征，不考虑单人行为，这样不利于生成单人特征，提取群体行为特征不能充分考虑个体之间的时序信息和上下文信息，不能满足单人行为的结构要求。目前现有的算法在上述问题方面存在严重缺陷，没有充分考虑单人的时序信息和上下文信息，从而影响了识别精度的提升。

技术实现要素：

因此，本发明要解决的技术问题在于克服现有技术中视频行为识别方法没有充分考虑单人的时序信息和上下文信息，从而影响了识别精度的缺陷，从而提供一种视频行为识别方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供视频行为识别方法，包括如下步骤：

对待识别视频的进行多级特征提取；

利用深度全卷积网络对目标对象的roi进行初检测；

利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合；

基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别；对于单人行为识别，将目标对象的roi时间序列进行时序推理，通过接入两个全连接层和softmax层得到单人行为的预测结果；对于群体行为识别，使用roi匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果。

在一实施例中，对待识别视频的进行多级特征提取的过程，包括：

利用多级全卷积网络将待识别视频的多个中间特征图进行串联连接，生成稠密特征；

通过双线性插值运算将稠密特征调整为固定维度大小其中，h为像素高度，w为像素宽度。

在一实施例中，利用深度全卷积网络对目标对象的roi进行初检测的过程，包括：

利用深度全卷积网络对待识别视频进行目标对象目标检测，将目标对象区域作为roi，生成一组具有相应置信分数的roi坐标；

在给定多级特征提取阶段输出稠密特征f的前提下，为单人目标区域生成稠密特征图b和稠密特征图p，稠密特征图b表示场景中人物相对于在图像中的位置进行编码的roi坐标，稠密特征图p表示图像中的包含roi为目标对象的概率。

在一实施例中，获取待识别视频的初始特征a的过程，包括：对待识别视频进行多级特征提取后，利用深度全卷积网络对roi进行初检测；利用马尔科夫随机场进行roi的微调，获得最终roi集合作为初始特征a。

在一实施例中，利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合的过程，包括：

将稠密特征图b转换为全局图像坐标得到密集边界框特征图b＊，在密集边界框特征图b＊上定义马尔科夫随机场，对于每个假设坐标引入两个隐藏变量，分别为两个高斯多项式和

将目标对象检测结果的真实坐标编码为xi、ai，将检测结果分配到中对应的假设坐标，并定义的联合分布为公式(1)：

其中，σ为固定的标准偏差参数；

目标对象roi的边界框坐标预测由公式(1)建模生成，特征图f上的每个位置坐标都属于一个真实检测坐标j；

利用计算边缘分布分解分布进行进行平均场近似，找到ai和xi的最优分配来提取的真实坐标，计算边缘分布根据公式(2)计算：

其中分别是高斯分布和类别分布的变分参数，cat表示连接；

基于公式(2)和公式(3)之间的kl散度，最小化分解分布和联合分布，使得计算边缘分布q(·)的参数进行式(3)定点更新：

其中，是迭代次数，将重新参数化得到从初始值μ⁰开始，直至公式(3)达到收敛；为了求出高斯分布的变分参数对于迭代次数使用了式(4)进行平滑更新：

其中，λ是一个阻尼参数；

利用预设迭代方案，迭代直到所有坐标都被分配，将分配坐标的数量用作为置信分数，将置信分数大于预设阈值的roi坐标保留，得出n组可靠的检测坐标，作为最终的roi集合。

在一实施例中，对于单人行为识别，将目标对象的roi时间序列进行时序推理，通过接入两个全连接层和softmax层得到单人行为的预测结果的过程，包括：

设置一个主要区域r，其中包含待识别的目标对象的roi区域，同时设置两个次要区域s作为上下文线索用于推理主要区域r的行为；

基于视频中每张图像的roi集合，经过两个全连接层和最大池化后，根据公式(1)计算其分数，最后经过softmax层预测单人动作标签；

针对时间t视频图像i中目标对象进行行为识别，t包含目标对象的roi为主要区域r，将t-1，t-2中包含目标对象的roi作为次要区域s，用于推理t帧目标对象的行为，it是当前时间t图像，r是it中包含目标对象的主要区域，将该目标对象的动作α的分数定义为公式(5)：

其中，φ(r；it)是从it中主要区域r提取的特征向量，φ(s1；it-1)和φ(s2；it-2)是从it-1，it-2中次要区域s提取的特征向量，s1，s2代表it-1，it-2帧目标对象的roi，和分别代表当前时间t和t-1，t-2中目标对象的roi区域属于动作α的权重，max表示取最大值，式中的特征向量φ(·)、权重和是使用随机梯度下降训练得出；

通过最大值池化对时间t-1，t-2的s区域选出最大的一个score和主要区域的score相加，得到最终的score，在softmax层将最终的score转换为后验概率，预测单人动作标签，得到单人预测结果。

在一实施例中，对于群体行为识别，使用roi匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果的过程，包括：

对于视频中的图像t，基于生成n组roi集合用双线性插值方法平滑地从稠密特征图f^t中提取固定大小的特征表示

将特征表示通过全连接层，产生更紧凑的作为基于roi匹配递归神经网络的输入，其中de是隐藏状态中的特征数量；

在视频时间序列t和t-1处计算单人roi坐标位置之间的欧式距离，根据如公式(6)的欧式距离更新隐藏状态，当给定坐标位置时，使用roi的坐标b^t，b^t-1作为区域匹配roi匹配递归卷积网络表示，通过最接近的匹配更新通过公式(7)表示：

在隐藏表示h^t上进行最大值池化，使用softmax分类器得到群体行为识别的预测结果。

第二方面，本发明实施例提供一种视频行为识别系统，包括：

特征提取模块，用于对待识别视频的进行多级特征提取；

roi初检测模块，用于利用深度全卷积网络对目标对象的roi进行初检测；

roi微调模块，用于利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合；

行为识别模块，用于基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别；对于单人行为识别，将目标对象的roi时间序列进行时序推理，通过接入两个全连接层和softmax层得到单人行为的预测结果；对于群体行为识别，使用roi匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面的视频行为识别方法。

第四方面，本发明实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例第一方面的视频行为识别方法。

本发明技术方案，具有如下优点：

本发明提供的一种视频行为识别方法及系统，对待识别视频的进行多级特征提取；利用深度全卷积网络对目标对象的roi进行初检测；利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合；基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别。本发明不仅考虑到了群体内部时序信息的一致性，同时也考虑到了个体时序信息的差异性，基于roi时序推理的单人行为识别有助于更好地提取具有判别性的单人行为特征，提升识别精度；基于roi匹配递归卷积网络可以融合和传播时域中的单人的roi的信息，是解决视频行为识别问题的有效方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中视频行为识别方法的流程框架图；

图2为本发明实施例中视频行为识别方法的一个具体示例的工作流程图；

图3为本发明实施例中多级全卷积网络提取多级特征的示意图；

图4为本发明实施例中roi的检测与微调的示意图；

图5为本发明实施例中基于roi时序推理的单人行为识别的示意图；

图6为本发明实施例中基于roi匹配的群体行为识别的示意图；

图7为本发明实施例中视频行为识别系统的一个具体示例的模块组成图；

图8为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种视频行为识别方法，可以应用于多种视频行为识别等场景，一个典型的应用场景是体育视频理解，体育战术自动分析等，体育视频是一类重要的媒体数据，它拥有广大的观众群体和巨大的应用前景而受到学术和工业界的广泛关注。随着移动设备和互联网的普及，人们对体育视频也从直接观看和简单浏览转向多元化的需求，如精彩片断摘要、特定事件检测、节目定制服务、视频内容编辑等，这些都依赖对体育视频的理解与行为识别。在棒球、足球、网球、排球等这些体育比赛中，行为识别既包括单人执行一系列动作以完成某项任务，即个人行为识别，也包括许多人分散在一个大的空间里，共同努力完成一个共同的任务，即群体行为识别。由于群体行为并不是个体行为的简单叠加，是单个个体行为的时序信息及其个体间的相互作用关系进行综合定义得到具体的群体行为，因此仅考虑群体行为提取群体特征，不考虑单人行为，这样不利于生成单人特征，提取群体行为特征不能充分考虑个体之间的时序信息和上下文信息，不能满足单人行为的结构要求。基于此，本发明实施例提出了一种基于感应趣区域(regionofinterest，简称roi)的视频行为识别方法，识别流程框架如图1所示，不仅考虑到了群体内部时序信息的一致性，同时也考虑到了个体时序信息的差异性，同时提升了单人和群体行为识别准确率。如图2所示，该方法具体包括如下步骤：

步骤s10：对待识别视频的进行多级特征提取。

本发明实施例中需要同时处理两个识别任务，即群体行为识别和个人行为识别，所面临的挑战之一是，对一项识别任务有用的特征，对于另一项任务可能效率很低。在群体行为识别任务中，由于单人行为检测需要推理目标运动员的行为类型，而区分群体行为需要更深层的细节特征，因此需要提取多级特征，多级特征是指多任务间共享的特征。这两项识别任务需要对视频图像中每个个体的检测和分割进行精确的定位，为了解决这个问题，本发明实施例利用多级全卷积网络(mutifullyconvolutionalnetworks，简称mfcn)进行多级特征提取，如图3所示，利用多级全卷积网络将待识别视频的多个中间特征图进行串联连接，生成稠密特征；通过双线性插值运算将稠密特征调整为固定维度大小其中，h为像素高度，w为像素宽度。

步骤s20：利用深度全卷积网络对目标对象的roi进行初检测。

本发明实施例以排球视频行为识别作为举例，需要对输入排球视频将运动员作为目标对象进行目标检测，将运动员区域作为感兴趣区域，即roi。需要检测这些运动员在图像中的具体位置即生成一组具有相应置信分数的roi坐标。

从到b，p的映射是一个深度全卷积网络(dfcn)，在图4中对应为dfcn的过程，由两个包含512个滤波器的3×3卷积层以及一个shortcut连接堆叠组成。在densenet中提出shortcut可以直接将浅层的信息传递到深层，解决了深度模型中的梯度发散问题，通过将网络分为block和限制每层的输出通道数来减少参数和降低计算复杂度。

在给定多级特征提取阶段输出为(此处为方便区分，后面省略t)的情况下，为单人目标区域生成两个稠密特征图和表示场景中人物相对于在图像中的位置进行编码的roi坐标，即感兴趣区域坐标；表示对图像中的包含运动员的部分进行编码生成分割mask，即roi是否为运动员的概率。

步骤s30：利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合。

本发明实施例进行roi区域的微调的目标是去掉检测重复的边界框，确定最终准确的roi。去掉重复的roi的经典方法是使用非极大值抑制(nms)生成置信分数。这种方法有两个缺点，首先，如果roi数目很大，重新计分阶段可能会非常昂贵；其次，nms方法本身不是最优的，容易受到贪婪的决策的影响。为了避免使用nms带来的缺点，本方实施例如图4所示，构建了基于马尔科夫随机场(mrf)的排球视频的roi微调。

利用马尔科夫随机场进行roi的微调的过程具体为：

将目标对象检测结果的真实坐标编码为xi、ai，将检测结果分配到中对应的假设坐标，并定义的联合分布为公式(1)：

其中，σ为固定的标准偏差参数；

目标对象roi的边界框坐标预测由公式(1)建模生成，特征图f上的每个位置坐标都属于一个真实检测坐标j；j可以等于i。在这个真实坐标，观测值xi应该与观测值xj距离不远；

利用计算边缘分布分解分布进行进行平均场近似，找到ai和xi的最优分配来提取的真实坐标，计算边缘分布根据公式(2)计算：

其中分别是高斯分布和类别分布的变分参数，cat表示连接；

基于公式(2)和公式(3)之间的kl散度，最小化分解分布和联合分布，使得计算边缘分布q(·)的参数进行式(3)定点更新：

其中，是迭代次数，将重新参数化得到从初始值μ⁰开始，直至公式(3)达到收敛；在实际实验中，从初始化后的μ⁰开始估计b＊，只考虑分割概率pi＞ρ，其中ρ是一个固定的阈值；

为了求出高斯分布的变分参数对于迭代次数使用了式(4)进行平滑更新：

其中，λ是一个阻尼参数；

本发明实施例使用类似于霍夫森林中所使用的简单迭代方案来识别它们，先找出分配最多坐标的假设，其次考虑删除哪些位置，然后迭代直到所有坐标都被分配，将分配坐标的数量用作为置信分数，将置信分数大于预设阈值的roi坐标保留，作为最终的roi集合，得出n组可靠的检测结果，边界框被编码为n取决于远动员的数量，一般会小于运动员数量。

步骤s40：

对于单人行为识别，将目标对象的roi时间序列进行时序推理，图5为其示意图，设置一个主要区域r，其中包含待识别的目标对象的roi区域，同时设置两个次要区域s作为上下文线索用于推理主要区域r的行为；

基于视频中每张图像的roi集合，经过两个全连接层和最大池化后，根据公式(1)计算其分数，最后经过softmax层预测单人动作标签；

通过最大值池化对时间t-1，t-2的s区域选出最大的一个score和主要区域的score相加，得到最终的score，在softmax层将最终的score转换为后验概率，预测单人动作标签，得到单人预测结果

关于群体行为识别，时序信息是一个非常重要的特征，提出了基于roi匹配递归神经网络(roi-matchrnn)，roi-matchrnn可以融合和传播时域中的单人roi的信息用于群体行为识别，其网络结构如图6所示。具体识别过程包括：

对于视频中的图像t，基于生成n组roi集合用双线性插值方法平滑地从稠密特征图f^t中提取固定大小的特征表示

将特征表示通过全连接层，产生更紧凑的作为基于roi匹配递归神经网络的输入，其中de是隐藏状态中的特征数量；

本发明实施例对时间序列中的每个roi使用门控循环单元(gatedrecurrentunit，简称gru)，在训练和测试中，无法访问轨迹分配，这意味着隐藏状态和不一定与同一个人相关，为了解决该问题，在视频时间序列t和t-1处计算单人roi坐标位置之间的欧式距离，根据如公式(6)的欧式距离更新隐藏状态，当给定坐标位置时，使用roi的坐标b^t，b^t-1作为区域匹配roi匹配递归卷积网络表示，通过最接近的匹配更新通过公式(7)表示：

用e^t来代替边界框坐标b^t，使得模型对丢失或错分配的检测具有更强的鲁棒性，这样就不需要寻找一个最近的邻居来进行隐藏状态更新。为了获得群体行为的最终预测结果在隐藏表示h^t上先进行了最大值池化(maxpool)，然后使用softmax分类器得到群体行为识别的预测标签

本发明实施例提供的视频行为识别方法，

不仅考虑到了群体内部时序信息的一致性，同时也考虑到了个体时序信息的差异性。基于roi时序推理的单人行为识别有助于更好地提取具有判别性的单人行为特征，提升识别精度，基于roi匹配递归卷积网络可以融合和传播时域中的单人的roi的信息，是解决排球视频行为识别问题的有效方法。

实施例2

本发明实施例提供一种视频行为识别系统，如图7所示，包括：

特征提取模块10，用于对待识别视频的进行多级特征提取。此模块执行实施例1中的步骤s10所描述的方法，在此不再赘述。

roi初检测模块20，用于利用深度全卷积网络对目标对象的roi进行初检测。此模块执行实施例1中的步骤s20所描述的方法，在此不再赘述。

roi微调模块30，用于利用马尔科夫随机场进行roi的微调，获得最终目标对象的roi集合。此模块执行实施例1中的步骤30所描述的方法，在此不再赘述。

行为识别模块40，用于基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别；对于单人行为识别，将目标对象的roi时间序列进行时序推理，通过接入两个全连接层和softmax层得到单人行为的预测结果；对于群体行为识别，使用roi匹配递归卷积网络进行群体行为的时序建模，生成群体行为的预测结果；此模块执行实施例1中的步骤40所描述的方法，在此不再赘述。

本发明实施例提供的视频行为识别系统，不仅考虑到了群体内部时序信息的一致性，同时也考虑到了个体时序信息的差异性。基于roi时序推理的单人行为识别有助于更好地提取具有判别性的单人行为特征，提升识别精度，基于roi匹配递归卷积网络可以融合和传播时域中的单人的roi的信息，是解决排球视频行为识别问题的有效方法。

实施例3

本发明实施例提供一种计算机设备，如图8所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图8以通过总线连接为例。

处理器51可以为中央处理器(centralprocessingunit，cpu)。处理器51还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例1中的视频行为识别方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的视频行为识别方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)、随机存储记忆体(randomaccessmemory，ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive，缩写：hdd)或固态硬盘(solid-statedrive，ssd)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李岩山;刘燕;谢维信
技术所有人：深圳大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。