一种基于时空关系的行为识别方法及电子设备

文档序号：32481294发布日期：2022-12-09 22:49阅读：57来源：国知局

1.本技术属于数据处理技术领域，尤其涉及一种基于时空关系的行为识别方法及电子设备。

背景技术：

2.随着人工智能技术的不断发展，计算机能够协助用户执行多种类型的识别操作，以提高用户的处理效率。例如，在用户对视频数据进行解析时，可以通过人工智能算法确定该视频数据中目标人物的行为类型，从而能够方便用户对目标人物进行分析，例如在对目标人物进行行为追踪，抑或在重点区域对危险动作进行监控时，人工智能的行为识别会大大降低用户的工作量，从而提高了分析效率。
3.现有的行为识别技术，往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息，从而确定该目标对象的行为类型，但是逐帧提取光流从而确定整个视频数据的光流信息则需要建立结构较大的提取网络，设备要求运算能力较高且需要存储较大的神经网络，从而大大提高了运算设备的计算成本，以及降低了运算效率。

技术实现要素：

4.本技术实施例提供了一种基于时空关系的行为识别方法、装置、电子设备及存储介质，可以解决现有的行为识别技术，往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息，从而确定该目标对象的行为类型，但是逐帧提取光流从而确定整个视频数据的光流信息则需要建立结构较大的提取网络，设备要求运算能力较高且需要存储较大的神经网络，从而大大提高了运算设备的计算成本，以及降低了运算效率。
5.第一方面，本技术实施例提供了一种基于时空关系的行为识别方法，包括：
6.接收待识别的目标视频数据；
7.将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；
8.将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的；
9.将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；
10.根据所述步态行为数据以及所述稀疏特征数据，得到所述目标对象的行为类别。
11.在第一方面的一种可能的实现方式中，在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：
12.为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得
到待校正网络；
13.将预设的多个训练特征数据输入至所述待校正网络生成第一训练结果，以及将多个所述训练特征数据输入至所述池化融合网络生成第二训练结果；
14.根据所述第一训练结果以及所述第二训练结果，确定所述待校正网络的损失值；
15.若所述损失值小于或等于所述损失阈值，则将配置所述选择权重的所述待识别卷积识别为冗余卷积核；
16.若所述损失值大于预设的损失阈值，则将配置所述选择权重的所述待识别卷积核识别为必要卷积核；
17.返回执行所述为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络的操作，直到所述池化融合网络内的所有所述待识别卷积核已分类完毕；
18.基于所有所述必要卷积核生成所述特征提取网络。
19.在第一方面的一种可能的实现方式中，所述特征训练数据关联有基准动作标签；基于所述特征训练数据生成的所述特征提取网络关联有所述基准动作标签；
20.在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：
21.基于所述帧间动作数据确定多个候选动作标签；
22.根据多个所述候选动作标签以及各个候选提取网络对应的基准动作标签，分别计算各个候选提取网络之间的匹配度；
23.选取所述匹配度最高的所述候选提取网络作为所述特征提取网络。
24.在第一方面的一种可能的实现方式中，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：
25.确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；
26.根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；
27.在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；
28.根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；
29.根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；
30.将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；
31.基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。
32.在第一方面的一种可能的实现方式中，在所述接收待识别的目标视频数据之前，还包括：
33.获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述特征提取网络以及所述上下文注意力网络；
34.根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；
35.通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息；
36.根据所述第一空间信息以及所述第二空间信息得到空间增强信息；
37.根据所述第二光流信息以及所述第一光流信息得到光流增强信息；
38.将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；
39.基于所有所述样本视频数据的所述训练结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。
40.在第一方面的一种可能的实现方式中，所述根据所述样本视频数据生成正样本数据以及负样本数据，包括：
41.根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长；
42.根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号；
43.基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。
44.在第一方面的一种可能的实现方式中，所述将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据，还包括：
45.确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象；
46.基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点；
47.基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征；
48.将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。
49.第二方面，本技术实施例提供了一种基于时空关系的行为识别装置，包括：
50.目标视频数据接收单元，用于接收待识别的目标视频数据；
51.帧间动作特征数据提取单元，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；
52.稀疏特征数据单元，用于将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的；
53.步态行为数据识别单元，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；
54.行为识别单元，用于根据所述步态行为数据以及所述稀疏特征数据，得到所述目
标对象的行为类别。
55.第三方面，本技术实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
56.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。
57.第五方面，本技术实施例提供了一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述第一方面中任一项所述的方法。
58.本技术实施例与现有技术相比存在的有益效果是：在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到特征提取网络进行特征提取，以得到对应的稀疏特征数据，由于该特征提取网络是通过选择权重对池化融合网络内的卷积核进行稀疏性约束处理后得到的，从而整个特征提取网络会减少不必要的卷积核，从而建减少了网络体量，不仅减少了运算量也能够减少网络的资源占用率，与此同时，为了考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本技术实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提起网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，减少运算量，并且对池化融合网络进行稀疏性约束处理，减少了网络体量，继而减少了资源占用也进一步提高了识别的效率。
附图说明
59.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
60.图1是本技术一实施例提供的一种基于时空关系的行为识别方法的实现示意图；
61.图2是本技术一实施例提供的帧间动作提取网络的结构示意图；
62.图3是本技术一实施例提供的池化融合网络的结构示意图；
63.图4是本技术一实施例提供的上下文注意力网络的结构示意图；
64.图5是本技术二实施例提供的一种基于时空关系的行为识别方法的s102一种实现方式示意图；
65.图6是本技术三实施例提供的一种基于时空关系的行为识别方法的s102一种实现方式示意图；
66.图7是本技术一实施例提供的一种基于时空关系的行为识别方法的s102一种实现方式示意图；
67.图8是本技术又一实施例提供的一种基于时空关系的行为识别方法的一种实现方
式示意图；
68.图9是本技术一实施例提供的一种基于时空关系的行为识别方法s104的一种实现方式示意图；
69.图10是本技术实施例提供的基于时空关系的行为识别装置的结构示意图；
70.图11是本技术实施例提供的电子设备的结构示意图。
具体实施方式
71.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
72.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
73.另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
74.本技术实施例提供的基于时空关系的行为识别方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本等能够实现对视频数据进行行为识别的电子设备上。本技术实施例对电子设备的具体类型不作任何限制。
75.请参阅图1，图1示出了本技术实施例提供的一种基于时空关系的行为识别方法的实现示意图，该方法包括如下步骤：
76.在s101中，接收待识别的目标视频数据。
77.在本实施例中，电子设备可以配置有一视频数据库，该视频数据库内包含多个视频数据。在需要对视频数据库内的某一视频数据进行行为识别时，电子设备会将该视频数据识别为目标视频数据，并进行后续处理。其中，在视频数据库内的每个视频数据可以配置有行为标识，对于已经识别完成行为类别的视频数据，其行为标识内包含有已经识别的行为类别，而并未进行行为类别识别的视频数据，该行为标识为空。在该情况下，电子设备可以读取行为标识是否为空，将行为标识为空的视频数据识别为目标视频数据。
78.在一种可能的实现方式中，该目标视频数据具体可以为一视频服务器。用户在需要对某一视频进行行为识别时，可以通过本地的用户终端安装对应的客户端程序，将所需识别的目标视频数据导入到该客户端程序内，并发起识别请求，用户终端在接收到该识别请求后，可以通过客户端程序建立与视频服务器之间的通信连接，并将目标视频数据发送给视频服务器，并通过识别服务器进行行为识别。
79.在一种可能的实现方式中，为了提高行为识别的效率，电子设备可以设置有对应的视频时长阈值，若原始视频数据的视频时长大于上述的视频时长阈值，则可以将原始视频数据划分为两个以上的视频段，每个视频段的视频时长不大于上述的视频时长阈值，将划分为的视频段识别为目标视频数据，并执行后续的行为识别操作。
80.在s102中，将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特
征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息。
81.在本实施例中，为了减少行为识别的运算压力，电子设备的动作行为识别模块中配置有帧间动作提取网络，该帧间动作提取网络具体用于确定相邻的任一两个视频图像帧之间的动作特征信息，即帧间动作提取网络的识别重点并非用户在全局中的行为，而是每两帧之间的动作变化，继而将所有帧间的动作变化进行梳理，即可以得到整个视频完整的行为动作，以便于后续进行行为识别。与全局的光流信息相比，本技术实施例提供的帧间动作提取网络具有即插即用的特点，每次输入至帧间提取动作网络的数据量具体为两个视频图像帧的数据量，而并非需要将整个目标视频数据导入到识别网络中提取光流信息，减少了缓存空间的占用率，也同时降低了计算机的运算能力的要求。
82.在一种可能的实现方式中，确定上述视频图像帧之间的动作特征信息的方式具体可以为：通过上述帧间动作提取网络，识别出目标对象的对象区域，继而识别两个对象区域之间的面积偏差，根据偏差面积的方向、位置以及大小，确定该目标对象的动作特征信息，继而根据各个视频图像帧的帧序号，确定各个动作特征信息的编号，并根据该编号对所有动作特征信息进行封装，生成上述的动作特征数据。
83.示例性地，图2示出了本技术一实施例提供的帧间动作提取网络的结构示意图。参见图2所示，该帧间动作提取网络的输入数据为两个视频图像帧，即图像t以及图像t+1，上述两个视频图像帧是帧序号相邻的两个视频图像帧，电子设备可以通过向量转换模块将上述两个视频图像帧进行向量转换，然后通过池化层进行降维处理以及通过激活层和位移计算模块确定两个视频图像帧对应的向量标识之间的位移信息，继而通过动作识别单元确定两个视频图像帧间的动作信息。其中，上述动作识别单元具体可以由多个卷积层构成，如图所示的可以包括基于1*7*7的卷积核构成的第一卷积层、基于1*3*3的卷积核构成的第二卷积层、基于1*3*3的卷积核构成的第三卷积层以及基于1*3*3的卷积核构成的第四卷积层。
84.在s103中，将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的。
85.在本实施例中，在进行稀疏性约束处理前，该电子设备内可以配置有对应的池化融合网络。由于上述帧间动作提取模块中各个动作特征信息是离散的，在该基础上需要进行特征提取，以确定连续的动作，以便后续进行动作识别，基于此，电子设备可以将帧间动作特征数据导入到上述池化融合网络中，进程池化降维处理，进行特征融合，从而输出对应的融合特征数据。其中，上述融合特征数据可以表示为：
[0086][0087]
其中，maxpool为所述融合特征数据；actioni为第i个视频图像帧对应的帧间动作信息；n为所述目标视频数据中的帧总数；t为特征转置。
[0088]
进一步地，作为本技术的另一实施例，该池化融合网络具体为一同源双线性池化网络，同源双线性池化就是通过计算不同空间位置特征的外积，从而生成一个对称矩阵，然后再对该矩阵做平均池化来获得双线性特征，它可以提供比线性模型更强的特征表示，并且可以以端到端的方式优化。传统的全局平均池化(gap)只捕获一阶统计信息，而忽略了对
行为识别有用的更精细的细节特征，针对这个问题，拟借鉴细粒度分类中所使用的双线性池化方法并与gap方法融合，使得对于相似度较高的行为可以提取更精细的特征，从而得到更好的识别结果。
[0089]
示例性地，图3示出了本技术一实施例提供的池化融合网络的结构示意图。参见图3所示，池化融合网络包括双线性池化与一阶池化融合。最后一层卷积层提取的特征，在全局平均池化之前插入双线性池化模块，捕获空间特征图的二阶统计量，从而获得二阶分类输出，并于全局平均池化得到的一阶特征向量相加从而得到分类输出向量。通过结合一阶和二阶向量，可以捕捉大的上下文线索和行为的细粒度信息，丰富了现有的行为识别网络的分类层。同时，原始的gap分支对于端到端训练过程中的反向传播至关重要，它可以减轻双线性池模块的训练难度。
[0090]
由此可见，上述池化融合网络内包含有数量较多的卷积层和池化层，为了实现对帧间动作特征数据的处理，每个卷积层和池化层内可以配置一个或多个的卷积核，以实现对不同动作维度的特征提取，而部分的卷积核对于动作维度的特征提取可能是冗余的，即并不对结果产生任何贡献，从而大大增加了整个网络的数据量，因此电子设备可以对上述的池化融合网络进行优化，具体是通过不同的选择权重确定各个卷积核对于后续输出结果的贡献，并识别对于输出结果贡献较低的卷积核，甚至对于结果贡献无影响的卷积核，即冗余卷积核，将冗余卷积核从上述的池化融合网络中移除，从而可以减少整个网络的体积，并且输出的稀疏特征数据中包含的不必要的数据，从而提高了识别的准确性。
[0091]
在一种可能的实现方式中，上述稀疏性约束处理可以为：电子设备包含有多个冗余网络模板，该冗余网络模板内包含有至少一个权重值为0的选择权重，在池化融合网络内叠加上述冗余网络模板，并识别叠加后的池化融合网络的验证数据与叠加前的池化融合网络的基准数据之间的损失值，若该损失值小于预设的损失阈值，则将叠加了冗余网络模板后的池化融合网络识别为上述的特征提取网络。
[0092]
在s104中，将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系。
[0093]
在本实施例中，由于帧间动作提取网络主要是关注局部的动作变化，为了确保识别的准确性，电子设备引入了上下文注意力网络，能够实现对全局的动作变化的识别。该上下文注意力网络具体是确定目标对象与环境对象之间的相互位置关系的变化，确定全局的动作变化，因此在上下文注意网络内，会对目标视频数据中的各个视频图像帧进行目标对象的标注以及环境对象的标注，并识别每一个视频图像帧中目标对象与环境对象之间的位置变化向量，根据各个视频图像帧之间的位置变化向量，进行特征提取以及上下文注意力识别，从而得到上述的步态行为数据。
[0094]
示例性地，图4示出了本技术一实施例提供的上下文注意力网络的结构示意图。参见图4所示，该上下文注意力网络在可以对目标视频数据进行特征提取，进行物体检测、关键节点检测以及人体检测，物体检测具体用于确定环境对象，而人体检测具体用于识别目标对象，关键点检测具体用于确定人体的步态变化，最后通过图神经网络卷积层，进行上下文注意力关注，从而输出对应的步态行为数据。
[0095]
在s105中，根据所述步态行为数据以及所述稀疏特征数据，得到所述目标对象的
行为类别。
[0096]
在本实施例中，电子设备在得到步态行为数据以及稀疏特征数据后，可以导入全连接层，确定与各个候选的行为类别之间的置信度，选取所述置信度最高的一个候选的行为类别作为该目标对象的行为类别，以实现对目标对象的行为识别的目的。
[0097]
在一种可能的实现方式中，该目标视频数据的视频长度较长，因此目标对象在整个视频长度的过程中可能包含有多个类型的行为动作，在该情况下，电子设备可以根据各个行为的出现先后次序，输出一个行为序列，该行为序列包含有多个元素，每一个元素对应一个行为类别。
[0098]
以上可以看出，本技术实施例提供的一种基于时空关系的行为识别方法通过在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到特征提取网络进行特征提取，以得到对应的稀疏特征数据，由于该特征提取网络是通过选择权重对池化融合网络内的卷积核进行稀疏性约束处理后得到的，从而整个特征提取网络会减少不必要的卷积核，从而建减少了网络体量，不仅减少了运算量也能够减少网络的资源占用率，与此同时，为了考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本技术实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提起网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，减少运算量，并且对池化融合网络进行稀疏性约束处理，减少了网络体量，继而减少了资源占用也进一步提高了识别的效率。
[0099]
图5示出了本发明第二实施例提供的一种基于时空关系的行为识别方法的具体实现流程图。参见图5，相对于图1所述实施例，本实施例提供的一种基于时空关系的行为识别方法中在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：s501～s507，具体详述如下：
[0100]
在s501中，为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络。
[0101]
在本实施例中，电子设备可以存储有池化融合网络，该池化融合网络可以是通过云端服务器获取得到的，也可以是基于预设的训练数据对原生的网络进行训练后得到的，如s103所述，该池化融合网络具体是用于进行特征提取，以确定连续的动作，以便后续进行动作识别。
[0102]
在本实施例中，为了识别该池化融合网络中包含的冗余卷积核，电子设备可以通过选择权重调整各个卷积核对于输出的贡献，因此，可以设置一个权重值为0的选择权重，并将其配置给任意一个待识别卷积核，以屏蔽该待识别卷积核对于后续数据输出的影响。
[0103]
在本实施例中，每次配置选择权重为0的待识别卷积核的个数可以为1个，也可以为多个，具体可以根据实际情况进行设置。选取待识别卷积核的方式可以是随机选取，也可以基于预设的规则依次选取，在此不作限定。
[0104]
在s502中，将预设的多个训练特征数据输入至所述待校正网络生成第一训练结
果，以及将多个所述训练特征数据输入至所述池化融合网络生成第二训练结果。
[0105]
在本实施例中，电子设备可以存储有多个训练特征数据，生成训练特征数据的过程与生成帧间动作特征数据的过程一致，是基于训练视频导入到帧间动作提取网络中输出得到的。电子设备可以将训练特征数据导入到上述调整了的待校正网络内，以得到第一训练结果，与此同时，为了确定选择权重为0对于输出的影响，电子设备可以将相同的训练特征数据导入到池化融合网络内，得到第二训练结果。
[0106]
在s503中，根据所述第一训练结果以及所述第二训练结果，确定所述待校正网络的损失值。
[0107]
在本实施例中，由于第一训练结果以及第二训练结果是根据相同的训练特征数据生成的，因此，若选择权重为0的待识别卷积核对于结果影响较小，则上述两个训练结果之间的相似度较高(即损失值较小)；反之，若选择权重为0的待识别卷积核对于结果影响较大，则上述两个训练结果之间的相似度较低(即损失值较大)。因此，电子设备可以通过多个训练数据对应的训练结果之间的损失值，确定该待识别卷积核的是否为冗余卷积核。
[0108]
在s504中，若所述损失值小于或等于所述损失阈值，则将配置所述选择权重的所述待识别卷积识别为冗余卷积核。
[0109]
在s505中，若所述损失值大于预设的损失阈值，则将配置所述选择权重的所述待识别卷积核识别为必要卷积核。
[0110]
在本实施例，若所有训练特征数据对应的损失值均小于或等于损失阈值，则可以识别配置了数值为0的选择权重的待识别卷积核为冗余卷积核；反之，若任一训练特征数据对应的损失值大于上述的损失阈值，则可以将配置了数值为0的选择权重的待识别卷积核为必要卷积核，通过损失值的大小确定待识别卷积核的类型。
[0111]
在s506中，返回执行所述为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络的操作，直到所述池化融合网络内的所有所述待识别卷积核已分类完毕。
[0112]
在本实施例中，电子设备在确定了待识别卷积核的类型后，可以返回执行s501的操作，直到所有待识别卷积核已经分类完毕，即识别得到为冗余卷积核或是必要卷积核。
[0113]
在s507中，基于所有所述必要卷积核生成所述特征提取网络。
[0114]
在本实施例中，将池化融合网络内的所有冗余卷积核移除，将剩余的所有必要卷积核生成对应的特征提取网络，从而可以减少特征提取网络的网络体积。
[0115]
在本技术实施例中，通过配置选择权重为0的卷积核，以屏蔽部分卷积核对于输出结果的影响，从而可以确定出对于输出影响较大的卷积核，从而简化整个卷积核的体积，继而减少了行为识别的运算量。
[0116]
图6示出了本技术第三实施例提供的一种基于时空关系的行为识别方法的具体实现流程图。参见图6，相对于图1所述实施例，本实施例提供的一种基于时空关系的行为识别方法中在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据之前，还包括：s601～s603，具体详述如下：
[0117]
进一步地，所述特征训练数据关联有基准动作标签；基于所述特征训练数据生成的所述特征提取网络关联有所述基准动作标签；
[0118]
在所述将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应
的稀疏特征数据之前，还包括：
[0119]
在s601中，基于所述帧间动作数据确定多个候选动作标签。
[0120]
在s602中，根据多个所述候选动作标签以及各个候选提取网络对应的基准动作标签，分别计算各个候选提取网络之间的匹配度。
[0121]
在s603中，选取所述匹配度最高的所述候选提取网络作为所述特征提取网络。
[0122]
在本实施例中，通过选择权重进行稀疏性约束后，可以减少特征提取网络的网络体积，但不可避免地可能会引入一定的计算损失。为了提高后续行为识别的准确性，在进行训练时，每个训练特征数据可以关联一个基准动作标签，基于相同的基准动作标签对应的训练特征数据生成的特征提取网络，可以用于识别特定动作标签的动作类别，即不同的基准动作标签，会对应不同的特征提取网络，以实现特化训练，提高识别的准确性。因此，电子设备的数据库内可以存储有关联有不同的基准动作标签的动作提取网络(在并没有选取之前，即可以识别为候选提取网络)。
[0123]
在本实施例中，电子设备在生成帧间动作特征数据后，可以确定多个候选动作标签，并通过多个候选动作标签与基准动作标签之间的标签关联度，确定该帧间动作特征数据与候选提取网络之间的匹配度，根据匹配度选取出与帧间动作特征数据最相关的一个候选提取网络作为后续进行稀疏特征数据输出的特征提取网络。
[0124]
在本技术实施例中，通过为不同的动作标签配置不同的特征提取网络，能够减少因卷积核减少而导致识别准确率降低的情况发生，能够保证识别效率的同时，也能够提高识别准确率。
[0125]
图7示出了本发明第三实施例提供的一种基于时空关系的行为识别方法s102的具体实现流程图。参见图7，相对于图1所述实施例，本实施例提供的一种基于时空关系的行为识别方法中s102包括：s1021～s1027，具体详述如下：
[0126]
进一步地，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：
[0127]
在s1021中，确定所述目标视频数据内任意两个连续的视频图像帧的图像张量。
[0128]
在本实施例中，电子设备在提取两个视频图像帧之间的动作特征信息之前，需要对视频图像帧进行预处理，需要将以图形表达的视频图像帧转换为以向量表达的张量。每个视频图像帧对应的图像张量是根据该视频图像帧的图像尺寸确定的，示例性地，该图像长相可以为一h*w*c尺寸的张量，其中，h是根据视频图像帧的图像长度确定的，w是根据视频图像帧的图像宽度确定的，即h*w是用于表示该视频图像帧的空间分辨率，c用于标识目标对象所在的空间位置，示例性，两个连续的视频图像帧可以标识为f(t)以及f(t+1)，即第t个视频图像帧以及第t+1个视频图像帧对应的图像张量。
[0129]
在s1022中，根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的。
[0130]
在本实施例中，电子设备可以在每个视频图像帧中标记出目标对象所在的位置，即上述的关键位置。其中，该目标对象具体为一实体人，在该情况下，电子设备可以通过人体模板在视频图像帧中进行滑动框取，计算该人体模板与框取区域的匹配度，从而能够识别得到人体所在的区域，即目标对象所在的区域，又例如可以通过人脸识别算法，定位出该视频图像帧中包含的人脸区域，并基于人脸区域识别出目标对象所在的区域，从而确定目
标对象所在的关键位置。
[0131]
在本实施例中，电子设备在确定了关键位置后，可以该关键位置为基准，识别出目标对象内的多个关键点，每个关键点对应一个特征点坐标。示例性地，与步态行为相关的关键点包括：膝关节、大腿中心、小腿中心、躯干中心、头部、左手手臂、右手手臂等，在标记出各个关键点后，可以确定该关键点在视频图像帧内的坐标，即确定上述的特征点坐标。
[0132]
在s1023中，在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量。
[0133]
在本实施例中，电子设备在确定了多个特征点坐标后，可以在图像张量中定位出各个特征坐标点所在的元素，从而能够得到各个特征坐标点通过张量的表达式，即上述张量表达，最后将所有特征坐标点的张量表达进行封装，则得到该目标对象与步态相关的特征向量。
[0134]
在s1024中，根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数。
[0135]
在本实施例中，电子设备在确定与关键点的特征点坐标对应的张量表达，并得到基于所有关键点的张量表达构成的特征向量后，可以计算两个视频图像帧之间的向量偏差，从而可以根据该向量偏差确定在两个视频图像帧间，该目标对象各个关键点对应的位移，从而确定得到上述的位移相关矩阵。
[0136]
在本实施例中，由于根据视频的相邻两帧中某一个位置来说，大概率不会发生大的位移，可以把位移限制在某一个特定的区域，假设该区域以x为中心点且包含p2个特征点，然后可以通过x位置的特征与相邻的视频图像帧中对应的候选区域中的特征做点乘运算得到位置x与该候选区域内所有特征的相关性分数矩阵，该矩阵的维度为h
ⅹwⅹ
p2，即上述的位移相关矩阵，反映了相邻帧间的位置之间的关系。
[0137]
在s1025中，根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵。
[0138]
在本实施例中，电子设备在确定了各个特征点坐标相对于另一视频图像帧在关键区域中的各个坐标点之间的相关分数后，可以选取相关分数最大的数值确定该特征点坐标对应的最大位移距离，即在另一视频图像帧中定位出与该特征点坐标相关联的坐标点，由于上述相关分数是确定两个坐标点之间的相关度，若两个坐标点之间的相关分数最大，即表示上述两个坐标点属于相同的坐标点，因此可以将该相关分数最大的坐标点，确定该关键点坐标对应的最大位移距离，从而基于所有关键点坐标的最大位移距离，可以确定该目标对象的位移矩阵。
[0139]
进一步地，作为本技术的另一实施例，上述s1025具体包含以下步骤：
[0140]
步骤1：在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；
[0141]
步骤2：从所述位移相关数组中确定相关系数最大的参数值作为所述特征坐标点的所述最大位移距离；
[0142]
步骤3：根据所有所述特征坐标点的所述最大位移距离构建所述目标对象在二维空间上的位移场；
[0143]
步骤4：通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；
[0144]
步骤5：将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。
[0145]
在本实施例中，根据相关分数矩阵，只要找出视频图像帧中相关分数矩阵中每个特征点的最大分数对应在另一视频图像帧中对应的点，就可以估计运动信息的位移场，由于上述相关分数是用于确定两个坐标点之间的相关性的，因此可以根据上述的位移相关矩阵，分离各个特征点坐标在另一视频图像帧上各个坐标点之间的相关分数，即上述的位移相关数组，并确定相关系数最大的参数值确定该特征点坐标在另一视频图像帧内的对应坐标点，并将另个点之间的距离作为上述的最大位移距离，从而构建该目标对象在二维空间内的位移场,由于该视频图像帧是一二维图像，即构建得到的位移场是也是二维的。具体来说，可以通过添加一层softmax层来对该二维场进行特征提取，即进行最大池化处理，从而得到该目标对象的置信图，最后将二维的位移场和一维的置信图结合形成具有三维特征的位移矩阵。
[0146]
在本技术实施例中，通过构建二维位移场确定目标对象的运动情况，并进行池化降维确定该位移场内各个点的置信度，方便对位移情况进行有效评估，从而能够便于进行后续的动作识别，提高了动作识别的准确性
[0147]
在s1026中，将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据。
[0148]
在本实施例中，为了和下游层的特征匹配，位移张量需要转换为匹配下游层维度的运动特征矩阵。可将馈送到四个深度可分卷积层中，一个1
×
7层，三个1
×
3层，将其转换成与原始输入f(t)相同通道数c的运动特征。以便输入至网络的下一层。
[0149]
在s1027中，基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。
[0150]
在本实施例中，电子设备在确定了每个视频图像帧相对于后一视频图像帧对应的动作特征子数据后，可以根据各个视频图像帧的帧序号进行封装，从而得到关于整个目标视频数据的帧间动作特征数据。
[0151]
在本技术实施例中，通过在目标对象中标记出与步态相关的多个关键点坐标，并通过关键点坐标的位移去那个看构建对应的位移矩阵，通过关键点的位移确定该目标对象的动作特征子数据，能够减少所需运算的点的个数，从而进一步减少运算量，以及提高运算效率。
[0152]
图8示出了本发明第三实施例提供的一种基于时空关系的行为识别方法的具体实现流程图。参见图8，相对于图1-7任一项所述实施例，本实施例提供的一种基于时空关系的行为识别方法在所述接收待识别的目标视频数据之前，还包括：s801～s807，具体详述如下：
[0153]
进一步地，在所述接收待识别的目标视频数据之前，还包括：
[0154]
在s801中，获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述特征提取网络以及所述上下文注意力网络。
[0155]
在本实施例中，电子设备在对目标视频数据进行行为识别之前，可以对本地的行为识别模块进行训练学习，从而能够提高后续行为识别的准确性。其中，上述行为识别模块
具体包含有三大网络，分别为帧间动作提取网络，具体用于提取帧间动作运动数据，池化融合网络，具体用于对帧间动作运动数据进行特征提取以及特征融合，以及上下文注意力网络，具体用于确定目标对象与环境对象之间的相对位置，从而能够从全局维度上确定该目标对象的行为类别，基于此，电子设备可以从视频库内获取样本视频数据。需要说明的是，上述样本视频数据具体为并未进行行为类别标注的视频数据，或者弱标注的视频数据。该训练方法可以通过对抗学习的方式进行训练学习，从而能够减少用户标记的耗时，既能够提高训练的效率，还能够提高训练的准确性。
[0156]
本实施例引入深度双向转换器以便更好地利用位置嵌入和多头注意力机制自动选择视频中的关键信息，设计面向视频理解的序列自监督学习方法，充分利用海量互联网大数据和已有的公开数据集对行为预训练模型进行不断优化和训练，进而获得具有领域通用性和任务共用能力的鲁棒行为预训练模型。
[0157]
在s802中，根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的。
[0158]
在本实施例中，电子设备在获取得到任一个样本视频数据后，可以将该样本视频数据转换为两种不同种类的样本数据，一种是通过对背景信息进行干扰，即干扰空间维度而得到的正样本数据，以及对帧序列进行干扰，即干扰时间维度而得到的负样本数据，从而解耦动作和空间场景，使网络对动作的敏感性进一步增强。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。
[0159]
其中，生成正样本的过程具体可以包含以下步骤：
[0160]
步骤1.1标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域。
[0161]
步骤1.2通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧。
[0162]
步骤1.3根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。
[0163]
在本实施例中，电子设备可以通过对象识别算法(如人脸识别算法或者人体关键点识别算法等方式)定位出该样本视频数据中的样本对象，该样本对象也可为以实体人，在标记出该样本视频数据中的样本对象后，可以将除样本对象所在区域外的其他区域识别为背景区域，由于需要对空间进行干扰，电子设备可以通过薄板样条的方式在背景区域进行插值处理，从而对部分背景区域进行遮挡，以消除样本视频帧之间在空间的相关性，并根据帧序号重新对添加了薄板样条之后的空间干扰图像帧进行重新封装，从而得到正样本数据。
[0164]
在本技术实施例中，通过薄板样条对背景区域进行插值处理，破坏局部场景信息从而构建正样本，能够提高后续识别对于用户动作的敏感度，继而提高训练的准确性。
[0165]
其中，生成负样本的过程具体可以包含以下步骤：
[0166]
步骤2.1根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长。
[0167]
步骤2.2根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频
帧的帧序号。
[0168]
步骤2.3基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。
[0169]
在本实施例中，为了实现对时间维度上的干扰，电子设备可以对样本视频数据进行划分，划分为多个视频段，对每个视频段内的视频图像帧进行乱序处理。由于一个动作具有一定的时长，通过划分视频段能够实现对不同动作的分离，继而能够提高后续对每一个动作识别的灵敏度。其中，上述动作时间时长是根据大数据分析确定一个动作的平均时长而确定的。电子设备会通过随机算法对视频段内的各个样本视频帧重新配置帧序号，从而根据更新后的帧序号的样本视频帧进行封装，从而得到负样本数据。
[0170]
通常对比学习采用的负样本都是直接用其他视频，但是换用其他视频的话，除了动作信息不同之外，可能还会引入许多的可能使得网络分辨起来更容易的特征，所以这样的选取负样本的方式并不能保证网络会专注于运动，基于此本项目拟使用局部时间干扰破坏光流信息，以此来构建负样本。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。
[0171]
在s803中，通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息。
[0172]
在本实施例中，电子设备可以将正样本数据通过编码算法进行数据转换，得到该正样本数据中各个图像帧的编码数据，即得到多个特征图，然后通过学习的位置编码添加到提取得到的特征图中，融合位置编码后利用深度双向转换器对时间信息进行建模，从得到该正样本数据的时间信息，即第一光流信息，对空间信息进行建模，从而得到正样本数据的空间信息，即第一空间信息。对应地，对于负样本数据也进行相应处理，得到第二空间信息以及所述第二光流信息。
[0173]
在s804中，根据所述第一空间信息以及所述第二空间信息得到空间增强信息。
[0174]
在本实施例中，由于第一空间信息中对背景区域进行干扰，从而空间上是不具有相关性的，而第二空间信息并没有对背景区域进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个空间信息，能够提高空间信息捕捉的敏感度，从而得到空间增强信息。
[0175]
在s805中，根据所述第二光流信息以及所述第一光流信息得到光流增强信息。
[0176]
在本实施例中，由于第一光流信息中没有对时间序列进行干扰，从而时间维度上是具有相关性的，而第二光流信息对时间序列进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个光流信息，能够提高时间信息捕捉的敏感度，从而得到光流增强信息。
[0177]
在s806中，将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果。
[0178]
在s807中，基于所有所述样本视频数据的所述训练结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。
[0179]
在本实施例中，行为识别包括两个关键信息：空间信息和时间信息。空间信息属于场景中的静态信息，如对象、上下文信息等，其在视频的单个帧中是容易捕捉的，时间信息主要捕捉动作的动态特性，其通过整合帧间的空间信息而获得，对于行为识别来说，如何更
好地捕捉到动作信息对于模型性能至关重要，现有的3d卷积神经网络的末尾使用的全局平均池化层阻碍了时间信息的丰富性。针对这个问题，拟采用深度双向转换器(transformer)来替代全局平均池化。从输入视频中采样的k帧通过3d卷积编码器编码，得到的特征图(feature map)在网络的最后不使用全局平均池化，而是将特征向量分割成固定长度的tokens序列,然后，为了保存位置信息，将学习的位置编码添加到提取的特征中，融合位置编码后利用深度双向转换器中的transformer块对时间信息进行建模，通过深度双向转换器的多头注意力机制得出的特征向量融合了时间信息，之后将这些向量连接到一起通过多层感知机进行特征维度的变换，在通过计算对比损失来完成端到端的训练。从而得到一个泛化性能良好的预训练模型。
[0180]
在本技术实施例中，通过确定正样本数据以及负样本数据，从而能够提高对于动作以及时空信息识别的敏感度，从而在不需要标注的情况下，也能够完成行为类别的训练，从而提高了预训练的效果。
[0181]
图9示出了本发明第四实施例提供的一种基于时空关系的行为识别方法s104的具体实现流程图。参见图9，相对于图1-7任一项所述实施例，本实施例提供的一种基于时空关系的行为识别方法s104包括：s1041～s1044，具体详述如下：
[0182]
在s1041中，确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象。
[0183]
在s1042中，基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点。
[0184]
在s1043中，基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征。
[0185]
在s1044中，将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。
[0186]
在本实施例中，深度卷积神经网络能够从rgb图像中提取纹理、外观特征，能够直接或间接使用其他视觉任务中经过大规模数据训练的预训练深度学习模型，从而有效地迁移图像特征表达知识，易受场景和物体的干扰。而基于高层语义人体关键点或其他关系建模的行为识别数据相对轻便且不受场景和物体干扰，但缺乏纹理和外观信息，无法有效利用行为所依赖的场景和物体信息，只能用于以人体为中心的相关动作进行行为识别。因此，有必要融合基于rgb图像的特征表达和基于高层上下文关系建模的信息，从而更好地挖掘时空特征之间时序关系以及人-人、人-物间的相互作用模式，同时充分利用卷积神经网络对底层视觉特征信息的抽象提取能力和时空图神经网络对高层语义关系推理能力。具体来说，使用注意力3d卷积神经网络提取人体区域的视频特征，该特征一方面用于进行基于rgb图像的行为识别，另一方面作为人体关键节点预测的子网络输入。人体关键节点估计自网络输出多帧的人体关键节点，将关键节点序列图像视频图像，送入图卷积上下文神经网络模型中进行基于人体关键节点的行为识别。此外，利用目标检测模型对画面中的人和物进行实时检测，然后将关注目标人体周围的其他人体特征表达、目标特征表达送入图卷积上下文神经网络模型进行联合优化训练。这样将检测到的目标特征表达、周围相关的人体特征以及人的关键节点作为关注对象行为的上下文信息通过图神经网络融入到模型中，从而
降低从底层视觉特征到高层语义信息鸿沟的映射不一致鸿沟问题的同时，增强模型对人-人、人-物间的关联关系建模和表达能力，提升行为识别在不同复杂常见的关键信息学习能力和建模能力。
[0187]
在本技术实施例中，通过识别环境对象，确定环境对象于目标对象之间的相互关系，能够提高动作类型的识别准确性。
[0188]
图10示出了本发明一实施例提供的一种基于时空关系的行为识别装置的结构框图，该基于时空关系的行为识别装置包括的各单元用于执行图1对应的实施例中加密装置实现的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。
[0189]
参见图10，所述基于时空关系的行为识别装置包括：
[0190]
目标视频数据接收单元11，用于接收待识别的目标视频数据；
[0191]
帧间动作特征数据提取单元12，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；
[0192]
稀疏特征数据单元13，用于将所述帧间动作特征数据导入特征提取网络，输出所述目标视频数据对应的稀疏特征数据；所述特征提取网络是通过选择权重对池化融合网络内的各个卷积核进行稀疏性约束处理后生成的；
[0193]
步态行为数据识别单元14，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的步态行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；
[0194]
行为识别单元15，用于根据所述步态行为数据以及所述稀疏特征数据，得到所述目标对象的行为类别。
[0195]
可选地，所述行为识别装置还包括：
[0196]
待校正网络生成单元，用于为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络；
[0197]
训练结果确定单元，用于将预设的多个训练特征数据输入至所述待校正网络生成第一训练结果，以及将多个所述训练特征数据输入至所述池化融合网络生成第二训练结果；
[0198]
损失值确定单元，用于根据所述第一训练结果以及所述第二训练结果，确定所述待校正网络的损失值；
[0199]
第一类别识别单元，用于若所述损失值小于或等于所述损失阈值，则将配置所述选择权重的所述待识别卷积识别为冗余卷积核；
[0200]
第二类别识别单元，用于若所述损失值大于预设的损失阈值，则将配置所述选择权重的所述待识别卷积核识别为必要卷积核；
[0201]
循环执行单元，用于返回执行所述为所述池化融合网络内至少一个待识别卷积核配置数值为0的所述选择权重，得到待校正网络的操作，直到所述池化融合网络内的所有所述待识别卷积核已分类完毕；
[0202]
网络生成单元，用于基于所有所述必要卷积核生成所述特征提取网络。
[0203]
可选地，所述特征训练数据关联有基准动作标签；基于所述特征训练数据生成的
所述特征提取网络关联有所述基准动作标签；所述行为识别装置还包括：
[0204]
候选标签生成单元，用于基于所述帧间动作数据确定多个候选动作标签；
[0205]
标签匹配单元，用于根据多个所述候选动作标签以及各个候选提取网络对应的基准动作标签，分别计算各个候选提取网络之间的匹配度；
[0206]
网络选取单元，用于选取所述匹配度最高的所述候选提取网络作为所述特征提取网络。
[0207]
可选地，所述帧间动作特征数据提取单元12包括：
[0208]
图像张量转换单元，用于确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；
[0209]
特征点坐标确定单元，用于根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；
[0210]
特征向量生成单元，用于在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；
[0211]
位移相关矩阵构建单元，用于根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；
[0212]
位移矩阵构建单元，用于根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；
[0213]
动作特征子数据确定单元，用于将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；
[0214]
动作特征子数据封装单元，用于基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。
[0215]
可选地，所述位移矩阵构建单元包括：
[0216]
位移相关数组确定单元，用于在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；
[0217]
最大位移距离确定单元，用于从所述位移相关数组中确定相关系数最大的参数值作为所述特征坐标点的所述最大位移距离；
[0218]
位移场确定单元，用于根据所有所述特征坐标点的所述最大位移距离构建所述目标对象在二维空间上的位移场；
[0219]
位移场池化单元，用于通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；
[0220]
位移场融合单元，用于将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。
[0221]
可选地，行为识别装置还包括：
[0222]
样本视频数据获取单元，用于获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络、所述特征提取网络以及所述上下文注意力网络；
[0223]
样本数据转换单元，用于根据所述样本视频数据生成正样本数据以及负样本数
据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；
[0224]
信息提取单元，用于通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息；
[0225]
空间增强信息生成单元，用于根据所述第一空间信息以及所述第二空间信息得到空间增强信息；
[0226]
光流增强信息提取单元，用于根据所述第二光流信息以及所述第一光流信息得到光流增强信息；
[0227]
训练识别结果输出单元，用于将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；
[0228]
模块训练单元，用于基于所有所述样本视频数据的所述训练结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。
[0229]
可选地，所述样本数据转换单元包括：
[0230]
背景区域识别单元，用于标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域；
[0231]
背景区域处理单元，用于通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧；
[0232]
正样本生成单元，用于根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。
[0233]
可选地，所述样本数据转换单元包括：
[0234]
视频划分单元，用于根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长；
[0235]
乱序处理单元，用于根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号；
[0236]
负样本生成单元，用于基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。
[0237]
可选地，所述步态行为数据识别单元14包括：
[0238]
环境对象识别单元，用于确定所述目标视频数据的各个视频图像帧内的目标对象以及至少一个环境对象；
[0239]
第一上下文特征生成单元，用于基于所有所述视频图像帧中的所述目标对象的各个关键特征点的第一位置坐标，确定第一上下文特征；所述关键特征点是与所述目标对象的步态相关的人体关键点；
[0240]
第二上下文特征生成单元，用于基于各个所述视频帧中所述目标对象与所述环境对象之间的相对位置关系，确定第二上下文特征；
[0241]
步态行为数据确定单元，用于将所述第一上下文特征以及所述第二上下文特征导入所述上下文注意力网络，生成所述步态行为数据。
[0242]
因此，本发明实施例提供的基于时空关系的行为识别装置同样可以通过在接收到需要进行行为识别的目标视频数据后，将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动
作特征数据，继而将该动作特征数据导入到特征提取网络进行特征提取，以得到对应的稀疏特征数据，由于该特征提取网络是通过选择权重对池化融合网络内的卷积核进行稀疏性约束处理后得到的，从而整个特征提取网络会减少不必要的卷积核，从而建减少了网络体量，不仅减少了运算量也能够减少网络的资源占用率，与此同时，为了考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的步态行为数据，最后通过提取得到两个类型的数据确定目标对象在目标视频数据内的行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本技术实施例并不需要计算整个视频数据的光流信息，而是通过即插即用的帧间动作提起网络确定各个视频帧之间的动作特征信息，从而大大降低了运算设备的运算成本，减少运算量，并且对池化融合网络进行稀疏性约束处理，减少了网络体量，继而减少了资源占用也进一步提高了识别的效率。
[0243]
应当理解的是，图10示出的基于时空关系的行为识别装置的结构框图中，各模块用于执行图1至图9对应的实施例中的各步骤，而对于图1至图9对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图9以及图1至图9所对应的实施例中的相关描述，此处不再赘述。
[0244]
图11是本技术另一实施例提供的一种电子设备的结构框图。如图11所示，该实施例的电子设备1100包括：处理器1110、存储器1120以及存储在存储器1120中并可在处理器1110运行的计算机程序1130，例如基于时空关系的行为识别方法的程序。处理器1110执行计算机程序1130时实现上述各个基于时空关系的行为识别方法各实施例中的步骤，例如图1所示的s101至s105。或者，处理器1110执行计算机程序1130时实现上述图11对应的实施例中各模块的功能，例如，图10所示的单元11至15的功能，具体请参阅图10对应的实施例中的相关描述。
[0245]
示例性的，计算机程序1130可以被分割成一个或多个模块，一个或者多个模块被存储在存储器1120中，并由处理器1110执行，以完成本技术。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序1130在电子设备1100中的执行过程。例如，计算机程序1130可以被分割成各个单元模块，各模块具体功能如上。
[0246]
电子设备1100可包括，但不仅限于，处理器1110、存储器1120。本领域技术人员可以理解，图11仅仅是电子设备1100的示例，并不构成对电子设备1100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
[0247]
所称处理器1110可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
[0248]
存储器1120可以是电子设备1100的内部存储单元，例如电子设备1100的硬盘或内存。存储器1120也可以是电子设备1100的外部存储设备，例如电子设备1100上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器1120还可以既包括电子设备1100的内部存储单元也包括外部存储设备。
[0249]
以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例
对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏航周凡刘海亮陈小燕汤武惊张怡
技术所有人：中山大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。