动作识别方法、装置、存储介质以及计算机设备与流程

文档序号：30078237发布日期：2022-05-18 03:48阅读：154来源：国知局

1.本技术涉及计算机视觉技术领域，具体而言，涉及一种动作识别方法、装置、存储介质和计算机设备。

背景技术：

2.动作识别是指基于接收到的图像数据，如视频、图片等，识别出图像数据中人物所执行的动作，主要应用于人机交互过程中，即基于识别出的动作，对计算机进行相关的控制。

技术实现要素：

3.本技术提供一种动作识别方法、装置、存储介质以及计算机设备，可以解决如何提高动作识别效率的技术问题。
4.第一方面，本技术实施例提供一种动作识别方法，该方法包括：
5.获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧；
6.确定所述中心视频帧中的目标人物对应的人物检测框以及所述中心视频帧中的至少一个物体对应的物体检测框，所述目标人物为所述中心视频帧的多个人物中的任意一个人物；
7.基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征；
8.基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征；
9.基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作。
10.第二方面，本技术实施例提供一种动作识别装置，包括：
11.视频帧获取模块，用于获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧；
12.检测框确定模块，用于确定所述中心视频帧中的目标人物对应的人物检测框以及所述中心视频帧中的至少一个物体对应的物体检测框，所述目标人物为所述中心视频帧的多个人物中的任意一个人物；
13.特征获取模块，用于基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征；
14.所述特征获取模块，还用于基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征；
15.动作识别模块，用于基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作。
16.第三方面，本技术实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行上述方法的步骤。
17.第四方面，本技术实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。
18.在本技术实施例中，通过确定目标视频中的中心视频帧，然后获取中心视频帧中的人物检测框以及物品检测框，该人物检测框和物体检测框可以表示出人物与物品在整个目标视频中的大概位置，以基于人物检测框以及物品检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术实施例提供的一种动作识别方法的流程示意图；
21.图2为本技术实施例提供的一种中心视频帧中各检测框的举例示意图；
22.图3为本技术实施例提供的一种动作识别方法的流程示意图；
23.图4为本技术实施例提供的一种中心视频帧中目标人物对应的各人体关键点的举例示意图；
24.图5为本技术实施例提供的一种中心视频帧中各检测框的举例示意图；
25.图6为本技术实施例提供的一种动作识别方法的流程示意图；
26.图7为本技术实施例提供的一种动作识别装置的结构示意图；
27.图8为本技术实施例提供的一种动作识别装置的结构示意图；
28.图9是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
29.为使得本技术的特征和优点能够更加的明显和易懂，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而非全部实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.现有的动作识别方法，在识别视频中的人体动作时，先对视频中多个视频帧中各视频帧进行图像处理，然后提取出各视频帧中的人物特征数据，然后再基于多个连续的人物特征数据进行动作识别，导致动作识别效率较低。
31.下面将结合图1-图6，对本技术实施例提供的动作识别方法进行详细介绍。
32.请参见图1，为本技术实施例提供了一种动作识别方法的流程示意图。如图1所示，所述方法可以包括以下步骤s101-步骤s104。
33.s101，获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧。
34.在一个实施例中，动作识别装置可以包括摄像头等图像采集装置，以通过摄像头采集动作识别装置所处环境中的视频数据。动作识别装置也可以直接接收其它装置发送的视频数据。
35.动作识别装置获取用以识别人物动作的视频数据作为目标视频，然后对目标视频进行解码处理，得到连续的视频帧序列，需要说明的是，视频帧序列包括多个按照图像采集顺序排列的视频帧。然后在连续的视频帧序列中，确定位于中间位置的视频帧，并将该视频帧作为目标视频中的中心视频帧。
36.示例性的，若视频帧序列为a,b,c,d,e，则中心视频帧为c，若视频帧序列为a,b,c,d，则中心视频帧可以是b，也可以是c，在此不做限定。
37.进一步的，为了提高动作识别的准确率，动作识别装置在获取到视频数据时，按照视频上限对视频数据进行拆分，得到多个目标视频。示例性的，若视频上限为10k，而获取到的视频数据为25k，则可以得到10k的第一目标视频、10k的第二目标视频以及5k的第三目标视频。需要说明的是，本实施例是基于中心视频帧中的人物位置以及物体位置，来对整个目标视频进行特征提取，由于人体和物体均无法在短时间内进行大范围的移动，因此，本实施例可以通过限制目标视频的大小来提高特征提取的准确率，进而提高动作识别的准确率。
38.s102，确定所述中心视频帧中的目标人物对应的人物检测框以及所述中心视频帧中的至少一个物体对应的物体检测框，所述目标人物为所述中心视频帧的多个人物中的任意一个人物。
39.在一个实施例中，人物检测框用于表示人物在中心视频帧中的具体位置，即所处区域，物体检测框用于表示物体在中心视频帧中的具体位置，即所处区域，示例性的，如图2所示，图2为目标视频对应的中心视频帧100，其中，图2还示出了中心视频帧100中目标人物对应的人物检测框110，以及至少一个物体对应的物品检测框120。
40.动作识别装置基于中心视频帧进行人体检测以及物体检测，然后基于检测结果生成人物检测框以及物品检测框。需要说明的是，一个人会有一个对应的人物检测框，一个物品会有一个对应的物品检测框。
41.在中心视频帧中存在多个人物时，动作识别装置在多个人物中选择任意一个作为目标人物，然后再获取目标人物对应的人物检测框，其中，动作识别装置可以先获取中心视频帧中各人物对应的人物检测框，然后再获取目标人物对应的人物检测框，也可以先在中心视频帧中确定出目标人物，再基于中心视频帧获取目标人物对应的人物检测框，在此不做限定。进一步的，动作识别装置会逐一遍历中心视频帧中的各人物，以基于各人物对应的人物检测框获取各人物的人物动作。
42.s103，基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征。
43.在一个实施例中，目标视频对应的视频时空特征是指目标视频的时间空间特征，可以理解的是，视频时空特征至少包括目标视频中的人物特征、物体特征以及各特征在整个视频中的时序变化特征。人物时空特征可以表示目标人物在视频中的姿态变化，如转动
头部，挥手等。
44.动作识别装置基于人物检测框，在目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征。具体来说，由于人物检测框表示人物在中心视频帧中的具体位置，则可以基于人物的具体位置，在目标视频对应的视频时空特征中，提取该位置对应的时空特征作为人物时空特征。
45.s104，基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征。
46.在一个实施例中，动作识别装置基于至少一个物体的物体检测框，在目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征。具体来说，由于物体检测框表示物体在中心视频帧中的具体位置，则可以基于物体的具体位置，在目标视频对应的视频时空特征中，提取该位置对应的时空特征作为物体时空特征。
47.s105，基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作。
48.在一个实施例中，动作识别装置基于人物时空特征识别出目标人物的人物姿态，然后再基于人物姿态以及物体特征，辅助判断目标人物所执行的动作。
49.本实施例还可以同时识别出目标视频中多个人物的动作。
50.在本技术实施例中，通过确定目标视频中的中心视频帧，然后获取中心视频帧中的人物检测框以及物品检测框，该人物检测框和物体检测框可以表示出人物与物品在整个目标视频中的大概位置，以基于人物检测框以及物品检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
51.可以理解的是，为了提高动作识别的准确率，人物检测框可以包括人体检测框以及躯干检测框，然后再基于人体检测框以及躯干检测框提取目标人物的相关特征，以基于目标人物相关的特征进行动作识别。下面将结合图3-图4，对基于人体检测框以及躯干检测框的动作识别方法进行详细介绍。
52.s201，获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧。
53.具体可参见s101，在此不再赘述。
54.s202，确定所述中心视频帧中的目标人物对应的人体检测框。
55.在一个实施例中，动作识别装置中可以包括一个检测框识别模型，该识别模型可以识别出人物的检测框以及物体的检测框。
56.动作识别装置采用检测框识别模型，基于中心视频帧，获取目标人物在中心视频帧中的人体检测框。
57.s203，基于所述目标人物对应的人体检测框，获取所述目标人物对应的人体关键点。
58.在一个实施例中，人体关键点可以是头顶关键点、脖子关键点、左肩关键点、右肩关键点、左手肘关键点、右手肘关键点、左手腕关键点、右手腕关键点、腹部关键点、左胯关键点、右胯关键点、左膝关键点、右膝关键点、左脚踝关键点以及右脚踝关键点等，具体关键
点个数以及种类，视具体情况而定，可以多于前述举例的人体关键点，也可以少于前述举例的人体关键点，在此不做限定。动作识别装置中可以包括一个人体姿态估计模型，该估计模型可以识别出中心视频帧中目标人物的多个人体关键点。
59.动作识别装置采用人体姿态估计模型，基于中心视频帧以及目标人物对应的人体检测框，在中心视频帧中的人体检测框对应的区域中，获取目标人物对应的多个人体关键点。示例性的，如图4所示，图4示出了中心视频帧中目标人物对应的多个人体关键点，其中，中心视频帧为200，人体检测框为210，人体关键点为220。
60.s204，基于所述目标人物对应的人体检测框以及人体关键点，获取所述目标人物对应的躯干检测框。
61.在一个实施例中，动作识别装置，基于目标人物对应的人体检测框以及多个人体关键点，在中心视频帧中获取目标人物对应的多个躯干检测框。
62.示例性的，如图5所示，图5示出了中心视频帧中目标人物对应的多个躯干检测框，其中，中心视频帧为300，人体检测框为310，人体关键点为320，躯干检测框为330，需要说明的是，为了便于描述，图5仅示出了两个躯干检测框330，以及该躯干检测框330对应的人体关键点320。具体的，动作识别装置可以根据头顶关键点以及脖子关键点得到头部检测框，根据左肩关键点以及左手肘关键点得到左上臂检测框，根据左手肘关键点以及左手腕关键点得到左下臂检测框，根据右肩关键点以及右手肘关键点得到右上臂检测框，根据右手肘关键点以及右手腕关键点得到右下臂检测框等等，依次类推，在此便不进行一一举例。需要说明的是，示例中的头部检测框、左上臂检测框、左下臂检测框、右上臂检测框已经右下臂检测框统称为躯干检测框。
63.s205，确定所述中心视频帧中的至少一个物体对应的物体检测框。
64.在一个实施例中，动作识别装置采用检测框识别模型，基于中心视频帧，获取目标人物在中心视频帧中至少一个物体的物体检测框。
65.在本技术实施例中，通过获取多个躯干检测框，以在获取人物时空特征时，可以获取到人物的全局时空特征以及局部时空特征，从而通过局部时空特征来进一步筛选出目标人物的可能动作，示例性的，如打篮球与踢足球都是人体与球体相近，但是接触的躯干位置不同，则进行的运动不同，进而提高动作识别准确率。
66.可选的，由于中心视频帧中可能存在无法识别的物体，为了提高动作识别准确率，确定所述中心视频帧中的至少一个物体对应的物体检测框，可以包括以下步骤：
67.若所述中心视频帧中存在至少一个物体，则确定所述至少一个物体中各物体对应的物体检测框；
68.若所述中心视频帧中不存在物体，则确定所述中心视频帧的背景区域对应的物体检测框。
69.在一个实施例中，物体识别装置在通过检测框识别模型，获取中心视频帧中物体的物体检测框时，由检测框识别模型先确定中心视频帧中存在的至少一个物体以及该物体对应的区域位置，然后基于物体的区域位置，生成各物体对应的物体检测框。若检测识别模型在中心视频帧中未识别到物体，如水，则将中心视频帧中的背景区域，确定为中心视频帧中对应的物体检测框，可选的，可以将中心视频帧中的整个背景区域作为一个物体检测框，也可以将中心视频帧中的背景区域等比例划分为四个区域，从而得到四个物体检测框。
70.示例性的，在中心视频帧中不存在物体时，物体检测框的划分可以如图6所示，其中，中心视频帧为400，人体检测框为410，物体检测框为420。
71.在本技术实施例中，基于背景区域获取物体检测框，从而避免了由于物体过大时(物体占据了整个中心视频帧的整个区域)，由于无法有效地识别出物体而舍弃物体检测框，使得无法提取物体时空特征的情况，进而在基于人物时空特征以及物体时空特征进行动作识别时，通过物体时空特征来进一步筛选出目标人物的可能动作，提高了动作识别准确率。
72.s206，采用三维卷积神经网络，对所述目标视频进行特征提取，得到所述目标视频对应的视频时空特征。
73.在一个实施例中，三维卷积神经网络是一种视频特征提取模型，通过该模型可以有效的提取出目标视频中的视频时空特征。需要说明的是，三维卷积神经网络区别于常用的视频特征提取方式，无需逐帧进行特征提取。
74.动作识别装置在获取到目标视频对应的视频帧序列时，采用三维卷积神经网络，基于目标视频对应的视频帧序列进行特征提取，从而得到目标视频对应的视频时空特征。
75.在本技术实施例中，通过采用三维卷积神经网络，得到目标视频对应的视频时空特征，使得动作识别装置可以基于人物检测框以及物体检测框，在视频时空特征中进行特征提取，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
76.s207，基于所述人体检测框，在所述视频时空特征中提取所述目标人物对应的人物时空特征中的人体时空特征。
77.在一个实施例中，动作识别装置基于目标人物对应的人体检测框的区域位置，在视频时空特征中提取人体检测框对应的时空特征，然后将人体检测框对应的时空特征作为目标人物对应的人体时空特征。
78.s208，基于所述躯干检测框，在所述视频时空特征中提取所述目标人物对应的人物时空特征中的躯干时空特征。
79.在一个实施例中，动作识别装置基于目标人物对应的多个躯干检测框的区域位置，在视频时空特征中提取多个躯干检测框对应的时空特征，然后将多个躯干检测框对应的时空特征作为目标人物对应的多个躯干时空特征。
80.在本技术实施例中，通过人体检测框以及躯干检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
81.s209，基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征。
82.在一个实施例中，动作识别装置基于至少一个物体的物体检测框，在目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征。具体来说，由于物体检测框表示物体在中心视频帧中的具体位置，则可以基于物体的具体位置，在目标视频对应的视频时空特征中，提取该位置对应的时空特征作为物体时空特征。
83.s210，基于所述人物时空特征以及所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的交互关系。
84.在一个实施例中，交互关系是指人体与物体之间的交互关系。示例性的，如人体抱起物体、人体拍打物体、人体与物体无接触等，需要说明的是，前述举例仅用于辅助理解，并不代表人体与物体之间的交互关系仅为前述几种。
85.动作识别装置基于人物时空特征以及至少一个物体中各物体对应的物体时空特征，进行关系推理，从而得到获取目标人物与各物体之间的交互关系。
86.可选的，由于人物时空特征包括人体时空特征以及躯干时空特征，则基于所述人物时空特征以及所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的交互关系，可以包括以下步骤：
87.基于所述人物时空特征中的人体时空特征、所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的全局交互关系；
88.基于所述人物时空特征中的人体时空特征和躯干时空特征、所述各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的局部交互关系。
89.在一个实施例中，动作识别装置包括人体关系推理模型以及姿态关系推理模型，其中，人体关系推理模型用于获取人体与物体之间的全局交互关系，姿态关系推理模型用于获取人体中的多个躯干与物体之间的局部交互关系。
90.动作识别装置，采用人体关系推理模型，基于人体时空特征以及各物体对应的物体时空特征，获取目标人物与物体之间的全局交互关系；同时还采用姿态关系推理模型，基于人体时空特征、躯干时空特征以及各物体对应的物体时空特征，获取目标人物与各物体之间的局部交互关系。
91.示例性的，若目标视频中的目标人物在打篮球，则全局交互关系可以是人体拍打物体，多个局部交互关系分别是：头部与物体无接触、左上臂与物体无接触、左下臂无接触、右上臂与物体无接触、右下臂拍打物体等，需要说明的是，前述举例仅用于辅助理解，并不代表人体与物体之间的交互关系仅为前述几种。
92.可选地，该姿态关系推理模型还可以得到目标人物的躯干与目标视频中的其他人物之间的交互关系，则此时，动作识别装置是将目标视频中所有的人物时空特征以及物体时空特征输入至姿态关系推理模型，然后逐一获取多个人物中各目标人物与各物体之间的全局交互关系，目标人物中各躯干与各物体之间的局部交互关系，以及目标人物中各躯干与其他人物之间的局部交互关系。
93.在本技术实施例中，动作识别装置通过获取目标人物与各物体之间的全局交互关系以及多个局部交互关系，从而通过得到的全局交互关系以及多个局部交互关系，筛选出目标人物的可能动作，示例性的，如打篮球与踢足球都是人体与球体相近，但是接触的躯干位置不同，则进行的运动不同，进而提高动作识别准确率。
94.s211，基于所述目标人物与所述各物体之间的交互关系，获取所述目标人物对应的多个动作概率，所述动作概率为所述目标人物所执行的动作与多个动作类型中各动作类型之间的相似度。
95.在一个实施例中，动作识别装置中可以包括一个动作概率估计模型，该动作概率估计模型可以基于各交互关系，分析出目标人物所执行的动作为动作类型的概率。需要说
明的是，动作概率估计模型是基于大量的交互关系及其对应的动作类型进行模型训练，所得到的训练后的动作概率估计模型。示例性的，动作类型可以是转身，挥手、打篮球、踢足球、游泳等等，在此不做限定。
96.动作识别装置采用动作概率估计模型，基于目标人物与各物体之间的交互关系，获取目标人物对应的多个动作概率。
97.可选的，由于交互关系包括全局交互关系以及局部交互关系，基于所述目标人物与所述各物体之间的交互关系，获取所述目标人物对应的多个动作概率，可以包括以下步骤：
98.采用动作概率估计模型，基于所述人物时空特征、所述目标人物与所述各物体之间的全局交互关系和局部交互关系，获取所述目标人物对应的多个动作概率。
99.在一个实施例中，动作识别装置采用动作概率估计模型，基于人物时空特征，目标人物与各物体之间的全局交互关系以及多个局部交互关系，获取目标人物对应的多个动作概率。
100.在本技术实施例中，通过局部交互关系来进一步筛选出目标人物的可能动作，避免由于单独识别人物特征和全局交互信息而造成的识别错误，如人物在踢足球时，人物的脚部附近存在球体，但手部在上下挥舞，如果没有与物体之间的局部交互关系，容易识别成打篮球的动作，从而提高动作识别准确率。
101.s212，将所述多个动作概率中大于概率阈值的动作类型，作为所述目标人物所执行的动作。
102.在一个实施例中，动作识别装置获取动作概率估计模型输出的多个动作类型及其对应的动作概率，然后逐一比对动作概率与概率阈值，在多个动作概率中确定大于概率阈值的目标动作概率，然后将目标动作概率对应的动作类型作为目标人物所执行的动作。需要说明的是，若不存在大于概率阈值的动作概率，则判定目标人物未执行动作，或输出动作未识别的提示信息，该提示信息可用于提示用户人工识别目标人物的动作，也可以提示用户完善动作概率估计模型。
103.在本技术实施例中，通过各交互关系来筛选出目标人物的可能动作，避免由于单独识别人物特征而造成的识别错误，如人物的手肘在上下挥舞，如果没有与物体之间的交互关系，容易识别成挥手的动作，从而提高动作识别准确率。
104.下面将结合附图7-附图8本技术实施例提供的动作识别装置进行详细介绍。需要说明的是，附图7-附图8动作识别装置，用于执行本技术图1-图6所示实施例的方法，为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术图1-图6所示的实施例。
105.请参见图7，为本技术实施例提供了一种动作识别装置的结构示意图。如图7所示，本技术实施例的所述动作识别装置1可以包括：视频帧获取模块11、检测框确定模块12、特征获取模块13、动作识别模块14。
106.视频帧获取模块11，用于获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧；
107.检测框确定模块12，用于确定所述中心视频帧中的目标人物对应的人物检测框以
及所述中心视频帧中的至少一个物体对应的物体检测框，所述目标人物为所述中心视频帧的多个人物中的任意一个人物；
108.特征获取模块13，用于基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征；
109.所述特征获取模块13，还用于基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征；
110.动作识别模块14，用于基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作。
111.在本技术实施例中，通过确定目标视频中的中心视频帧，然后获取中心视频帧中的人物检测框以及物品检测框，该人物检测框和物体检测框可以表示出人物与物品在整个目标视频中的大概位置，以基于人物检测框以及物品检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
112.可选的，所述检测框确定模块12具体用于：
113.确定所述中心视频帧中的目标人物对应的人体检测框；
114.基于所述目标人物对应的人体检测框，获取所述目标人物对应的人体关键点；
115.基于所述目标人物对应的人体检测框以及人体关键点，获取所述目标人物对应的躯干检测框；
116.确定所述中心视频帧中的至少一个物体对应的物体检测框。
117.在本技术实施例中，通过获取多个躯干检测框，以在获取人物时空特征时，可以获取到人物的全局时空特征以及局部时空特征，从而通过局部时空特征来进一步筛选出目标人物的可能动作，示例性的，如打篮球与踢足球都是人体与球体相近，但是接触的躯干位置不同，则进行的运动不同，进而提高动作识别准确率。
118.可选的，所述检测框确定模块12具体用于：
119.若所述中心视频帧中存在至少一个物体，则确定所述至少一个物体中各物体对应的物体检测框；
120.若所述中心视频帧中不存在物体，则确定所述中心视频帧的背景区域对应的物体检测框。
121.在一个实施例中，物体识别装置在通过检测框识别模型，获取中心视频帧中物体的物体检测框时，由检测框识别模型先确定中心视频帧中存在的至少一个物体以及该物体对应的区域位置，然后基于物体的区域位置，生成各物体对应的物体检测框。若检测识别模型在中心视频帧中未识别到物体，如水，则将中心视频帧中的背景区域，确定为中心视频帧中对应的物体检测框，可选的，可以将中心视频帧中的整个背景区域作为一个物体检测框，也可以将中心视频帧中的背景区域等比例划分为四个区域，从而得到四个物体检测框。
122.可选的，所述特征获取模块13具体用于：
123.基于所述人体检测框，在所述视频时空特征中提取所述目标人物对应的人物时空特征中的人体时空特征；
124.基于所述躯干检测框，在所述视频时空特征中提取所述目标人物对应的人物时空
特征中的躯干时空特征。
125.在本技术实施例中，通过人体检测框以及躯干检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
126.可选的，所述动作识别模块14具体用于：
127.基于所述人物时空特征以及所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的交互关系；
128.基于所述目标人物与所述各物体之间的交互关系，获取所述目标人物对应的多个动作概率，所述动作概率为所述目标人物所执行的动作与多个动作类型中各动作类型之间的相似度；
129.将所述多个动作概率中大于概率阈值的动作类型，作为所述目标人物所执行的动作。
130.在本技术实施例中，通过各交互关系来筛选出目标人物的可能动作，避免由于单独识别人物特征而造成的识别错误，如人物的手肘在上下挥舞，如果没有与物体之间的交互关系，容易识别成挥手的动作，从而提高动作识别准确率。
131.可选的，所述动作识别模块14具体用于：基于所述人物时空特征中的人体时空特征、所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的全局交互关系；
132.基于所述人物时空特征中的人体时空特征和躯干时空特征、所述各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的局部交互关系。
133.在本技术实施例中，动作识别装置通过获取目标人物与各物体之间的全局交互关系以及多个局部交互关系，从而通过得到的全局交互关系以及多个局部交互关系，筛选出目标人物的可能动作，示例性的，如打篮球与踢足球都是人体与球体相近，但是接触的躯干位置不同，则进行的运动不同，进而提高动作识别准确率。
134.可选的，所述动作识别模块14具体用于：采用动作概率估计模型，基于所述人物时空特征、所述目标人物与所述各物体之间的全局交互关系和局部交互关系，获取所述目标人物对应的多个动作概率。
135.在本技术实施例中，通过局部交互关系来进一步筛选出目标人物的可能动作，避免由于单独识别人物特征和全局交互信息而造成的识别错误，如人物在踢足球时，人物的脚部附近存在球体，但手部在上下挥舞，如果没有与物体之间的局部交互关系，容易识别成打篮球的动作，从而提高动作识别准确率。
136.可选的，请参照图8，动作识别装置1还包括：特征提取模块15。
137.采用三维卷积神经网络，对所述目标视频进行特征提取，得到所述目标视频对应的视频时空特征。
138.在本技术实施例中，通过采用三维卷积神经网络，得到目标视频对应的视频时空特征，使得动作识别装置可以基于人物检测框以及物体检测框，在视频时空特征中进行特征提取，从而无需通过对目标视频进行逐帧处理，才能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效
率。
139.本技术实施例还提供了一种存储介质，所述存储介质可以存储有多条程序指令，所述程序指令适于由处理器加载并执行如上述图1-图6所示实施例的方法步骤，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。
140.请参见图9，为本技术实施例提供了一种计算机设备的结构示意图。如图9所示，所述计算机设备1000可以包括：至少一个处理器1001，至少一个通信总线1002，至少一个输入输出接口1003，至少一个网络接口1004和至少一个存储器1005。其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个计算机设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行终端1000的各种功能和处理数据。存储器1005可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。通信总线1002用于实现这些组件之间的连接通信。如图9所示，作为一种终端设备存储介质的存储器1005中可以包括操作系统、网络通信模块、输入输出接口模块以及动作识别程序。
141.在图9所示的计算机设备1000中，输入输出接口1003主要用于为用户以及接入设备提供输入的接口，获取用户以及接入设备输入的数据。
142.在一个实施例中。
143.处理器1001可以用于调用存储器1005中存储的动作识别程序，并具体执行以下操作：
144.获取目标视频中的中心视频帧，所述中心视频帧是所述目标视频对应的视频帧序列中位于中间位置的视频帧，所述视频帧序列中包括多个按采集顺序排列的所述视频帧；
145.确定所述中心视频帧中的目标人物对应的人物检测框以及所述中心视频帧中的至少一个物体对应的物体检测框，所述目标人物为所述中心视频帧的多个人物中的任意一个人物；
146.基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征；
147.基于所述物体检测框，在所述目标视频对应的视频时空特征中，获取所述至少一个物体对应的物体时空特征；
148.基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作。
149.可选的，所述处理器1001在执行所述确定所述中心视频帧中的目标人物对应的人物检测框以及所述中心视频帧中的至少一个物体对应的物体检测框时，具体执行以下操作：
150.确定所述中心视频帧中的目标人物对应的人体检测框；
151.基于所述目标人物对应的人体检测框，获取所述目标人物对应的人体关键点；
152.基于所述目标人物对应的人体检测框以及人体关键点，获取所述目标人物对应的躯干检测框；
153.确定所述中心视频帧中的至少一个物体对应的物体检测框。
154.可选的，所述处理器1001在执行所述确定所述中心视频帧中的至少一个物体对应
的物体检测框时，具体执行以下操作：
155.若所述中心视频帧中存在至少一个物体，则确定所述至少一个物体中各物体对应的物体检测框；
156.若所述中心视频帧中不存在物体，则确定所述中心视频帧的背景区域对应的物体检测框。
157.可选的，所述处理器1001在执行所述基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征时，具体执行以下操作：
158.基于所述人体检测框，在所述视频时空特征中提取所述目标人物对应的人物时空特征中的人体时空特征；
159.基于所述躯干检测框，在所述视频时空特征中提取所述目标人物对应的人物时空特征中的躯干时空特征。
160.可选的，所述处理器1001在执行所述基于所述人物时空特征以及所述物体时空特征，识别所述目标人物的动作时，具体执行以下操作：
161.基于所述人物时空特征以及所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的交互关系；
162.基于所述目标人物与所述各物体之间的交互关系，获取所述目标人物对应的多个动作概率，所述动作概率为所述目标人物所执行的动作与多个动作类型中各动作类型之间的相似度；
163.将所述多个动作概率中大于概率阈值的动作类型，作为所述目标人物所执行的动作。
164.可选的，所述处理器1001在执行所述基于所述人物时空特征以及所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的交互关系时，具体执行以下操作：
165.基于所述人物时空特征中的人体时空特征、所述至少一个物体中各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的全局交互关系；
166.基于所述人物时空特征中的人体时空特征和躯干时空特征、所述各物体对应的物体时空特征，获取所述目标人物与所述各物体之间的局部交互关系。
167.可选的，所述处理器1001在执行所述基于所述目标人物与所述各物体之间的交互关系，获取所述目标人物对应的多个动作概率时，具体执行以下操作：
168.采用动作概率估计模型，基于所述人物时空特征、所述目标人物与所述各物体之间的全局交互关系和局部交互关系，获取所述目标人物对应的多个动作概率。
169.可选的，所述处理器1001在执行所述基于所述人物检测框，在所述目标视频对应的视频时空特征中，获取所述目标人物对应的人物时空特征之前，还执行以下操作：
170.采用三维卷积神经网络，对所述目标视频进行特征提取，得到所述目标视频对应的视频时空特征。
171.在本技术实施例中，通过确定目标视频中的中心视频帧，然后获取中心视频帧中的人物检测框以及物品检测框，该人物检测框和物体检测框可以表示出人物与物品在整个目标视频中的大概位置，以基于人物检测框以及物品检测框，直接在目标视频对应的视频时空特征中提取出用于动作识别的相关特征，从而无需通过对目标视频进行逐帧处理，才
能得到各视频帧中的有效特征(即人物特征以及物品特征)，进而减少了动作识别过程中繁杂的图像处理过程，提高了动作识别效率。
172.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
173.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
174.以上为对本技术所提供的一种动作识别方法、装置、存储介质及设备的描述，对于本领域的技术人员，依据本技术实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈诗敏陈忱陶训强何苗郭彦东
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。