动作识别方法、模型训练方法及装置与流程

文档序号：34604248发布日期：2023-06-29 02:24阅读：49来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开涉及人工智能，尤其涉及计算机视觉、深度学习、增强现实、虚拟现实等，可应用于元宇宙、数字人等场景，具体涉及一种动作识别方法及装置、动作匹配模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、动作捕捉(motion capture，简称mocap)指的是记录运动对象(例如人、动物等)在实际三维空间中的动作，并将该动作重构为虚拟三维空间中的数字模型(例如数字人)。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种动作识别方法及装置、动作匹配模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种动作识别方法，包括：获取视频中的当前视频帧，所述视频包括待识别的对象；确定所述对象在所述当前视频帧中的第一姿态信息；基于所述当前视频帧之前的多个历史视频帧，对所述第一姿态信息进行修正，以得到第二姿态信息；以及基于所述第二姿态信息，确定所述对象在所述当前视频帧中的动作。

3、根据本公开的一方面，提供了一种动作匹配模型的训练方法，包括：获取样本姿态信息序列以及所述样本姿态信息序列对应的姿态标签，所述样本姿态信息序列对应于样本对象的动作序列，所述动作序列包括多个动作，所述样本姿态信息序列包括与所述多个动作分别对应的多个样本姿态信息，所述姿态标签包括所述多个动作中的最后一个动作的真实姿态信息；将所述样本姿态信息序列输入所述动作匹配模型，以得到所述动作匹配模型输出的所述最后一个动作的预测姿态信息；至少基于所述预测姿态信息和所述真实姿态信息，确定所述动作匹配模型的损失值；以及基于所述损失值，调整所述动作匹配模型的参数。

4、根据本公开的一方面，提供了一种动作识别装置，包括：获取单元，被配置为获取视频中的当前视频帧，所述视频包括待识别的对象；第一确定单元，被配置为确定所述对象在所述当前视频帧中的第一姿态信息；修正单元，被配置为基于所述当前视频帧之前的多个历史视频帧，对所述第一姿态信息进行修正，以得到第二姿态信息；以及第二确定单元，被配置为基于所述第二姿态信息，确定所述对象在所述当前视频帧中的动作。

5、根据本公开的一方面，提供了一种动作匹配模型的训练装置，包括：获取单元，被配置为获取样本姿态信息序列以及所述样本姿态信息序列对应的姿态标签，所述样本姿态信息序列对应于样本对象的动作序列，所述动作序列包括多个动作，所述样本姿态信息序列包括与所述多个动作分别对应的多个样本姿态信息，所述姿态标签包括所述多个动作中的最后一个动作的真实姿态信息；输入单元，被配置为将所述样本姿态信息序列输入所述动作匹配模型，以得到所述动作匹配模型输出的所述最后一个动作的预测姿态信息；确定单元，被配置为至少基于所述预测姿态信息和所述真实姿态信息，确定所述动作匹配模型的损失值；以及调整单元，被配置为基于所述损失值，调整所述动作匹配模型的参数。

6、根据本公开的一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一方面的方法。

7、根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述任一方面的方法。

8、根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器执行时实现上述任一方面的方法。

9、根据本公开的一个或多个实施例，能够提高动作识别的准确性。

10、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种动作识别方法，包括：

2.根据权利要求1所述的方法，其中，所述确定所述对象在所述当前视频帧中的第一姿态信息包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述当前视频帧之前的多个历史视频帧，对所述第一姿态信息进行修正，以得到第二姿态信息包括：

4.根据权利要求3所述的方法，其中，所述基于所述多个历史视频帧中的每个历史视频帧中的所述对象的第三姿态信息，对所述第一姿态信息进行修正，以得到所述第二姿态信息包括：

5.根据权利要求4所述的方法，其中，所述关联关系由经训练的动作匹配模型表示，并且其中，所述基于预设的历史姿态信息序列与当前姿态信息的关联关系，确定所述目标姿态信息序列对应的所述第二姿态信息包括：

6.根据权利要求1-5中任一项所述的方法，其中，所述第二姿态信息包括所述对象的多个关键点各自的第二关键点姿态信息，并且其中，基于所述第二姿态信息，确定所述对象在所述当前视频帧中的动作包括：

7.根据权利要求1-6中任一项所述的方法，还包括：

8.一种动作匹配模型的训练方法，包括：

9.根据权利要求8所述的方法，其中，所述获取样本姿态信息序列包括：

10.根据权利要求8或9所述的方法，其中，所述动作匹配模型包括位置检测模块和姿态检测模块，所述样本姿态信息包括所述样本对象的多个关键点各自的关键点姿态信息，所述将所述样本姿态信息序列输入所述动作匹配模型，以得到所述动作匹配模型输出的所述最后一个动作的预测姿态信息包括：

11.根据权利要求10所述的方法，其中，所述姿态标签包括所述多个关键点各自的真实位置信息、真实速度、真实关键点姿态信息和真实角速度，所述至少基于所述预测姿态信息和所述真实姿态信息，确定所述动作匹配模型的损失值包括：

12.一种动作识别装置，包括：

13.根据权利要求12所述的装置，其中，所述第一确定单元包括：

14.根据权利要求12或13所述的装置，其中，所述修正单元进一步被配置为：

15.根据权利要求14所述的装置，其中，所述修正单元包括：

16.根据权利要求15所述的装置，其中，所述关联关系由经训练的动作匹配模型表示，并且其中，所述确定子单元进一步被配置为：

17.一种动作匹配模型的训练装置，包括：

18.一种电子设备，包括：

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-11中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现权利要求1-11中任一项所述的方法。

技术总结
本公开提供了一种动作识别方法、模型训练方法及装置，涉及人工智能技术领域，具体为计算机视觉、深度学习、增强现实、虚拟现实等技术领域，可应用于元宇宙、数字人等场景。实现方案为：获取视频中的当前视频帧，视频包括待识别的对象；确定对象在当前视频帧中的第一姿态信息；基于当前视频帧之前的多个历史视频帧，对第一姿态信息进行修正，以得到第二姿态信息；以及基于第二姿态信息，确定对象在当前视频帧中的动作。

技术研发人员：陈毅,郭紫垣,赵亚飞,范锡睿,张世昌,王志强,杜宗财
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈毅郭紫垣赵亚飞范锡睿张世昌王志强杜宗财
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种Flash芯片的操作方法及装置与流程
上一篇：用于处理基板的设备及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。