视频识别方法、设备和存储介质与流程

文档序号:35419313发布日期:2023-09-12 23:46阅读:50来源:国知局
视频识别方法、设备和存储介质与流程

本发明涉及人工智能,尤其涉及一种视频识别方法、设备和存储介质。


背景技术:

1、利用人工智能技术已经能够实现视频识别也即是识别视频中对象的姿态。视频识别可以应用在众多场景中,比如在虚拟现实(vi rtual real ity,简称vr)、增强现实(augmented real ity,简称ar)、混合现实(mixed real ity,简称mr)等在内的扩展现实(extended real ity,简称xr)场景,此场景中通过识别视频中的用户动作以实现与用户之间的体感交互。又比如安防场景,通过对摄像头采集到的安防视频进行识别以确定视频中是否存在可疑人员等等。

2、因此,在视频识别的实际使用过程中,如何提高视频识别的准确性就成为一个亟待解决的问题。


技术实现思路

1、有鉴于此,本发明实施例提供一种视频识别方法、设备和存储介质,用以保证视频识别的准确率。

2、第一方面,本发明实施例提供一种视频识别方法,包括:

3、获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;

4、根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;

5、根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。

6、第二方面,本发明实施例提供一种视频识别方法,包括:

7、响应于作用在操作界面上的输入指令,获取待识别视频;

8、获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征;

9、根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;

10、根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频的识别结果。

11、在所述操作界面上显示所述识别结果。

12、第三方面,本发明实施例提供一种视频识别方法,应用于增强现实ar设备或者虚拟现实vr设备,包括:

13、采集包含用户动作的待识别视频;

14、获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧征;

15、根据所述视频帧特征,确定所述待识别视频对应的时序提示信息;

16、根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征,确定所述待识别视频包含的动作信息;

17、显示与所述动作信息对应的图像。

18、第四方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面至第三方面中任一方面的视频识别方法。该电子设备还可以包括通信接口,用于与其他设备或通信系统通信。

19、第五方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如上述第一方面至第三方面中任一方面的视频识别方法。

20、本发明实施例提供的视频识别方法中,识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同视频帧在时序上的关联,即能够反映不同视频帧之间的上下文信息。然后,识别设备确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息以及高层特征实现待识别视频的识别。

21、上述过程中,语义提示信息和时序提示信息共同用来引导识别设备对视频的识别方向。相比于图像,视频是一种动态影像,因此,利用语义和上下文信息两种提示信息能够为识别设备提供更加准确、丰富的引导方向,从而使识别设备能够更加准确地进行视频识别。



技术特征:

1.一种视频识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述低层特征中目标低层特征对应的语义提示信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述视频帧特征,确定所述待识别视频的时序提示信息,包括:

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,第一提示信息池中同一信息索引指向一组提示信息,所述一组提示信息包括语义提示信息和文本提示信息;

7.根据权利要求5所述的方法,其特征在于,所述将所述待识别视频对应的语义提示信息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型,包括:

8.根据权利要求7所述的方法,其特征在于,所述识别模型包括第一编码器和第二编码器;

9.根据权利要求6所述的方法,其特征在于,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述方法还包括:

11.一种视频识别方法,其特征在于,包括:

12.一种视频识别方法,其特征在于,应用于增强现实ar设备或者虚拟现实vr设备,包括:

13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1~12中任一项所述的视频识别方法。

14.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1~12中任一项所述的视频识别方法。


技术总结
本发明实施例提供一种视频识别方法、设备和存储介质,该方法包括:识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中,高层特征用于反映待识别视频的整体语义,多个视频帧各自的视频帧特征反映待识别视频不同帧在时序上的上下文关系。然后,确定待识别视频对应的语义提示信息和时序提示信息,并最终根据两种提示信息以及高层特征实现待识别视频的识别。其中,语义提示信息和时序提示信息可以作为提示用来引导识别设备利用高层特征进行视频识别的方向。上述过程中,利用语义和上下文信息两种提示信息能够为识别设备提供更加准确、丰富的引导方向,从而使识别设备能够更加准确地进行视频识别。

技术研发人员:裴逸璇,张士伟,张迎亚,吕逸良,赵德丽
受保护的技术使用者:阿里巴巴达摩院(杭州)科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1