本公开提供了一种视频处理方法、装置、设备、存储介质和程序产品,涉及人工智能,具体为深度学习和视频处理。
背景技术:
1、随着计算机技术的蓬勃发展,人工智能技术也得到了迅速发展。
2、目前,采集级联方式对原始视频依次进行镜头切分和场景切分,场景切分结果受镜头切分结果的影响,场景切分准确度较低。
技术实现思路
1、本公开提供了一种视频处理方法、装置、设备、存储介质和程序产品。
2、本公开的一方面,提供一种视频处理方法,包括:
3、对原始视频进行镜头切分,得到所述原始视频对应的多个镜头;
4、对所述镜头的镜头特征进行全局语义学习,得到所述镜头的全局语义特征;
5、根据所述镜头的所述全局语义特征,对所述原始视频进行场景切分,得到场景切分结果。
6、本公开的另一方面,还提供一种视频处理装置,包括:
7、镜头切分模块,对原始视频进行镜头切分,得到所述原始视频对应的多个镜头;
8、语义学习模块,对所述镜头的镜头特征进行全局语义学习,得到所述镜头的全局语义特征;
9、场景切分模块,根据所述镜头的所述全局语义特征,对所述原始视频进行场景切分,得到场景切分结果。
10、本公开的另一方面,还提供一种电子设备,包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
14、本公开的另一方面,还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
15、本公开的另一方面,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述的方法中的步骤。
16、在本公开的一些实施例中,对原始视频进行镜头切分,得到原始视频对应的多个镜头;对镜头的镜头特征进行全局语义学习,得到镜头的全局语义特征;根据镜头的全局语义特征,对原始视频进行场景切分,得到场景切分结果,场景切分结果基于镜头的全局语义特征进行切分,而非基于镜头切分结果的基础上再进行场景切分,场景切分结果不受镜头切分结果的影响,提升场景切分准确度。
17、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种视频处理方法,包括:
2.根据权利要求1所述的方法,其中,所述对原始视频进行镜头切分,得到所述原始视频对应的多个镜头,包括:
3.根据权利要求2所述的方法,其中,所述将所述视频片段输入深度学习网络中,得到所述视频片段中包含的镜头切分点图片帧,包括:
4.根据权利要求1所述的方法,其中,所述对所述镜头的镜头特征进行全局语义学习,得到所述镜头的全局语义特征,包括:
5.根据权利要求1所述的方法,其中,所述根据所述镜头的所述全局语义特征,对所述原始视频进行场景切分,得到场景切分结果,包括:
6.根据权利要求1所述的方法,其中,所述镜头的镜头特征为所述镜头的中间图片帧的图片特征。
7.一种视频处理装置,包括:
8.根据权利要求7所述的装置,其中,所述镜头切分模块在对原始视频进行镜头切分,得到所述原始视频对应的多个镜头时,用于:
9.根据权利要求8所述的装置,其中,所述镜头切分模块在将所述视频片段输入深度学习网络中,得到所述视频片段中包含的镜头切分点图片帧时,用于:
10.根据权利要求7所述的装置,其中,所述语义学习模块在对所述镜头的镜头特征进行全局语义学习,得到所述镜头的全局语义特征时,用于:
11.根据权利要求7所述的装置,其中,所述场景切分模块在根据所述镜头的所述全局语义特征,对所述原始视频进行场景切分,得到场景切分结果时,用于:
12.根据权利要求7所述的装置,其中,所述镜头的镜头特征为所述镜头的中间图片帧的图片特征。
13.一种电子设备,包括:
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据权利要求1-6中任一项所述的方法中的步骤。