视频处理方法、装置及电子设备与流程

文档序号:32751815发布日期:2022-12-31 01:17阅读:29来源:国知局
视频处理方法、装置及电子设备与流程

1.本发明涉及影像处理的技术领域,尤其是涉及一种视频处理方法、装置及电子设备。


背景技术:

2.真人影像合成通常指的是给定一段输入的语音,合成一段真人影像视频,且,该视频中的人物说话口型与输入的语音相吻合,以便于使合成的真人影像视频具有非常高的清晰度和逼真度。
3.目前,真人影像合成技术在许多领域都有广泛的应用,比如在新闻领域可以作为虚拟主持人做新闻播报的工作,在金融领域可以作为虚拟客服引导顾客操作业务等等,但是,目前的真人影像合成过程多是提前录制的,难以进行实时交互,并且,在合成过程中,往往不考虑人物的动作,导致合成的真人影像的合成效果不明显。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种视频处理方法、装置及电子设备,以缓解上述技术问题。
5.第一方面,本发明实施例提供了一种视频处理方法,包括:获取待合成语音数据以及目标对象的视频数据;提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;基于所述目标帧输出所述视频数据对应的目标影像。
6.第二方面,本发明实施例提供了一种视频处理装置,包括:获取模块,用于获取待合成语音数据以及目标对象的视频数据;提取模块,用于提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;融合模块,用于将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;输出模块,用于基于所述目标帧输出所述视频数据对应的目标影像。
7.第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
8.第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
9.本发明实施例带来了以下有益效果:
10.本发明实施例提供的视频处理方法、装置及电子设备,能够获取待合成语音数据以及目标对象的视频数据;提取待合成语音数据包含的语音帧,以及,按照预先设置的视频
帧选择策略从视频数据中提取与语音帧对应的视频帧;并将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,生成视频帧对应的目标帧;进而基于目标帧输出视频数据对应的目标影像,并且,在融合处理过程中参考了视频帧的脸部特征参数和姿态参数,可以使输出的目标影像中包含有全身的动作,如手势、头部运动等等,使得最终合成的目标影像更像生动逼真。
11.本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
12.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
13.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1为一种真人影像合成技术的示意图;
15.图2为本发明实施例提供的一种视频处理方法的流程图;
16.图3为本发明实施例提供的一种视频处理方法的完整流程图;
17.图4为本发明实施例提供的一种视频数据预处理过程示意图;
18.图5为本发明实施例提供的一种语音数据预处理过程示意图;
19.图6为本发明实施例提供的一种视频帧选择与处理过程示意图;
20.图7为本发明实施例提供的一种视频帧生成过程示意图;
21.图8为本发明实施例提供的一种视频处理装置的示意图;
22.图9为本发明实施例提供的另一种视频处理装置的示意图;
23.图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.目前,真人影像合成技术的实现如图1所示,给定一段输入语音,采取真人影像合成技术合成一段真人影像视频,其目的是使合成的视频中的人物说话口型与输入语音相吻合,且合成的真人影像视频具有非常高的清晰度和逼真度。但是,目前的真人影像合成技术多是在离线状态下进行的真人影像合成,难以进行实时交互,并且,在合成过程中通常只考虑输入语音的口型,并没有加入全身动作,导致合成的真人影像逼真效果不明显。
26.基于此,本发明实施例提供的一种视频处理方法、装置及电子设备,可以实现流式的真人影像合成功能,并充分考虑人物的动作,使得合成的真人影像更加生动逼真。
27.为便于对本实施例进行理解,首先对本发明实施例所公开的一种视频处理方法进行详细介绍。
28.在一种可能的实施方式中,本发明实施例提供了一种视频处理方法,具体地,该方法可以应用于视频处理设备,也可以应该于与视频处理设备通信的服务器,以便于执行本发明实施例提供的视频处理方法,图2示出了一种视频处理方法的流程图,如图2所示,包括以下步骤:
29.步骤s202,获取待合成语音数据以及目标对象的视频数据;
30.其中,上述待合成语音数据可以是目标对象的视频数据经过融合之后得到的最终的语音数据,即,目标影像最终输出的语音为该待合成语音数据。目标对象可以是主播、主持人、演员等。该视频数据通常是在数据准备与预处理阶段对目标对象进行视频录制得到的,例如,假设目标对象是一个演员,则可以录制20分钟左右的视频,作为本发明实施例中的视频数据,并且,该视频数据的录制过程可以是实时录制的,也可以是提前录制的。对于实时录制的视频数据,本发明实施例提供的视频处理方法可以流式地合成真人影像,实现实时的交互,对于提前录制的视频数据,也可以得到流畅的真人影像。
31.步骤s204,提取待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从视频数据中提取与语音帧对应的视频帧;
32.其中,该步骤中使用的视频帧选择策略是为了从视频数据中提取合适的视频帧,以约束当待合成语音数据中的语音帧没有语音时,选择出的视频帧不包括动作,例如,可以使选择的合适的视频帧在待合成语音数据中的语音帧没有语音时,手部或全身的动作可以快速的取消变成平稳的状态,以保证步骤s208中合成的目标影像更加自然流畅,而基于该视频帧选择策略的具体的提取方式可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
33.步骤s206,将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,生成视频帧对应的目标帧;
34.在该步骤中,由于融合处理过程中,是将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,因此,得到的目标帧可以与视频数据的目标对象的动作一致且与待合成语音数据对应的口型参数一致;
35.步骤s208,基于目标帧输出视频数据对应的目标影像。
36.具体实现时,由于步骤s204中提取的语音帧时,通常是逐帧进行的,即,从待合成语音数据的首帧开始,逐帧进行提取,因此,可以实现实时地进行流式影像合成。
37.进一步,上述视频帧的脸部特征参数可以保证合成的目标帧与目标对象为同一个对象,例如,相同的人物,因此,上述脸部特征参数通常面部五官特征的参数,如五官轮廓,以及,面部关键点坐标参数等等,进而保证合成的目标帧与目标对象具有相同的面部图像,例如,是同一个人物对象,而不会出现较大的畸变;
38.进一步,上述步骤s206中的姿态参数通常可以是头部姿态参数和手势姿态参数,这样,在进行融合处理时,可以使目标帧以及基于目标帧输出的视频数据对应的目标影像与目标对象具有相同的头部动作和手势动作,使得最终输出的目标影像更加逼真和生动,同时,由于语音帧是逐帧进行提取的,因此,在按照视频帧选择策略选取视频帧时,也可以逐帧进行,以保证生成的目标帧与待合成语音数据的口型参数一致,进而有助于达到实时
的要求。
39.由于上述步骤s204和步骤s206是依次针对待合成语音数据包含的语音帧和视频数据所包括的视频帧进行的逐帧处理,因此,对于所处理的每个视频帧,都可以得到一个目标帧,步骤s208是输出过程,实际是对每个视频帧进行整合过程,以实现最终输出完整的合成的目标影像。
40.本发明实施例提供的视频处理方法,能够获取待合成语音数据以及目标对象的视频数据;提取待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从视频数据中提取与语音帧对应的视频帧;并将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,生成视频帧对应的目标帧;进而基于目标帧输出视频数据对应的目标影像,并且,在融合处理过程中参考了视频帧的脸部特征参数和姿态参数,可以使输出的目标影像中包含有全身的动作,如手势、头部运动等等,使得最终合成的目标影像更像生动逼真。
41.在实际使用时,为了便于提取待合成语音数据包含的语音帧和视频数据的视频帧,通常可以对所使用的视频参数和待合成语音数据进行预处理,其中,对于上述待合成语音数据,可以在获取到待合成语音数据之后,将待合成语音数据输入至预先训练好的口型参数模型中,通过口型参数模型输出待合成语音数据对应的口型参数;然后将待合成语音数据与口型参数一并存储至语音数据库,以便于在执行上述步骤s204和步骤s206时,能够直接从语音数据库中去提取待合成语音数据的口型参数。
42.其中,本发明实施例中所使用的口型参数模型为预先训练好的一维卷积神经网络模型,且,该一维卷积神经网络模型通过学习输入语音到口型参数的映射关系的数据集得到的。具体实现时,可以预先构建该一维卷积神经网络模型,以及包含有输入语音到口型参数的映射关系的数据集,使用该一维卷积神经网络模型对数据集进行学习,可以使一维卷积神经网络模型学习到对输入语音输出对应的口型参数的能力,并且,为了达到流式实时性的要求,该一维卷积神经网络模型在学习输出口型参数时,可以设置为一帧一帧的进行处理,具体的一维卷积神经网络模型的结构,以及数据集的构建过程可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
43.进一步,对于目标对象的视频数据,可以也可以预先提取视频数据中每个视频帧的脸部特征参数、姿态参数、人脸口型参数等视频参数;然后将视频数据以及每个视频帧的视频参数存储至预设的视频帧数据库。
44.这样,步骤s206中,可以直接从视频帧数据库中提取到视频帧的脸部特征参数和姿态参数。
45.进一步,对于上述视频帧,还可以进一步对视频帧进行标记,例如,按照视频播放顺序,逐帧标记每个视频帧,具体地,可以判断视频帧是否包含有全身动作,如果是,则为视频帧标记动作标签;如果视频帧不包含有全身动作,则可以为视频帧标记静音标签,以便于在步骤s204中,使用视频帧选择策略从视频帧数据库中选择合适的视频帧。
46.进一步,基于上述视频帧数据库,在上述步骤s204中,提取与语音帧对应的视频帧时,并不是对所有的视频帧都进行合成处理,而是有一定的视频帧选择策略,即,是按照预先设置的视频帧选择策略从视频数据中提取的视频帧,该视频帧选择策略通常是基于上述对每个视频帧的标记结果实现的,以便于每次可以从视频帧数据库中选择一帧合适的视频
帧进行合成处理。
47.具体地,本发明实施例中,上述步骤s204在提取视频帧时,需要检测当前语音帧的帧状态,然后基于帧状态,按照预先设置的视频帧选择策略从视频数据中逐帧提取与语音帧对应的视频帧。
48.具体地,本发明实施例中,帧状态包括静音状态或者说话状态中的任意一种;在提取视频帧时,如果语音帧的帧状态是说话状态,则将视频数据中的当前帧确定为语音帧对应的视频帧;如果语音帧的帧状态是静音状态,则选择视频数据中距离当前视频帧最近的标记有静音标签的视频帧作为语音帧对应的视频帧。也即,本发明实施例中,在提取视频帧进行融合处理时,其基本原理是约束当没有语音的时候,即待合成语音数据为静音的时候,选择出来的视频帧不包含全身的动作,这样,最后生成的目标影像会更加的自然。
49.上述对视频帧进行标记时所标记的动作标签和静音标签,通常可以指示当前视频帧是否有动作,而待合成语音数据通常也是一帧一帧处理的,即,每提取一个待合成语音数据包含的语音帧,对应的都会按照视频帧选择策略提取与语音帧对应的视频帧,如果语音帧的帧状态是说话状态,则直接选取当前的视频帧进行融合处理,如果语音帧的帧状态是静音状态,则按照视频帧选择策略提取视频帧时,需要往最近的标记有静音标签的视频帧的方向前进,这样可以保证在检测到待合成语音数据为静音状态下,手部或全身动作可以快速的取消变成平稳的状态,以使合成的目标影像更加自然流畅。
50.以一段20分钟的视频数据和待合成语音数据为例进行说明,在使用本发明实施例提供的视频处理方法时,在执行步骤s204中,可以先提取第一帧的语音帧,在按照视频帧选择策略提取视频帧时,也是先提取第一帧的视频帧,如果语音帧的帧状态是说话状态则此时的第一帧的视频帧就是符合视频帧选择策略的,如果语音帧的帧状态是静音状态,且,第一帧的视频帧标记有静音标签,则此时的视频帧也是符合视频帧选择策略的,如果第一帧的视频帧标记有动作标签,则该视频帧不符合视频帧选择策略,按照视频帧选择策略,会继续选择第二帧视频帧,如果第二帧的视频帧标记有静音标签,则第二帧就是符合视频帧选择策略,如果第二帧的视频帧标记有动作标签,则会继续选择第三帧视频帧,直至选择出符合视频帧选择策略的视频帧;如果对于中间帧的视频数据,在按照视频帧选择策略提取视频帧时,会同时考虑前一帧和后一帧的视频帧,进而选择视频数据中距离当前视频帧最近的标记有静音标签的视频帧作为语音帧对应的视频帧。具体可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
51.进一步,上述步骤s206中,在生成视频帧对应的目标帧时,需要先基于语音帧的口型参数、视频帧的脸部特征参数和姿态参数生成视频帧对应的预合成图像;然后对预合成图像进行融合处理,进而生成视频帧对应的目标帧。
52.具体地,在生成预合成图像时,可以将语音帧的口型参数、视频帧的脸部特征参数和姿态参数作用于预先建立的初始三维人脸模型,得到三维人脸形变模型;然后将三维人脸形变模型的面部关键点投影到视频帧,以得到视频帧对应的预合成图像。此时的预合成图像中的人脸口型参数已经被语音帧的口型参数替换,进而可以和语音帧的口型参数一致。
53.其中,上述生成预合成图像所使用的初始三维人脸模型,实际的作用是将语音帧的口型参数转换为视频帧中嘴巴部位的关键点,同时,将所选取的视频帧中的嘴巴区域使
用掩码消除掉,将嘴巴部位的关键点以轮廓线的形式画到视频帧中,因此,此时的预合成图像中目标对象的嘴巴部位的关键点实际是一个相对模糊的状态,因此,还需要进一步对预合成图像进行进一步的融合处理。其中,本发明实施例中,对预合成图像进行的融合处理过程是基于预先建立的图像合成卷积神经网络实现的,具体地,是将预合成图像输入至预先建立的图像合成卷积神经网络,通过图像合成卷积神经网络对预合成图像进行融合处理,以得到视频帧对应的目标帧,其中,本发明实施例中,图像合成卷积神经网络为预先训练好的u型卷积神经网络模型,该模型在处理时,通常也是针对单帧进行的,因此,该u型卷积神经网络模型也可以满足流式实时性的要求。
54.进一步,为了便于理解,图3还示出了一种视频处理的完整流程图,其中,图3中,包括了四个处理过程:视频数据预处理过程、语音数据预处理过程、视频帧选择与处理过程和目标影像生成过程,进一步,对应于图3所示的完整流程图,图4~图7分别示出了每个过程的详细处理过程,其中,图4示出的是视频数据预处理过程示意图,图5示出的是语音数据预处理过程示意图,图6示出的是视频帧选择与处理过程示意图,图7示出的是目标影像生成过程示意图。
55.具体地,如图4所示,对于视频数据的预处理过程,包括视频数据的录制和视频参数提取的过程,具体地,在录制时,选定好演员后,通常可以录制一段带有绿幕的视频,如20分钟的视频数据,录制完成后,利用三维人脸重建技术计算出视频数据中每个视频帧的人脸口型参数、脸部特征参数和姿态参数(如,手势、头部姿态参数等)。
56.进一步,图5中示出了语音数据的预处理过程,该过程中,本发明实施例使用的是预先训练好的口型参数模型,具体地,本发明实施例使用的是一维卷积神经网络模型,通过该模型每对输入的待合成语音数据可以直接合成口型参数,为了达到流式实时性的要求,该合成口型参数的过程也是一帧一帧的合成的,并且,上述图4中,在录制过程会产生大量的语音和人脸口型参数相互配对的数据,这些数据都可以作为训练一维卷积神经网络模型的数据集中的数据,使一维卷积神经网络模型学习到输入语音到口型参数的映射关系,进而可以生成本发明实施例中使用的口型参数模型。
57.进一步,图6中所示的视频帧选择与处理过程中,使用的是三维人脸模型,该三维人脸模型的输入包括两部分:第一部分是视频数据的预处理过程输出的视频数据,此时的视频数据包括所有的视频帧,以及每一个视频帧的人脸口型参数、脸部特征参数和姿态参数;第二部分是语音数据的预处理过程输出的待合成语音数据的口型参数。在视频帧选择与处理过程中,执行的是上述图2中步骤s204~步骤s208的过程,具体地,首选按照上述视频帧选择策略从第一部分的输入数据中选择合适的视频帧,以及,提取视频帧的脸部特征参数和姿态参数,然后将第二部分中对应的待合成语音数据的口型参数,以及第一部分中的脸部特征参数和姿态参数作用于初始三维人脸模型,得到三维人脸形变模型,再使用透视投影的方法,如弱透视投影技术等,将三维人脸形变模型的面部关键点投影到从第一部分中所选择的视频帧上,得到预合成图像,可以看到此时在预合成图像中,面部的区域已经被更改,而且更改后的口型和输入的待合成语音数据的口型参数的口型是一致的。
58.进一步,图7中,是对图6输出的预合成图像进行融合处理的过程,本发明实施例中,该过程使用了u型卷积神经网络模型,具体的操作过程如图7所示,其主要目的是将预合成图像经过u型卷积神经网络模型得到目标帧,由于上述u型卷积神经网络模型是单帧生成
的,所以该过程也能够满足流式实时性的要求,且,此时合成的目标帧中的口型已经和待合成语音数据的语音帧保持一致。
59.进一步,在实际使用时,本发明实施例中的上述目标对象的视频数据为在预设背景下录制的视频数据;例如,图4中视频数据是在带有绿幕的场景下进行录制的,因此,经过上述图5~图7的过程,得到的目标帧通常也是带有预设背景的,例如,带有绿幕,因此,本发明实施例中,在生成视频帧对应的目标帧之后,还可以对目标帧进行去背景处理,得到该目标帧对应的去背景目标帧,即,最终的帧图像。
60.具体地,对应于图7中,可以经过一个扣绿幕的操作,将合成的真人影像目标帧转变为最终的帧图像,可以看到最终的帧图像中包含有无色的背景,并且,该最终的帧图像还可以与用户指定的背景相结合作为产品的终端输出。具体的背景处理方式可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
61.综上,通过上述图4~图7的过程,可以实现流式的目标影像的合成功能,可以实时的目标影像,使得整个过程具有实时交互的功能。同时,通过相应的视频帧选择策略,可以保证合成的目标影像中包含有全身的动作,如手势和头部运动等,使得合成的目标影像更加生动逼真。
62.进一步,对应于上述视频处理方法,本发明实施例还提供了一种视频处理装置,如图8所示的一种视频处理装置的示意图,包括:
63.获取模块80,用于获取待合成语音数据以及目标对象的视频数据;
64.提取模块82,用于提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;
65.融合模块84,用于将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;
66.输出模块86,用于基于所述目标帧输出所述视频数据对应的目标影像。
67.进一步,上述提取模块82还用于:检测所述语音帧的帧状态;基于所述帧状态,按照预先设置的所述视频帧选择策略从所述视频数据中逐帧提取与所述语音帧对应的视频帧。
68.其中,本发明实施例中,帧状态包括静音状态或者说话状态中的任意一种;
69.上述基于所述帧状态,按照预先设置的所述视频帧选择策略从所述视频数据中逐帧提取与所述语音帧对应的视频帧的步骤,包括:
70.如果所述语音帧的帧状态是说话状态,则将所述视频数据中的当前帧确定为所述语音帧对应的视频帧;如果所述语音帧的帧状态是静音状态,则选择所述视频数据中距离当前视频帧最近的标记有静音标签的视频帧作为所述语音帧对应的视频帧。
71.进一步,上述融合模块84,还用于:基于所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数生成所述视频帧对应的预合成图像;对所述预合成图像进行融合处理,生成所述视频帧对应的目标帧。
72.其中,基于所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数生成所述视频帧对应的预合成图像的步骤,包括:将所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数作用于预先建立的初始三维人脸模型,得到三维人脸形变模型;将所述三维人脸形变模型的面部关键点投影到所述视频帧,得到所述视频帧对应的预合成图
像。
73.对所述预合成图像进行融合处理,生成所述视频帧对应的目标帧的步骤,包括:将所述预合成图像输入至预先建立的图像合成卷积神经网络,通过所述图像合成卷积神经网络对所述预合成图像进行融合处理,得到所述视频帧对应的目标帧;其中,所述图像合成卷积神经网络为预先训练好的u型卷积神经网络模型。
74.进一步,在图8的基础上,图9还提供了另一种视频处理装置的示意图,除图8所示的结构外,上述装置还包括:
75.语音数据处理模块90,用于获取待合成语音数据之后,将所述待合成语音数据输入至预先训练好的口型参数模型中,通过所述口型参数模型输出所述待合成语音数据对应的口型参数;其中,所述口型参数模型为预先训练好的一维卷积神经网络模型,且,所述一维卷积神经网络模型通过学习输入语音到口型参数的映射关系的数据集得到的。
76.进一步,上述目标对象的视频数据为在预设背景下录制的视频数据;
77.上述装置还包括去背景处理模块92,用于:生成所述视频帧对应的目标帧之后,对所述目标帧进行去背景处理,得到所述目标帧对应的去背景目标帧。
78.本发明实施例提供的视频处理装置,与上述实施例提供的视频处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
79.进一步,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
80.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
81.进一步,本发明实施例还提供了一种电子设备的结构示意图,如图10所示,为该电子设备的结构示意图,其中,该电子设备包括处理器101和存储器100,该存储器100存储有能够被该处理器101执行的计算机可执行指令,该处理器101执行该计算机可执行指令以实现上述方法。
82.在图10示出的实施方式中,该电子设备还包括总线102和通信接口103,其中,处理器101、通信接口103和存储器100通过总线102连接。
83.其中,存储器100可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
84.处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(central processing unit,简称
cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器101读取存储器中的信息,结合其硬件完成前述方法。
85.本发明实施例所提供的视频处理方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
86.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
87.另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
88.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
89.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
90.最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1