1.本技术涉及计算机技术领域,尤其涉及一种视频数据处理方法、装置、设备及介质。
背景技术:2.数字人,是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展,数字人的生成技术越来越成熟。
3.在实际处理中,如果数字人生成技术想要应用在商业,实现实时交互,则数字人生成方案至少需要满足两点:生成效果好和推理速度快;其中,数字人的生成效果好是必要的前提,推理速度快是商业的需要。目前出现的大量生成技术,主要是基于诸如于pix2pix,pix2pixhd,vid2vid,few shot video2video,nerf,stylegan等图像翻译模型,实现数字人视频的生成。具体的,现有这些图像翻译模型主要是将当前帧的真实图片或真实图片的素描图输入到生成器中,以通过生成器生成对应的数字人图片,以便后续可以基于该数字人图片生成数字人视频并输出。
技术实现要素:4.有鉴于此,本技术提供了一种视频数据处理方法、装置、设备及介质,以提升生成视频帧的稳定性,解决了现有技术中由于利用一张图片生成数字人图片导致生成数字人视频帧稳定性差的问题。
5.第一方面,本技术实施例提供了一种视频数据处理方法,包括:
6.确定待处理视频;
7.依据所述待处理视频确定待处理图像信息,所述待处理图像信息包括从所述待处理视频中提取到的各待处理帧图像信息;
8.分别依据各待处理帧图像信息对应的参考图像信息,确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息;
9.依据所述各待处理帧图像信息对应的目标图像信息,生成目标视频。
10.可选的,所述分别依据各待处理帧图像信息对应的参考图像信息,确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息,包括:确定每一待处理帧图像信息对应的参考图像信息;依据每一待处理帧图像信息的人脸关键点信息和轮廓线信息,确定每一待处理帧图像信息的素描图信息;针对每一待处理帧图像信息,依据所述处理帧图像信息的素描图信息和所述处理帧图像信息对应的参考图像信息进行图像合成,得到每一待处理帧图像信息对应的目标合成图信息,并将每一待处理帧图像信息对应的目标合成图信息将输入到预先训练的生成器中,得到每一待处理帧图像信息对应的目标图像信息。
11.可选的,所述确定每一待处理帧图像信息对应的参考图像信息,包括:若所述待处理帧图像信息为视频首帧图像信息,则基于所述待处理帧图像信息创建全零图像信息,并将所述全零图像信息确定为所述待处理帧图像信息对应的参考图像信息;若所述待处理帧图像信息不是视频首帧图像信息,则将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息,所述参考帧目标图像信息为所述待处理帧图像信息的前一帧图像对应的目标图像信息。
12.可选的,所述确定待处理视频之前,还包括:
13.从预设的训练数据集中获取待训练视频图像信息,所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息;
14.依据所述第一视频图像信息和所述第二视频图像信息进行模型训练,得到包含所述生成器的视频处理模型。
15.可选的,所述依据所述第一视频图像信息和所述第二视频图像信息进行模型训练,包括:
16.依据所述第一视频图像信息创建全零图像信息,并依据所述全零图像信息和第一待训练素描图信息进行合并,得到第一组合图信息,其中,所述第一待训练素描图信息为第一视频图像信息的素描图信息;
17.将所述第一组合图信息输入到预先构建的生成器中,得到所述生成器输出的第一视频图像信息对应的第一生成图信息;
18.依据所述第一生成图信息和第二待训练素描图信息进行合并,得到第二组合图信息,其中,所述第二待训练素描图信息为第二视频图像信息的素描图信息;
19.将所述第二组合图信息输入到所述生成器中,得到所述生成器输出的所述第二视频图像信息对应的第二生成图信息;
20.依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值;
21.若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述生成器的参数,并对更新参数后的生成器进行迭代训练,直到所述模型损失值符合预设的模型收敛条件。
22.可选的,所述依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值,包括:
23.将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述视频处理模型的判别器中,得到所述判别器输出的第一损失信息;
24.将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息输入到所述判别器中,得到所述判别器输出的第二损失信息;
25.基于所述第一损失信息和所述第二损失信息确定判别器损失值,并基于所述第二损失信息和预设的第一信息值确定生成器损失值;
26.依据所述判别器损失值和所述生成器损失,确定所述模型损失值。
27.可选的,所述基于所述第一损失信息和所述第二损失信息,确定判别器损失值,包括:
28.根据所述第一损失信息与所述第一信息值,确定第一距离值信息;
29.根据所述第二损失信息与预设的第二信息值,确定第二距离值信息;
30.依据所述第一距离值信息和所述第二距离值信息进行计算,得到所述判别器损失值。
31.可选的,所述基于所述第二损失信息和预设的第一信息值确定生成器损失值,包括:
32.根据所述第二损失信息与所述第一信息值,确定第三距离值信息;
33.依据所述所述第一待训练素描图信息与所述第一视频图像信息之间的特征值距离信息,以及,所述第二待训练素描图信息与所述第二视频图像信息之间的特征值距离信息,确定所述生成器对应的感知损失信息;
34.依据所述所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息,确定所述生成器对应的特征匹配损失信息;
35.依据所述第三距离值信息、所述感知损失信息以及所述特征匹配损失信息进行计算,得到所述生成器损失值。
36.第二方面,本技术实施例提供了一种视频数据处理装置,包括:
37.视频确定模块,用于确定待处理视频;
38.待处理图像确定模块,用于依据所述待处理视频确定待处理图像信息,所述待处理图像信息包括从所述待处理视频中提取到的各待处理帧图像信息;
39.目标图像生成模块,用于分别依据各待处理帧图像信息对应的参考图像信息,确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息;
40.视频生成模块,用于依据所述各待处理帧图像信息对应的目标图像信息,生成目标视频。
41.第三方面,本技术实施例提供了一种视频数据处理设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项所述的视频数据处理方法的步骤。
42.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的视频数据处理方法的步骤。
43.本技术实施例通过从待处理视频中提取各待处理帧图像信息,确定出待处理图像信息,并分别依据各待处理帧图像信息对应的参考图像信息确定各待处理帧图像信息对应的目标合成图像信息,以将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,使得生成器可以依据输入目标合成图像信息生成各待处理帧图像信息对应的目标图像信息,解决了现有图像翻译模型只利用当前帧的图像生成对应视频帧图像导致视
频生成帧稳定性差的问题,随后可利用依据目标合成图像信息生成的目标图像信息生成对应的目标视频,在保证视频生成效果和推理速度的前提下,提高视频生成帧的稳定性,从而提高视频的整体生成效果,提高用户体验。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
45.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1是本技术实施例提供的一种视频数据处理方法的步骤流程图;
47.图2为本技术一个示例中的一种待处理图像的素描图的示意图;
48.图3为本技术一个可选实施例提供的一种视频数据处理方法的步骤流程图;
49.图4为本技术可选实施例提供的一种视频数据处理方法的步骤流程图;
50.图5为本技术实施例提供的一种视频数据处理装置的结构框图。
具体实施方式
51.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
52.参照图1,示出了本技术实施例提供的一种视频数据处理方法的步骤流程图。具体的,本技术提供的视频数据处理方法可以适用于视频数据处理情况,具体可以包括如下步骤:
53.步骤110,确定待处理视频。
54.其中,待处理视频可以是指待处理的视频,如可以是用户录制的待处理的视频。
55.步骤120,依据所述待处理视频确定待处理图像信息,所述待处理图像信息包括从所述待处理视频中提取到的各待处理帧图像信息。
56.具体而言,视频通常包含多个视频帧,且每一个视频帧包含音频信息和图像信息。本技术实施例在确定出待处理视频后,可以从该待处理视频中提取出一个或多个视频帧,以作为待处理帧图像信息,并可将提取到的各待处理帧图像信息确定为待处理图像信息,以便后续可以依据各待处理帧图像信息和各待处理帧图像信息待对应的参考图像信息生成各待处理帧图像信息对应的目标图像信息。
57.步骤130,分别依据各待处理帧图像信息对应的参考图像信息,确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息。
58.具体而言,本技术在确定出各待处理帧图像信息后,可以针对每一待处理帧图像信息获取对应的参考图像信息,以根据每一待处理图像信息对应的参考图像信息进行图像
合成,得到每一待处理图像信息对应的目标合成图信息,并且可将每一待处理图像信息对应的目标合成图信息输入到预先训练的生成器中,以通过生成器生成每一待处理帧图像信息对应的目标图像信息,从而可以得到各待处理帧图像信息对应的目标图像信息,即得到多个视频帧对应的目标图像信息,以便后续可以依据得到的多个视频帧对应的目标图像信息生成并输对应的目标视频。
59.例如,在将用户录制视频作为待处理视频的情况下,可以从用户录制视频中获取待处理的第t帧的真实图片rt,以作为待处理帧图像信息,并可针对当前获取到的待处理帧图像信息获取对应的参考图像信息,以依据该待处理帧图像信息对应的参考图像信息进行图像合成,得到该待处理帧图像信息对应的目标合成图信息it。待处理帧图像信息对应的参考图像信息可以表示当前获取到的待处理图像对应的参考图像。要说明的是,真实图片rt可以是指用户录制视频中待处理的第t帧的真实图片r,t为整数,真实图片rt可以包含目标对象的脸部,且该目标对象可以是指当前所需要处理的对象,如可以是用于表征人物的人物对象,也可以是用于表征动物的动物对象等,本技术实施例对此也不作具体限制。
60.在实际处理中,待处理帧图像信息除了可以是从视频中提取到的真实图片之前,还可以是提取到的真实图片的素描图,本技术实施例对此不作具体限制。进一步而言,本技术实施例在获取到待处理图像信息后,可判断该待处理图像信息是否是素描图信息,以确定当前所需要处理的真实图片是否是素描图,从而可以在当前所需要处理的真实图片不是素描图时从该待处理图像信息中提取脸部关键点信息和边缘(canny)线信息,以基于提取到的脸部关键点信息和canny线信息构成该待处理图像的素描图信息;而在当前所需要处理的真实图片属于素描图时,可以直接将该待处理图像信息确定为待处理图像的素描图信息,从而提高信息获取效率。其中,素描图信息可以用于表示待处理图像的素描图st,如图2所示。需要说明的是,提取到的脸部关键点信息可以用于表示脸部关键点,如可以是脸部的68个关键点的坐标值;canny线信息可以表示图中的canny线,具体可以用于表示提取到边缘线特征,如可以用于表示提取到的头发和衣服的特征。
61.步骤140,依据所述各待处理帧图像信息对应的目标图像信息,生成目标视频。
62.其中,目标视频可以是指基于生成器生成的目标图像信息所生成的视频。具体而言,本技术实施例在通过生成器推理生成各个待处理帧图像信息对应的目标图像信息后,可以利用各个处理帧图像信息对应的目标图像信息构成目标视频并输出,以将生成器生成的各目标图像信息作为目标视频的图像帧进行输出,达到生成目标视频的目的。
63.可见,本技术实施例在确定待处理视频后,通过从待处理视频中提取各待处理帧图像信息,确定出待处理图像信息,并分别依据各待处理帧图像信息对应的参考图像信息确定各待处理帧图像信息对应的目标合成图像信息,以将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,使得生成器可以依据输入目标合成图像信息生成各待处理帧图像信息对应的目标图像信息,解决了现有图像翻译模型只利用当前帧的图像生成对应视频帧图像导致视频生成帧稳定性差的问题,随后可利用依据目标合成图像信息生成的目标图像信息生成对应的目标视频,从而可以在保证视频生成效果和推理速度的前提下,提高视频生成帧的稳定性,进而提高视频的整体生成效果,提高用户体验。
64.在具体实现中,本技术实施例可以预先采用训练数据集中的待训练图像信息进行模型训练,以训练出包含上述生成器的视频处理模型,以便后续可以利用视频处理模型推
理生成待处理视频对应的目标视频。其中,生成器可以用于依据待处理帧图像信息对应的目标合成图像信息生成目标图像信息,如可以用于生成数字人的整体结构图;训练数据集可以是指用于模型训练的数据的集合,具体可以包括一张或多张图像数据,如可以包括一个视频中用于训练的连续多帧视频图像数据;待训练图像信息可以是指待训练的图像数据,如可以是待训练视频图像信息,待训练视频图像信息可以是指待训练的视频图像。进一步而言,在上述实施例的基础上,本技术实施例提供的视频处理方法在确定待处理视频之前,还包括:从预设的训练数据集中获取待训练视频图像信息,所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息;依据所述第一视频图像信息和所述第二视频图像信息进行模型训练,得到包含所述生成器的视频处理模型。
65.在实际处理中,可以从训练数据集中获取一个视频的连续n帧视频图像数据,以作为待训练图像信息进行模型训练,从而可以采用视频中的连续n帧图像数据进行模型训练,如可以从训练数据集中获取视频中的连续两帧视频图像进行模型训练,以便后续应用阶段可以在满足生成效果和速度要求的同时提高生成视频帧的稳定性,其中n为大于1的整数。需要说明的是,本技术实施例中的第一视频图像信息可以用于表示从训练数据集中提取的连续两帧视频图像中的第一帧视频图像;第二视频图像数据可以表示从训练数据集中提取的连续两帧视频图像中的第二帧视频图像,即第二帧视频图像为第一帧视频图像的前一帧视频图像。
66.可选的,本技术实施例依据所述第一视频图像信息和所述第二视频图像信息进行模型训练,具体可以包括:依据所述第一视频图像信息创建全零图像信息,并依据所述全零图像信息和第一待训练素描图信息进行合并,得到第一组合图信息,其中,所述第一待训练素描图信息为第一视频图像信息的素描图信息;将所述第一组合图信息输入到预先构建的生成器中,得到所述生成器输出的第一视频图像信息对应的第一生成图信息;依据所述第一生成图信息和第二待训练素描图信息进行合并,得到第二组合图信息,其中,所述第二待训练素描图信息为第二视频图像信息的素描图信息;将所述第二组合图信息输入到所述生成器中,得到所述生成器输出的所述第二视频图像信息对应的第二生成图信息;依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值;若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述生成器的参数,并对更新参数后的生成器进行迭代训练,直到所述模型损失值符合预设的模型收敛条件。其中,模型损失值可以是指训练模型的损失值,具体可以用于确定训练模型是否已收敛,进而可以在训练模型已收敛的情况下确定将已收敛的模型确定为视频处理模型,以便后续应用推理阶段可以利用该为视频处理模型生成待处理视频图像对应的目标视频。
67.可见,本实施例在模型训练阶段,可以从训练数据集中提取两帧或多帧视频图像信息,以作为待训练视频图像信息;并可针对提取的每一帧视频图像信息,提取脸部关键点信息和canny线信息,即从获取到的每一帧待训练视频图像信息中提取脸部关键点信息和canny线信息,以基于提取到的脸部关键点信息和canny线信息生成对应的待训练素描图信息,随后可以依据每一帧的待训练素描图信息和参考参考图像信息进行合并,得到合并后产生的组合图信息,并可将合并后产生的组合图信息将所述第二组合图信息输入到生成器中,使得生成器依据该组合图信息进行推理,生成对应的生成图信息。
68.例如,在从训练数据集中视频中第t帧的真实图片rt后,可以利用开源的关键点提取方法提取第t帧的真实图片的68个关键点和canny线,即提取脸部关键点信息和canny线信息,然后可利用提取到的脸部关键点信息和canny线信息生成对应的待训练素描图信息,即利用这68个关键点画成脸部的线,以将该脸部的线与canny线结合,生成第t帧的素描图st,随后将第t帧的素描图st确定为第一待训练素描图信息,并可针对第t帧视频图像的素描图st获取对应的全零图像信息zt,以根据该全零图像信息zt进行图像合并,即将第t帧视频图像的素描图st和全零图像进行合并,得到合并后的组合图it,并可将该组合图it作为第一待训练素描图信息对应的第一组合图信息,输入到生成器g,从而使得生成器g依据该组合图it生成第t帧的图片ft并输出,以作为第一视频图像信息对应的第一生成图信息。在生成第t帧的图片ft后,可以从训练数据集中视频中第(t+1)帧的真实图片r(t+1),并可利用开源的关键点提取方法提取第(t+1)帧的真实图片的68个关键点和canny线,以利用这68个关键点画成脸部的线,从而可以将该脸部的线与canny线结合,生成第(t+1)帧的的素描图s(t+1);随后,可将第(t+1)帧的的素描图s(t+1)作为第二待训练素描图信息,并将第(t+1)帧的的素描图s(t+1)和第t帧生成的图片ft进行合并,以将合并后产生的组合图i(t+1)作为第二待训练素描图信息对应的第二组合图信息,输入到生成器g,从而使得生成器g依据该组合图i(t+1)生成第(t+1)帧的图片ft并输出,以作为第二视频图像信息对应的第二生成图信息。进而,可以依据真实图片rt、真实图片r(t+1)、素描图st、素描图s(t+1)、第t帧生成的图片ft以及第(t+1)帧生成的图片ft进行计算,确定出模型损失值,以根据模型损失值确定训练模型是否已收敛,从而可以在训练模型已收敛的情况下确定将已收敛的训练模型确定为视频像处理模型,以便后续应用推理阶段可以利用该视频像处理模型进行视频数据处理;而在训练模型未收敛的情况下,基于当前计算出的模型损失值更新生成器的参数,并对更新参数后的生成器进行迭代训练,直到训练模型满足预设的模型收敛条件。
69.参照图3,示出了本技术一个可选实施例提供的一种视频数据处理方法的步骤流程图。具体而言,本技术实施例提供的视频数据处理方法在模型训练阶段,具体可以包括如下步骤:
70.步骤310,从预设的训练数据集中获取待训练视频图像信息,所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息。
71.步骤320,依据所述第一视频图像信息创建全零图像信息,并依据所述全零图像信息和第一待训练素描图信息进行合并,得到第一组合图信息。
72.其中,所述第一待训练素描图信息为第一视频图像信息的素描图信息,具体可以用于表征第一视频图像的素描图,如可以用于表征从训练数据集中提取的连续两帧视频图像中的第一帧视频图像的素描图。
73.步骤330,将所述第一组合图信息输入到预先构建的生成器中,得到所述生成器输出的第一视频图像信息对应的第一生成图信息。
74.步骤340依据所述第一生成图信息和第二待训练素描图信息进行合并,得到第二组合图信息。
75.其中,所述第二待训练素描图信息为第二视频图像信息的素描图信息,具体可以用于表征第二视频图像的素描图,如可以用于表征从训练数据集中提取的连续两帧视频图像中的第二帧视频图像的素描图。
76.步骤350,将所述第二组合图信息输入到所述生成器中,得到所述生成器输出的所述第二视频图像信息对应的第二生成图信息。
77.作为本技术的一个示例,在模型训练阶段,可以首先构建一个生成器,如可以采用pix2pixhd的生成器结构,构建一个生成器,以作为训练模型中的生成器g。生成器g的输入可以是待训练视频图像信息和其对应的参考图片信息合并后产生的组合图片,输出可以是经生成器模型推理生成的图。
78.具体而言,在从预设的训练数据集中提取出的视频第t帧视频图像作为第一视频图像信息的情况下,可以将该视频第t帧视频图像的素描图st作为第一待训练素描图信息,并可根据第t帧的真实图片rt的图片大小创建一个相同大小的全零图片zt,如在真实图片rt的图片大小为512*512*3的情况下,可以创建一个第t帧图片相同大小的全零图片且通道数量为3的图片zt,以作为第一待训练素描图信息对应的全零图像信息,从而将全零图像信息和第t帧的素描图片st进行合并,得到合并后的组合图片it,以作为第一待训练素描图信息对应的第一组合图信息,输入到第一生成器g,从而使得第一生成器g依据第t帧合并后的组合图片it进行推理,输出第t帧的生成图片ft,以作为第一视频图像信息对应的第一生成图信息。
79.在得到第t帧的生成图片ft后,可以获取视频的第(t+1)帧视频图像的素描图s(t+1),以第二待训练素描图信息,与第t帧的生成图片ft进行合并,得到第(t+1)帧合并后的组合图片i(t+1),随后可将合并后的组合图片i(t+1)作为第二组合图信息输入到生成器g,从而使得第一生成器g依据第(t+1)帧合并后的组合图片i(t+1)进行推理,输出第(t+1)帧的生成图片f(t+1),以作为第二视频图像信息对应的第二生成图信息。
80.步骤360,依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值。
81.具体而言,本技术实施例在得到第二视频图像信息对应的第二生成图像信息后,可以将第一待训练素描图信息、第二待训练素描图信息、第一生成图像信息以及第二生成图像信息合并后输入到判别器中,得到n个值,随后可以利用这n个值确定出生成器损失值和判别器损失值,以依据生成器损失值和判别器损失值确定模型损失值。其中,n可以是大约1的整数,如n可以是2或3等,本实施对此不作具体限制。
82.当然,本技术实施例还可以采用其他方式来确定生成器损失值和/或判别器损失值,如可以将第一待训练素描图信息、第二待训练素描图信息、第一视频图像信息、以及第二视频图像信息合并后输入到判别器,以通过计算判别器输出的n个值与1的距离来确定出判别器损失值;和/或,可以通过分别第一生成图像信息和第一视频图像信息之间的感知损失(perceptual loss)、第二生成图像信息和第二视频图像信息之间的perceptual loss,然后可以将这两个perceptual loss相加,得到生成器损失值等等,本技术实施例对此也不作限制。
83.进一步而言,本技术实施例依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值,具体可以包括:将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述视频处理
模型的判别器中,得到所述判别器输出的第一损失信息;将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息输入到所述判别器中,得到所述判别器输出的第二损失信息;基于所述第一损失信息和所述第二损失信息确定判别器损失值,并基于所述第二损失信息和预设的第一信息值确定生成器损失值;依据所述判别器损失值和所述生成器损失,确定所述模型损失值。
84.在具体实现中,本技术实施例的判别器损失值可以通过计算假图片概率的损失和/或真图片概率的损失来确定;其中,真图片概率的损失通过计算判别器输出的第一损失信息与预设数值1之间的距离来确定,且第一损失信息与预设数值1之间的距离值越小,表示该判别器越能判断出真图像;假图片概率的损失可以通过计算判别器输出的第二损失信息与预设数值0之间的距离来确定,且第二损失信息与预设数值0之间的距离值越小,表示该判别器越能判断出假图像。可选的,本技术实施例基于所述第一损失信息和所述第二损失信息,确定判别器损失值,具体可以包括:根据所述第一损失信息与所述第一信息值,确定第一距离值信息;根据所述第二损失信息与预设的第二信息值,确定第二距离值信息;依据所述第一距离值信息和所述第二距离值信息进行计算,得到所述判别器损失值。
85.具体而言,本技术实施例中的判别器损失值可以包含两部分,第一部分可以是假图片概率的损失,第二部分可以是真图片概率的损失。例如,结合上述示例,在第一信息值预设为1,第二信息值预设为0的情况下,可以依据第一待训练素描图信息、第二待训练素描图信息、第一视频图像信息以及第二视频图像信息进行合并,以将第t帧视频图像的素描图st、第(t+1)帧视频图像的素描图s(t+1)、第t帧真实图片rt以及第(t+1)帧真实图片r(t+1)这四部分按照通道合成的方式合并成一张图片,输入到判别器d中,得到作为第一损失信息的n个值,然后可以用预设的损失函数l1 loss计算这n个值和1的距离,从而可以将计算得到的距离值确定为第一距离值信息,且该第一距离值信息可以表示真图片概率的损失,计算得到的距离值越小,表示该判别器越能判断出真图像;并且,可以依据第一待训练素描图信息、第二待训练素描图信息、第一合成图像信息以及第二合成图像信息进行合并,以将第t帧视频图像的素描图st、第(t+1)帧视频图像的素描图s(t+1)、第t帧生成的数字人图像ft以及第(t+1)帧生成的虚拟对象图像f(t+1)这四部分按照通道合成的方式合并成一张图片,输入到判别器d中,得到k个值,然后可将这k个值作为判别器d输出的第二损失信息,随后可利用预设的损失函数l1 loss计算这k个值和0的距离,以将计算得到的距离值确定为第二距离值信息,且第二距离值信息可以表示假图片概率的损失,计算得到的距离值越小,表示该判别器越能判断出假图像。在确定出假图片概率的损失和真图片概率的损失后,可以通过对该假图片概率的损失和真图片概率的损失进行累加,以将累加结果确定为判别器损失值。其中,k可以是大于1的整数,如k可以是2或3等,本实施对此不作具体限制。
86.在本技术实施例中,生成器损失值可以通过判别器输出的第一损失信息和/或第二损失信息来确定。例如,结合上述例子,在按照通道合成的方式将第t帧视频图像的素描图st、第(t+1)帧视频图像的素描图s(t+1)、第t帧生成的数字人图像ft以及第(t+1)帧生成的虚拟对象图像f(t+1)这四部分合并成一张图片并输入到判别器d后,可将判别器d输出的k个值作为第二损失信息,并可利用预设的损失函数l1 loss计算这k个值和1的距离,从而可以将计算得到的距离值确定为第三距离值信息,且第三距离值信息作为生成器的第一个损失函数值。生成器的第一个损失函数值越小,可以表示生成器生成的图片越逼真,即图片
生成效果就越好。
87.当然,生成器损失值除了可以包含利用损失函数l1 loss计算出的第一个损失函数值之外,还可以包括有其他损失函数值,如还可以包含第二个损失函数值、特征匹配损失值(feature matching loss)等,本技术实施例对此不作具体限制。其中,第二个损失函数值可以通过计算生成的虚拟对象图像与真实图片之间的感知损失(perceptual loss)来确定,如可以将第t帧生成的数字人图像ft和第t帧真实图片rt输入到vgg网络模型中,以通过计算数字人图像ft和真实图片rt在vgg网络模型不同层(layer)的特征值,得到距离值,从而可以将该距离值作为数字人图像ft和真实图片rt之间的感知损失pl1;同理,可以第(t+1)帧生成的虚拟对象图像f(t+1)和第(t+1)帧真实图片r(t+1)输入到vgg网络模型中,以通过计算虚拟对象图像f(t+1)和真实图片r(t+1)在vgg网络模型不同layer的特征值,得到第(t+1)帧生成的虚拟对象图像f(t+1)和第(t+1)帧真实图片r(t+1)之间的感知损失pl2,随后可以将感知损失pl1和感知损失pl2相加进行求熵,得到作为生成器的第二个损失函数值的熵结果。此外,可以通过将第t帧视频图像的素描图st、第(t+1)帧视频图像的素描图s(t+1)、第t帧生成的数字人图像ft以及第(t+1)帧生成的虚拟对象图像f(t+1)输入到判别器中进行计算,得到生成器的特征匹配损失值。
88.可选的,本技术实施例基于所述第二损失信息和预设的第一信息值确定生成器损失值,具体可以包括:根据所述第二损失信息与所述第一信息值,确定第三距离值信息;依据所述所述第一待训练素描图信息与所述第一视频图像信息之间的特征值距离信息,以及,所述第二待训练素描图信息与所述第二视频图像信息之间的特征值距离信息,确定所述生成器对应的感知损失信息;依据所述所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息,确定所述生成器对应的特征匹配损失信息;依据所述第三距离值信息、所述感知损失信息以及所述特征匹配损失信息进行计算,得到所述生成器损失值。其中,感知损失信息可以是指生成器生成的虚拟对象图像与真实图片之间的感知损失;特征匹配损失信息可以是指生成器的特征匹配损失值。
89.步骤370,若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述生成器的参数,并对更新参数后的生成器进行迭代训练,直到所述模型损失值符合预设的模型收敛条件。
90.具体的,本技术实施例在得到模型损失值后,可以通过判断模型损失值是否符合预设的模型收敛条件,确定当前训练得到的模型是否已经收敛,从而可以在训练模型收敛的情况下将已经训练好的模型确定为视频处理模型,以便后续应用推理阶段可以利用该为视频处理模型生成待处理视频对应的目标视频。例如,在模型损失值大于模型收敛条件中的收敛损失阈值时,可以确定判断当前的模型损失值不符合预设的模型收敛条件,需要继续进行模型训练,随后可利用反向传播算法,基于模型损失值更新模型中的生成器的参数和/或判别器的参数,以在更新参数后进行迭代训练,直到模型损失值等于或小于模型收敛条中的收敛损失阈值。
91.本技术实施例在训练好视频处理模型后,可以通过该视频处理模型利用两帧图像推理生成诸如数字人视频等虚拟图像视频中的视频帧,解决了现有图像翻译模型只是利用当前帧的视频图像生成对应数字人图片所导致的问题,在保证效果和推理速度的前提下提高了视频生成的帧的稳定性。
92.具体而言,本技术实施例在视频处理模型的应用推理阶段,在从确定的待处理视频中提取到的各待处理帧图像信息后,可以针对每一待处理帧图像信息获取对应的参考图像信息,以根据每一待处理图像信息对应的参考图像信息进行图像合成,得到对应的目标合成图信息,并将每一待处理图像信息对应的目标合成图信息输入到视频处理模型的生成器中,使得视频处理模型中的生成器可以依据该目标合成图信息,通过两张图片信息(即当前的待处理帧图像信息和该待处理帧图像信息对应的参考图像信息)进行推理生成目标视频的视频帧,提高生成视频帧的稳定性。
93.进一步而言,在上述实施例的基础上,本技术实施例依据分别依据各待处理帧图像信息对应的参考图像信息,确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息,具体可以包括:确定每一待处理帧图像信息对应的参考图像信息;依据每一待处理帧图像信息的人脸关键点信息和轮廓线信息,确定每一待处理帧图像信息的素描图信息;针对每一待处理帧图像信息,依据所述处理帧图像信息的素描图信息和所述处理帧图像信息对应的参考图像信息进行图像合成,得到每一待处理帧图像信息对应的目标合成图信息,并将每一待处理帧图像信息对应的目标合成图信息将输入到预先训练的生成器中,得到每一待处理帧图像信息对应的目标图像信息。
94.参照图4,示出了本技术可选实施例提供的一种视频数据处理方法的步骤流程图。具体而言,本技术实施例提供的视频数据处理方法在模型应用推理阶段,具体可以包括如下步骤:
95.步骤410,确定待处理视频。
96.步骤420,依据所述待处理视频确定待处理图像信息,所述待处理图像信息包括从所述待处理视频中提取到的各待处理帧图像信息。
97.步骤430,确定每一待处理帧图像信息对应的参考图像信息。
98.具体而言,本技术实施例在从确定的待处理视频中提取出待处理帧图像信息后,可以将当前提取到的待处理帧图像信息确定为确定待处理图像信息,并可将当前提取到的待处理帧图像信息的前一帧生成图像作为参考图像信息,以利用两帧图像信息生成虚拟图像,从而可以在保证推理速度的前提下,提高视频生成帧的稳定性。例如,在当前提取到的待处理帧图像信息为视频首帧图像信息的情况下,即在当前的待处理帧图像信息是视频中的第一帧图像时,可以创建一个跟第一帧图像相同大小的全零图片且通道数量为3的图片zt,并可将该图片zt作为第一帧图像的参考图像信息,以便后续可以利用参考图像信息生成虚拟图像,作为第一帧图像对应的目标图像信息,达到利用两帧图像生成虚拟图像的目的;在当前提取到的待处理帧图像信息不是视频首帧图像信息的情况下,即在当前的待处理图像不是视频中的第一帧图像时,如在当前的待处理帧图像信息是视频中的第二帧图像或第三帧图像时,可以将该待处理帧图像信息的前一帧的生成图像确定为参考图像信息,从而可以利用前一帧的生成图像和待处理帧图像信息生成当前帧的虚拟图像,进而可以提高生成视频帧的稳定性。
99.进一步而言,本技术实施例确定每一待处理帧图像信息对应的参考图像信息,具体可以包括:若所述待处理帧图像信息为视频首帧图像信息,则基于所述待处理帧图像信
息创建全零图像信息,并将所述全零图像信息确定为所述待处理帧图像信息对应的参考图像信息;若所述待处理帧图像信息不是视频首帧图像信息,则将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息,所述参考帧目标图像信息为所述待处理帧图像信息的前一帧图像对应的目标图像信息。
100.步骤440,针对每一待处理帧图像信息,依据所述处理帧图像信息的素描图信息和所述处理帧图像信息对应的参考图像信息进行图像合成,得到每一待处理帧图像信息对应的目标合成图信息,并将每一待处理帧图像信息对应的目标合成图信息将输入到预先训练的生成器中,得到每一待处理帧图像信息对应的目标图像信息。
101.步骤450,依据所述各待处理帧图像信息对应的目标图像信息,生成目标视频。
102.作为本技术的一个示例,在数字人视频的生成场景中,在从确定的待处理视频中提取待第一帧的真实图片作为待处理图像信息后,可从第一帧的真实图片r1中提取脸部关键点信息和canny线信息,以基于提取到的脸部关键点信息和canny线信息生成第一帧的真实图片的素描图信息s1,并可将预先创建全零图像信息zt作为参考图像信息,从而可以将第一帧的真实图片的素描图信息s1和全零图像信息zt进行合并,得到视频第一帧的目标合成图信息i1,输入到生成器g,从而使得生成器g依据目标合成图信息i1生成作为第一帧的目标图像信息的数字人图像f1。
103.在生成第一帧的数字人图像f1后,可以将第一帧的数字人图像f1作为后一帧待处理图信息对应的参考图像信息,即可以将第一帧的数字人图像f1作为第二帧待处理图信息对应的参考图像信息,与第二帧待处理图像的素描图信息s2进行合并,得到视频第二帧的目标合成图信息i2,并可将第二帧的目标合成图信息i2输入到生成器g,从而使得生成器g依据第二帧的目标合成图信息i2生成作为第二帧的目标图像信息的数字人图像f2
……
如此类推,可以将第t帧的数字人图像ft作为第(t+1)帧待处理图信息对应的参考图像信息,与第(t+1)帧待处理图像的素描图信息s(t+1)进行合并,并将合并后产生的目标合成图信息i(t+1)输入到生成器g,从而使得生成器g依据目标合成图信息i(t+1)生成作为第(t+1)帧的目标图像信息的数字人图像f(t+1),进而可以依据生成器推理生成的多帧数字人图像生成数字人视频,实现数字人视频的生成。其中,t为大于零的整数。
104.综上,本技术实施例在从确定的待处理视频中提取出各待处理帧图像信息后,可以将提取的各待处理帧图像信作为待处理图像信息,并分别依据各待处理帧图像信息对应的参考图像信息确定各待处理帧图像信息对应的目标合成图像信息,以将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,使得生成器可以依据输入目标合成图像信息生成各待处理帧图像信息对应的目标图像信息,从而达到利用视频两帧图像推理生成一帧视频图像的目的,解决了现有图像翻译模型只利用当前帧的图像生成对应视频帧图像导致视频生成帧稳定性差的问题,随后可利用依据各待处理帧图像信息对应的目标图像信息生成目标视频,在保证视频生成效果和推理速度的前提下提高视频生成帧的稳定性,进而提高视频的整体生成效果,提高用户体验。
105.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术实施例并不受所描述的动作顺序的限制,因为依据本技术实施例,某些步骤可以采用其他顺序或者同时进行。
106.本技术实施例还提供了一种视频数据处理装置。如图5所示,本技术实施例提供的
视频数据处理装置500可以包括如下模块:
107.视频确定模块510,用于确定待处理视频;
108.待处理图像确定模块520,用于依据所述待处理视频确定待处理图像信息,所述待处理图像信息包括从所述待处理视频中提取到的各待处理帧图像信息;
109.目标图像生成模块530,用于分别依据各待处理帧图像信息对应的参考图像信息确定各待处理帧图像信息对应的目标合成图像信息,并分别将各待处理帧图像信息对应的目标合成图像信息输入到预先训练的生成器中,得到所述生成器生成的各待处理帧图像信息对应的目标图像信息;
110.视频生成模块540,用于依据所述各待处理帧图像信息对应的目标图像信息,生成目标视频。
111.可选的,所述目标图像生成模块530包括如下子模块:
112.参考图像确定子模块,用于确定每一待处理帧图像信息对应的参考图像信息;
113.素描图确定子模块,用于依据每一待处理帧图像信息的人脸关键点信息和轮廓线信息,确定每一待处理帧图像信息的素描图信息;
114.图像合成子模块,用于针对每一待处理帧图像信息,依据所述处理帧图像信息的素描图信息和所述处理帧图像信息对应的参考图像信息进行图像合成,得到每一待处理帧图像信息对应的目标合成图信息;
115.输入子模块,用于将每一待处理帧图像信息对应的目标合成图信息将输入到预先训练的生成器中,得到每一待处理帧图像信息对应的目标图像信息。
116.可选的,所述素描图确定子模块具体用在所述待处理帧图像信息为视频首帧图像信息时,基于所述待处理帧图像信息创建全零图像信息,并将所述全零图像信息确定为所述待处理帧图像信息对应的参考图像信息;在所述待处理帧图像信息不是视频首帧图像信息时,将参考帧目标图像信息确定为所述待处理图像对应的参考图像信息,所述参考帧目标图像信息为所述待处理帧图像信息的前一帧图像对应的目标图像信息。
117.可选的,视频数据处理装置还包括:
118.训练视频图像信息获取模块,用于从预设的训练数据集中获取待训练视频图像信息,所述待训练视频图像信息包含第一视频图像信息和第二视频图像信息;
119.模型训练模块,用于依据所述第一视频图像信息和所述第二视频图像信息进行模型训练,得到包含所述生成器的视频处理模型。
120.可选的,模型训练模块可以包括如下子模块:
121.第一组合图子模块,用于依据所述第一视频图像信息创建全零图像信息,并依据所述全零图像信息和第一待训练素描图信息进行合并,得到第一组合图信息,其中,所述第一待训练素描图信息为第一视频图像信息的素描图信息;
122.第一生成图子模块,用于将所述第一组合图信息输入到预先构建的生成器中,得到所述生成器输出的第一视频图像信息对应的第一生成图信息;
123.第二组合图子模块,用于依据所述第一生成图信息和第二待训练素描图信息进行合并,得到第二组合图信息,其中,所述第二待训练素描图信息为第二视频图像信息的素描图信息;
124.第二生成图子模块,用于将所述第二组合图信息输入到所述生成器中,得到所述
生成器输出的所述第二视频图像信息对应的第二生成图信息;
125.模型损失值确定子模块,用于依据所述第一视频图像信息、第二视频图像信息、所述第一待训练素描图信息、第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息,确定模型损失值;
126.参数更新训练子模块,用于在所述模型损失值不符合预设的模型收敛条件时,基于所述模型损失值更新所述生成器的参数,并对更新参数后的生成器进行迭代训练,直到所述模型损失值符合预设的模型收敛条件。
127.可选的,模型损失值确定子模块包括如下单元:
128.第一损失信息确定单元,用于将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息输入到所述视频处理模型的判别器中,得到所述判别器输出的第一损失信息;
129.第二损失信息确定单元,用于将所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一生成图像信息以及所述第二生成图像信息输入到所述判别器中,得到所述判别器输出的第二损失信息;
130.判别器损失值确定单元,用于基于所述第一损失信息和所述第二损失信息确定判别器损失值;
131.生成器损失值确定单元,用于并基于所述第二损失信息和预设的第一信息值确定生成器损失值;
132.模型损失值确定单元,用于依据所述判别器损失值和所述生成器损失,确定所述模型损失值。
133.可选的,判别器损失值确定单元,具体用于根据所述第一损失信息与所述第一信息值,确定第一距离值信息;根据所述第二损失信息与预设的第二信息值,确定第二距离值信息;依据所述第一距离值信息和所述第二距离值信息进行计算,得到所述判别器损失值。
134.可选的,生成器损失值确定单元,具体用于根据所述第二损失信息与所述第一信息值,确定第三距离值信息;依据所述所述第一待训练素描图信息与所述第一视频图像信息之间的特征值距离信息,以及,所述第二待训练素描图信息与所述第二视频图像信息之间的特征值距离信息,确定所述生成器对应的感知损失信息;依据所述所述第一待训练素描图信息、所述第二待训练素描图信息、所述第一视频图像信息以及所述第二视频图像信息,确定所述生成器对应的特征匹配损失信息;依据所述第三距离值信息、所述感知损失信息以及所述特征匹配损失信息进行计算,得到所述生成器损失值。
135.需要说明的是,上述提供的视频数据处理装置可执行本技术任意实施例所提供的视频数据处理方法,具备执行方法相应的功能和有益效果。
136.在具体实现中,上述视频数据处理装置可以应用在诸如个人计算机、服务器等电子设备中,使得电子设备作为视频数据处理设备可以通过两帧图像推理生成目标视频的视频帧,提高生成视频帧的稳定性。进一步的,本技术实施例还提供一种视频数据处理设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任意一个方法实施例所述的视频数据处理方法的步骤。
137.本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述
计算机程序被处理器执行时实现上述任意一个方法实施例所述的视频数据处理方法步骤。
138.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
139.在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
140.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。