本申请涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于aigc(artificial intelligence generated content,人工智能生成内容)、数字人、智能电商等场景,具体涉及一种视频生成方法、装置、电子设备及存储介质。
背景技术:
1、人体驱动技术是指根据任意一段人体运动的视频,去驱动生成一段目标对象的肢体运动视频的技术,其中生成的人体驱动视频中的目标人物有和驱动人物相同的肢体运动、手势、面部表情和唇部运动。
技术实现思路
1、本申请提供了一种视频生成方法、装置、电子设备及存储介质。
2、根据本申请的一方面,提供了一种视频生成方法,包括:
3、获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号;其中,所述参考人体信号用于指示所述目标对象的人体姿态,所述驱动人体信号用于指示所述驱动视频中驱动对象的人体姿态;
4、对所述参考人体信号和所述驱动人体信号分别进行动态特征提取,得到第一动态特征和第二动态特征;
5、对所述参考图像进行纹理特征提取,得到第一纹理特征;
6、对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算,得到第二纹理特征;
7、对所述第二纹理特征、所述第二动态特征及噪声进行拼接,得到第一拼接特征;
8、根据所述第一拼接特征进行去噪处理,生成展示有目标对象的目标视频。
9、根据本申请的另一方面,提供了一种视频生成装置,包括:
10、第一获取模块,用于获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号;其中,所述参考人体信号用于指示所述目标对象的人体姿态,所述驱动人体信号用于指示所述驱动视频中驱动对象的人体姿态;
11、动态特征提取模块,用于对所述参考人体信号和所述驱动人体信号分别进行动态特征提取,得到第一动态特征和第二动态特征;
12、纹理特征提取模块,用于对所述参考图像进行纹理特征提取,得到第一纹理特征;
13、第二获取模块,用于对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算,得到第二纹理特征;
14、特征拼接模块,用于对所述第二纹理特征、所述第二动态特征及噪声进行拼接,得到第一拼接特征;
15、生成模块,用于根据所述第一拼接特征进行去噪处理,生成展示有目标对象的目标视频。
16、根据本申请的另一方面,提供了一种电子设备,包括:
17、至少一个处理器;以及
18、与所述至少一个处理器通信连接的存储器;其中,
19、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
20、根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
21、根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。
22、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
1.一种视频生成方法,包括:
2.如权利要求1所述的方法,其中,所述对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算,得到第二纹理特征,包括:
3.如权利要求1所述的方法,其中,所述根据所述第一拼接特征进行去噪处理,生成展示有目标对象的目标视频,包括:
4.如权利要求3所述的方法,其中,所述根据所述第三纹理特征和所述第三动态特征进行特征融合,得到第一融合特征,包括:
5.如权利要求3所述的方法,其中,所述根据所述第一融合特征,生成所述目标视频,包括:
6.如权利要求5所述的方法,其中,所述根据所述第一融合特征与学习得到的手部纹理特征库进行交叉注意力计算,得到第二融合特征,包括:
7.如权利要求6所述的方法,其中,所述对所述第一融合特征与所述手部纹理特征库进行交叉注意力计算,得到第一中间特征,包括:
8.如权利要求3所述的方法,其中,所述对所述第二拼接特征进行纹理特征提取,得到第三纹理特征,包括:
9.如权利要求8所述的方法,其中,所述对所述第三中间特征与所述全局特征进行交叉注意力计算,得到所述第三纹理特征,包括:
10.如权利要求3所述的方法,其中,所述对所述第一拼接特征进行动态特征提取,得到第三动态特征,包括:
11.如权利要求10所述的方法,其中,所述对所述第四中间特征与所述全局特征进行交叉注意力计算,得到所述第三动态特征,包括:
12.如权利要求1-11中任一项所述的方法,其中,所述获取驱动视频对应的驱动人体信号,包括:
13.如权利要求1-11中任一项所述的方法,其中,所述获取驱动视频对应的驱动人体信号,包括:
14.如权利要求1-11中任一项所述的方法,其中,所述获取驱动视频对应的驱动人体信号,包括:
15.一种视频生成装置,包括:
16.如权利要求15所述的装置,其中,所述第二获取模块,用于:
17.如权利要求15所述的装置,其中,所述生成模块,用于:
18.如权利要求17所述的装置,其中,所述生成模块,用于:
19.如权利要求17所述的装置,其中,所述生成模块,用于:
20.如权利要求19所述的装置,其中,所述生成模块,用于:
21.如权利要求20所述的装置,其中,所述生成模块,用于:
22.如权利要求17所述的装置,其中,所述生成模块,用于:
23.如权利要求22所述的装置,其中,所述生成模块,用于:
24.如权利要求17所述的装置,其中,所述生成模块,用于:
25.如权利要求24所述的装置,其中,所述生成模块,用于:
26.如权利要求15-25中任一项所述的装置,其中,所述第一获取模块,用于:
27.如权利要求15-25中任一项所述的装置,其中,所述第一获取模块,用于:
28.如权利要求15-25中任一项所述的装置,其中,所述第一获取模块,用于:
29.一种电子设备,包括:
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述方法的步骤。