视频生成方法、装置、电子设备及存储介质与流程

文档序号：40164804发布日期：2024-11-29 15:56阅读：27来源：国知局

本申请涉及人工智能，尤其涉及计算机视觉、深度学习、大模型等，可应用于aigc(artificial intelligence generated content，人工智能生成内容)、数字人、智能电商等场景，具体涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术：

1、人体驱动技术是指根据任意一段人体运动的视频，去驱动生成一段目标对象的肢体运动视频的技术，其中生成的人体驱动视频中的目标人物有和驱动人物相同的肢体运动、手势、面部表情和唇部运动。

技术实现思路

1、本申请提供了一种视频生成方法、装置、电子设备及存储介质。

2、根据本申请的一方面，提供了一种视频生成方法，包括：

3、获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号；其中，所述参考人体信号用于指示所述目标对象的人体姿态，所述驱动人体信号用于指示所述驱动视频中驱动对象的人体姿态；

4、对所述参考人体信号和所述驱动人体信号分别进行动态特征提取，得到第一动态特征和第二动态特征；

5、对所述参考图像进行纹理特征提取，得到第一纹理特征；

6、对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算，得到第二纹理特征；

7、对所述第二纹理特征、所述第二动态特征及噪声进行拼接，得到第一拼接特征；

8、根据所述第一拼接特征进行去噪处理，生成展示有目标对象的目标视频。

9、根据本申请的另一方面，提供了一种视频生成装置，包括：

10、第一获取模块，用于获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号；其中，所述参考人体信号用于指示所述目标对象的人体姿态，所述驱动人体信号用于指示所述驱动视频中驱动对象的人体姿态；

11、动态特征提取模块，用于对所述参考人体信号和所述驱动人体信号分别进行动态特征提取，得到第一动态特征和第二动态特征；

12、纹理特征提取模块，用于对所述参考图像进行纹理特征提取，得到第一纹理特征；

13、第二获取模块，用于对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算，得到第二纹理特征；

14、特征拼接模块，用于对所述第二纹理特征、所述第二动态特征及噪声进行拼接，得到第一拼接特征；

15、生成模块，用于根据所述第一拼接特征进行去噪处理，生成展示有目标对象的目标视频。

16、根据本申请的另一方面，提供了一种电子设备，包括：

17、至少一个处理器；以及

18、与所述至少一个处理器通信连接的存储器；其中，

19、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的方法。

20、根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。

21、根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。

22、应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种视频生成方法，包括：

2.如权利要求1所述的方法，其中，所述对所述第一动态特征、所述第二动态特征及所述第一纹理特征进行交叉注意力计算，得到第二纹理特征，包括：

3.如权利要求1所述的方法，其中，所述根据所述第一拼接特征进行去噪处理，生成展示有目标对象的目标视频，包括：

4.如权利要求3所述的方法，其中，所述根据所述第三纹理特征和所述第三动态特征进行特征融合，得到第一融合特征，包括：

5.如权利要求3所述的方法，其中，所述根据所述第一融合特征，生成所述目标视频，包括：

6.如权利要求5所述的方法，其中，所述根据所述第一融合特征与学习得到的手部纹理特征库进行交叉注意力计算，得到第二融合特征，包括：

7.如权利要求6所述的方法，其中，所述对所述第一融合特征与所述手部纹理特征库进行交叉注意力计算，得到第一中间特征，包括：

8.如权利要求3所述的方法，其中，所述对所述第二拼接特征进行纹理特征提取，得到第三纹理特征，包括：

9.如权利要求8所述的方法，其中，所述对所述第三中间特征与所述全局特征进行交叉注意力计算，得到所述第三纹理特征，包括：

10.如权利要求3所述的方法，其中，所述对所述第一拼接特征进行动态特征提取，得到第三动态特征，包括：

11.如权利要求10所述的方法，其中，所述对所述第四中间特征与所述全局特征进行交叉注意力计算，得到所述第三动态特征，包括：

12.如权利要求1-11中任一项所述的方法，其中，所述获取驱动视频对应的驱动人体信号，包括：

13.如权利要求1-11中任一项所述的方法，其中，所述获取驱动视频对应的驱动人体信号，包括：

14.如权利要求1-11中任一项所述的方法，其中，所述获取驱动视频对应的驱动人体信号，包括：

15.一种视频生成装置，包括：

16.如权利要求15所述的装置，其中，所述第二获取模块，用于：

17.如权利要求15所述的装置，其中，所述生成模块，用于：

18.如权利要求17所述的装置，其中，所述生成模块，用于：

19.如权利要求17所述的装置，其中，所述生成模块，用于：

20.如权利要求19所述的装置，其中，所述生成模块，用于：

21.如权利要求20所述的装置，其中，所述生成模块，用于：

22.如权利要求17所述的装置，其中，所述生成模块，用于：

23.如权利要求22所述的装置，其中，所述生成模块，用于：

24.如权利要求17所述的装置，其中，所述生成模块，用于：

25.如权利要求24所述的装置，其中，所述生成模块，用于：

26.如权利要求15-25中任一项所述的装置，其中，所述第一获取模块，用于：

27.如权利要求15-25中任一项所述的装置，其中，所述第一获取模块，用于：

28.如权利要求15-25中任一项所述的装置，其中，所述第一获取模块，用于：

29.一种电子设备，包括：

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述方法的步骤。

技术总结
本申请公开了视频生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于AIGC、数字人、智能电商等场景。具体实现方案为：获取展示有目标对象的参考图像对应的参考人体信号及驱动视频对应的驱动人体信号；对参考人体信号和驱动人体信号分别进行动态特征提取，得到第一动态特征和第二动态特征；对参考图像进行纹理特征提取，得到第一纹理特征；对第一动态特征、第二动态特征及第一纹理特征进行交叉注意力计算，得到第二纹理特征；对第二纹理特征、第二动态特征及噪声进行拼接，得到第一拼接特征；根据第一拼接特征进行去噪处理，生成展示有目标对象的目标视频。

技术研发人员：王凯思源,官佳智,周航,冯浩城
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/11/28

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王凯思源,官佳智,周航,冯浩城
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种粗苯油水分离集成装置的制作方法
上一篇：一种集成式数字及投影电影播放站台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。