本申请涉及计算机,更具体地,涉及一种数字人视频的生成方法、装置、电子设备和存储介质。
背景技术:
1、在教学及演讲过程中,演示文档已经成为了主要工具。演示文档具有丰富的文字和图像,能够生动灵活展示更多的信息。
2、目前,一般通过人工对演示文档进行讲解,人工成本较高,效率低。另外,也存在先将演示文档转换为语音,再基于语音与演示文档生成讲解视频,但该讲解视频中只是机械的读取演示文档的内容,讲解效果较差。
3、因此,如何更加高效的对演示文档进行讲解,是目前有待解决的技术问题。
4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本申请实施例提出了一种数字人视频的生成方法、装置、电子设备和存储介质,用以更加高效的对演示文档进行讲解。
2、第一方面,提供一种数字人视频的生成方法,所述方法包括:获取待讲解的演示文档,根据所述演示文档的文档内容生成第一视频,并根据所述文档内容中的文本数据生成目标音频;根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列;根据预设数字人形象和所述唇形图像序列生成第二视频,所述第二视频中包括与所述预设数字人形象对应的数字人;根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频。
3、第二方面,提供一种数字人视频的生成装置,所述装置包括:第一生成模块,用于获取待讲解的演示文档,根据所述演示文档的文档内容生成第一视频,并根据所述文档内容中的文本数据生成目标音频;第二生成模块,用于根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列;第三生成模块,用于根据预设数字人形象和所述唇形图像序列生成第二视频,所述第二视频中包括与所述预设数字人形象对应的数字人;第四生成模块,用于根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频。
4、第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。
5、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。
6、通过应用以上技术方案,获取待讲解的演示文档,根据所述演示文档的文档内容生成第一视频,并根据所述文档内容中的文本数据生成目标音频;根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列;根据预设数字人形象和所述唇形图像序列生成第二视频,所述第二视频中包括与所述预设数字人形象对应的数字人;根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频,实现在演示文档内容的同时,通过数字人对演示文档进行同步讲解,从而更加高效的对演示文档进行讲解,提升了用户体验。
1.一种数字人视频的生成方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列,包括:
3.如权利要求2所述的方法,其特征在于,在将所述情绪标签序列和所述音频特征输入预设唇形生成模型,得到所述唇形图像序列之前,所述方法还包括:
4.如权利要求1所述的方法,其特征在于,所述根据预设数字人形象和所述唇形图像序列生成第二视频,包括:
5.如权利要求4所述的方法,其特征在于,将所述预设数字人形象和所述唇形图像序列输入预设数字人驱动模型,得到第三视频之后,所述方法还包括:
6.如权利要求1所述的方法,其特征在于,所述根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频,包括:
7.如权利要求1所述的方法,其特征在于,所述根据所述文档内容中的文本数据生成目标音频,包括:
8.一种数字人视频的生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人视频的生成方法。