数字人视频的生成方法、装置、电子设备和存储介质与流程

文档序号：35019817发布日期：2023-08-04 12:28阅读：63来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及计算机，更具体地，涉及一种数字人视频的生成方法、装置、电子设备和存储介质。

背景技术：

1、在教学及演讲过程中，演示文档已经成为了主要工具。演示文档具有丰富的文字和图像，能够生动灵活展示更多的信息。

2、目前，一般通过人工对演示文档进行讲解，人工成本较高，效率低。另外，也存在先将演示文档转换为语音，再基于语音与演示文档生成讲解视频，但该讲解视频中只是机械的读取演示文档的内容，讲解效果较差。

3、因此，如何更加高效的对演示文档进行讲解，是目前有待解决的技术问题。

4、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本申请实施例提出了一种数字人视频的生成方法、装置、电子设备和存储介质，用以更加高效的对演示文档进行讲解。

2、第一方面，提供一种数字人视频的生成方法，所述方法包括：获取待讲解的演示文档，根据所述演示文档的文档内容生成第一视频，并根据所述文档内容中的文本数据生成目标音频；根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列；根据预设数字人形象和所述唇形图像序列生成第二视频，所述第二视频中包括与所述预设数字人形象对应的数字人；根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频。

3、第二方面，提供一种数字人视频的生成装置，所述装置包括：第一生成模块，用于获取待讲解的演示文档，根据所述演示文档的文档内容生成第一视频，并根据所述文档内容中的文本数据生成目标音频；第二生成模块，用于根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列；第三生成模块，用于根据预设数字人形象和所述唇形图像序列生成第二视频，所述第二视频中包括与所述预设数字人形象对应的数字人；第四生成模块，用于根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频。

4、第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。

5、第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。

6、通过应用以上技术方案，获取待讲解的演示文档，根据所述演示文档的文档内容生成第一视频，并根据所述文档内容中的文本数据生成目标音频；根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列；根据预设数字人形象和所述唇形图像序列生成第二视频，所述第二视频中包括与所述预设数字人形象对应的数字人；根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频，实现在演示文档内容的同时，通过数字人对演示文档进行同步讲解，从而更加高效的对演示文档进行讲解，提升了用户体验。

技术特征：

1.一种数字人视频的生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列，包括：

3.如权利要求2所述的方法，其特征在于，在将所述情绪标签序列和所述音频特征输入预设唇形生成模型，得到所述唇形图像序列之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述根据预设数字人形象和所述唇形图像序列生成第二视频，包括：

5.如权利要求4所述的方法，其特征在于，将所述预设数字人形象和所述唇形图像序列输入预设数字人驱动模型，得到第三视频之后，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述文档内容中的文本数据生成目标音频，包括：

8.一种数字人视频的生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的数字人视频的生成方法。

技术总结
本发明公开了一种数字人视频的生成方法、装置、电子设备和存储介质，该方法包括：获取待讲解的演示文档，根据所述演示文档的文档内容生成第一视频，并根据所述文档内容中的文本数据生成目标音频；根据所述文本数据和所述目标音频生成与所述目标音频同步的唇形图像序列；根据预设数字人形象和所述唇形图像序列生成第二视频，所述第二视频中包括与所述预设数字人形象对应的数字人；根据所述第一视频和所述第二视频生成所述数字人讲解所述演示文档的目标视频，实现在演示文档内容的同时，通过数字人对演示文档进行同步讲解，从而更加高效的对演示文档进行讲解，提升了用户体验。

技术研发人员：程平,吴松城
受保护的技术使用者：厦门黑镜科技有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程平吴松城
技术所有人：厦门黑镜科技有限公司
我是此专利的发明人

上一篇：ZIF-67衍生碳材料的应用
上一篇：基于Zigbee组网与地磁传感器的地下停车检测与数据上传系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。