基于数字人的视频生成与交互方法、设备、存储介质与程序产品与流程

文档序号：37336121发布日期：2024-03-18 18:01阅读：11来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及人工智能，尤其涉及一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品。

背景技术：

1、随着人工智能和大模型技术的快速进步，出现了数字人技术。数字人是指具有数字化外形的虚拟人物，具有形象能力、感知能力、表达能力和互动能力，被广泛应用在直播、短视频以及在线客服等各种领域中，用以增强服务质量和用户体验。

2、然而，传统数字人多以单一、标准化的音色为主进行声音和动态形象的驱动，逼真度较差，降低了用户的沉浸感和互动体验的真实性。因此，亟需一种新的数字人驱动方案。

技术实现思路

1、本申请的多个方面提供一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品，用以实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验。

2、本申请实施例提供一种基于数字人的视频生成方法，包括：接收用于在目标场景中驱动数字人模型的目标文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；根据目标用户的声音特征和目标情感标签，对目标文本信息进行语音转换，以得到与目标用户适配的目标语音信号；根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

3、本申请实施例还提供一种基于数字人的交互方法，包括：接收在目标场景中向数字人模型发起的问题信息，根据问题信息生成回复文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；根据目标用户的声音特征和目标情感标签，对回复文本信息进行语音转换，以得到与目标用户适配的目标语音信号；根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

4、本申请实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

5、本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

6、本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

7、在本申请实施例中，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

技术特征：

1.一种基于数字人的视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述目标用户的声音特征和所述目标情感标签，对所述目标文本信息进行语音转换，以得到与所述目标用户适配的目标语音信号，包括：

3.根据权利要求2所述的方法，其特征在于，将所述目标文本信息和所述目标情感标签输入目标文本转语音模型，对所述目标文本信息进行语音转换，以得到所述目标语音信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标文本转语音模型包括：文本特征编码网络和语音特征解码网络；

5.根据权利要求4所述的方法，其特征在于，所述文本特征编码网络包括：文本特征学习模块、向量化模块和文本编码器；

6.根据权利要求4所述的方法，其特征在于，所述语音特征解码网络包括：文本特征投影模块、语音长度预测器和语音解码器；

7.根据权利要求2-6任一项所述的方法，其特征在于，还包括：

8.根据权利要求1-6任一项所述的方法，其特征在于，根据所述目标用户的声音特征和表情系数之间的映射关系，对所述目标语音信号进行表情映射，以得到与所述目标语音信号适配的目标表情系数序列，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标语音转表情模型包括：语音特征编码网络、表情特征解码网络和线性化网络；

10.根据权利要求8所述的方法，其特征在于，还包括：

11.根据权利要求1-6任一项所述的方法，其特征在于，所述数字人模型为3d高斯模型，所述根据所述目标语音信号和所述目标表情系数序列，对所述数字人模型进行渲染，以得到所述数字人模型的视频数据，包括：

12.一种基于数字人的交互方法，其特征在于，包括：

13.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-12中任一项所述方法中的步骤。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-12中任一项所述方法中的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使所述处理器能够实现权利要求1-12中任一项所述方法中的步骤。

技术总结
本申请实施例提供一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品，在本申请实施例中，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

技术研发人员：俞洪蕴,王云峰,孙泽锋,陈志文,宋亚运,吕承飞
受保护的技术使用者：淘宝（中国）软件有限公司
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞洪蕴,王云峰,孙泽锋,陈志文,宋亚运,吕承飞
技术所有人：淘宝（中国）软件有限公司
我是此专利的发明人

上一篇：一种大底成型机的制作方法
上一篇：一种各向同性钕铁硼快淬磁粉制样装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。