个性化虚拟人的生成方法及系统

文档序号:34762983发布日期:2023-07-13 06:13阅读:32来源:国知局
个性化虚拟人的生成方法及系统与流程

本发明涉及一种个性化虚拟人的生成方法,同时也涉及相应的个性化虚拟人生成系统,属于人机交互。


背景技术:

1、广义的虚拟人指由计算机动画(computer graphics,简称为cg)技术构建、以代码形式运行的拟人化形象。概括地说,虚拟人、数字人、虚拟数字人均指通过cg技术创造出的拟人化形象,它们被赋予鲜明的人物设定,以代码与数据的形式在计算设备上运行。其中,虚拟人强调其在外观上与真人的相似性;数字人强调其存在于二进制的数字世界中,既可以是根据真人生成的1:1数字孪生,亦可以是完全虚构的形象与身份;虚拟数字人则有着更为严格的定义,根据人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》,虚拟数字人具备三大特征:1)拥有人的外观及性格特征;2)拥有通过语言、表情或肢体动作表达的能力;3)拥有识别外界环境、与人交流互动的能力。

2、虚拟人在医疗健康领域可以兼备虚拟专家和虚拟陪伴两种功能。一方面,可利用深度学习技术,自动识别临床数据指标,模拟医生思维和诊断推理,同时进行病人的检查报告分析,提供诊疗建议。另一方面,可直接服务于社区和个人用户,为不同阶层人群提供专业化智能陪伴。未来,虚拟人技术将成为人们日常体验不可缺少的一部分,在医疗健康领域带来重要的潜在应用。

3、当前,老年认知障碍疾病人群的照护服务需求呈现快速增长趋势,但家庭和社会照护服务能力却明显不足。为此,在申请号为202211006866.4的中国专利申请中,公开了一种基于神经网络的元宇宙情感陪护虚拟人实现方法及系统,陪护委托人构建客制化的元宇宙虚拟人及空间以托管与老人情感沟通的时间,提高了被陪护人在情感陪护过程中虚拟人对象的智能性,增强其在接受陪护时的真实感、亲切感与沉浸感;通过智能技术建立虚拟人聊天后端和学习系统,使虚拟人从形象到语音再到聊天内容特点都具有高度可客制化、个性化特性,解决了传统机器人情感陪护的机械死板且单一的问题,使机器情感陪护可以进行量身定制与随使用自适应学习改进;通过图像与建模技术建立虚拟人所处的场景,在场景营造、细节还原等方面逼近现实,进一步增强情感陪护过程的观感真实性,并与信息反馈机制结合,提高信息反馈效率与准确性。


技术实现思路

1、本发明所要解决的首要技术问题在于提供一种个性化虚拟人的生成方法。

2、本发明所要解决的另一技术问题在于提供一种个性化虚拟人的生成系统。

3、为实现上述目的,本发明采用以下的技术方案:

4、根据本发明实施例的第一方面,提供一种个性化虚拟人的生成方法,包括如下步骤:

5、基于目标群体的文本信息,预先建立通用虚拟人模型fm,其中,m为所述通用虚拟人模型的数量,m∈[1,m];

6、基于目标群体的声音信息,预先建立通用声音模型vn,其中,n为所述通用声音模型的数量,n∈[1,n];

7、在所述通用虚拟人模型中,获取用户偏好的通用虚拟人模型;并在所述通用声音模型中,获取用户偏好的通用声音模型;

8、获取所述用户的偏好面孔信息和偏好音乐信息;

9、基于所述用户偏好的通用虚拟人模型与所述用户的偏好面孔信息,生成个性化面孔模型;并基于所述用户偏好的通用声音模型与所述用户的偏好音乐信息,生成个性化声音模型;

10、根据所述个性化面孔模型与所述个性化声音模型,融合生成个性化虚拟人。

11、其中较优地,所述偏好面孔信息包括偏好面孔的图片或视频,以及偏好表情的图片或视频;

12、所述偏好音乐信息包括偏好音乐片段或偏好语音片段。

13、其中较优地,基于所述用户偏好的通用虚拟人模型与所述用户的偏好面孔信息,生成个性化面孔模型,具体包括如下步骤:

14、获取所述用户提供的偏好面孔的图片或视频;

15、将所述偏好面孔的图片或视频输入平均脸算法,与符合用户偏好的通用虚拟人按照预设比例进行特征融合,以生成个性化面孔模型;其中,所述预设比例由所述用户自行设定。

16、其中较优地,所述生成方法还包括:

17、获取所述用户提供的偏好表情的图片或视频;

18、将所述偏好表情的图片或视频与所述个性化虚拟人面孔进行特征融合,以生成多表情的个性化面孔模型。

19、其中较优地,所述特征融合具体包括如下步骤:

20、在所述偏好面孔的图片或视频中提取预设数量的特征点;

21、将原始图片坐标系中特征点的位置通过相似变换转换到输出坐标系;

22、计算输出图像坐标中所有转换后的地标的平均值;

23、三角剖分目的网格化图像脸部区域,得到由预设数量个点数组中的点索引组成的三角形列表;

24、对输入图像中三角形的三个顶点和三角剖分后的平均特征点的相应点进行仿射变换;

25、将所有变形后图像的像素强度相加并除以图像数量,以进行面部平均化。

26、其中较优地,基于所述用户偏好的通用声音模型与所述用户的偏好音乐信息,生成个性化声音模型,具体包括如下步骤:

27、获取所述用户提供的偏好音乐片段或偏好语音片段;

28、通过adaspeech模型将所述偏好音乐片段或偏好语音片段与所述用户偏好的通用声音模型进行语音合成,以生成个性化声音模型。

29、其中较优地,根据所述个性化面孔模型与所述个性化声音模型,融合生成个性化虚拟人,具体包括如下步骤:

30、采用amm算法模型从所述个性化面孔模型中提取人脸表情相关参数,并建立第一数据集;

31、采用ctc模型对所述个性化声音模型进行音位信息的标定,以获取语音相关参数,并建立第二数据集;

32、采用滑动窗口预测器和深度神经网络算法对所述第一数据集和所述第二数据集进行融合训练,以形成个性化虚拟人。

33、其中较优地,所述融合训练过程,包括以下步骤:

34、将所述第二数据集按照预定长度作为滑动窗口,划分为连续重叠的子序列;

35、将每个滑动窗口的所述子序列作为输入,传递给前馈神经网络,输出对应长度的表情参数序列;

36、采用逐帧平均,融合得到每帧对应的表情参数,形成语音-表情参数集;

37、将所获取的语音-表情参数集与个性化面孔模型进行融合使用,输出面孔-声音融合后的个性化虚拟人。

38、其中较优地,所述基于目标群体的文本信息,预先建立通用虚拟人模型,具体包括如下步骤:

39、使用celeba数据集对目标群体的文本信息进行多标签文本分类,以获取预定长度的文本嵌入;其中,每一个所述文本信息均包括预定个数的面部属性标签;

40、采用图像编码器预测生成图像的特征标签,以获取符合要求的图像嵌入对应的特征标签;其中,所述符合要求表示为从噪声向量生成的图像嵌入所对应的特征标签的长度与所述文本嵌入具有相同长度;

41、通过逻辑回归获取用来生成图像的所述噪声向量与预测的生成图像的特征标签的关系矩阵;

42、对所述噪声向量进行矢量操纵,以使所述关系矩阵能够产生具有所需特征的图像;

43、采用高分辨生成器合成高分辨率的图像,从而建立通用虚拟人模型。

44、根据本发明实施例的第二方面,提供一种个性化虚拟人的生成系统,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:

45、基于目标群体的文本信息,预先建立通用虚拟人模型fm,其中,m为所述通用虚拟人模型的数量,m∈[1,m];

46、基于目标群体的声音信息,预先建立通用声音模型vn,其中,n为所述通用声音模型的数量,n∈[1,n];

47、在所述通用虚拟人模型中,获取用户偏好的通用虚拟人模型;并在所述通用声音模型中,获取用户偏好的通用声音模型;

48、获取所述用户的偏好面孔信息和偏好音乐信息;

49、基于所述用户偏好的通用虚拟人模型与所述用户的偏好面孔信息,生成个性化面孔模型;并基于所述用户偏好的通用声音模型与所述用户的偏好音乐信息,生成个性化声音模型;

50、根据所述个性化面孔模型与所述个性化声音模型,融合生成个性化虚拟人。

51、与现有技术相比较,本发明具有以下的技术效果:

52、1. 通过真实场景中的医生形象建模,采用人脸融合技术提取医生共有的面部特征值,建立虚拟医生模版,进一步通过用户自主选择熟悉的面孔和声音,与虚拟人进行融合生成高度个性化的虚拟人。

53、2. 通过用户提供的表情图片或视频能够为面孔特征赋予不同的表情,反应实时的情绪变化,生成具有良好的可信度、真实感和依从性的虚拟人形象。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1