视频合成方法、装置、设备及存储介质与流程

文档序号：31863567发布日期：2022-10-19 07:13阅读：来源：国知局

技术特征：
1.一种视频合成方法，其特征在于，包括：获取音频帧序列和人脸图像帧序列，其中，所述音频帧序列与所述人脸图像帧序列在时间上对齐；利用视频合成模型，对所述音频帧序列进行多个第一预设尺度的下采样，得到所述音频帧序列中每个音频帧对应的多个音频特征图；利用所述视频合成模型，对所述人脸图像帧序列进行多个第二预设尺度的下采样，得到所述人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；针对每个音频帧，利用所述视频合成模型，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，并对所述多个融合图像帧进行拼接处理，得到该音频帧对应的图像帧；将每个音频帧和与其对应的图像帧合成，得到所述音频帧序列对应的视频帧序列。2.根据权利要求1所述的方法，其特征在于，所述对所述音频帧序列进行多个第一预设尺度的下采样，得到所述音频帧序列中每个音频帧对应的多个音频特征图包括：针对每个音频帧，基于所述第一预设尺度修改该音频帧的采样个数、采样位数和/或通道数，得到所述音频特征图。3.根据权利要求1所述的方法，其特征在于，所述对所述人脸图像帧序列进行多个第二预设尺度的下采样，得到所述人脸图像序列中每个人脸图像帧对应的多个人脸图像特征图包括：针对每个人脸图像帧，每间隔第一预设行、第一预设列采集关键点，得到所述人脸图像特征图，其中，所述第一预设行和所述第一预设列与所述第二预设尺度对应。4.根据权利要求1-3中任一项所述的方法，其特征在于，所述针对每个音频帧，利用所述视频合成模型，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，包括：针对音频帧对应的多个音频特征图中的每个音频特征图，将该音频特征图和与其尺度不同的一音频特征图基于采样和卷积进行融合处理，得到该音频特征图对应的音频融合特征图；针对音频帧对应的多个人脸图像特征图中的每个人脸图像特征图，将该人脸图像特征图和与其尺度不同的一人脸图像特征图基于采样和卷积进行融合处理，得到该音频特征图对应的人脸图像融合特征图；将每个音频帧对应的多个音频融合特征图和多个人脸图像融合特征图中具有相同尺度的音频融合特征图和人脸图像融合特征图进行融合处理，以得到所述多个融合图像帧。5.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述多个融合图像帧进行拼接处理，得到所述音频帧对应的图像帧，包括：针对所述多个融合图像帧，重复执行以下操作直至尺寸最大的融合图像帧完成拼接：将所述多个融合图像帧中尺度最小的融合图像帧进行上采样处理得到第一融合图像帧，并将所述第一融合图像帧与所述多个融合图像帧中尺度次小的融合图像帧进行拼接处理，作为新的尺度最小的融合图像帧。6.根据权利要求1-3中任一项所述的方法，其特征在于，所述视频合成模型是通过以下方式训练得到的：
获取样本视频；从所述样本视频中抽取出样本音频帧序列和样本人脸图像帧序列；将所述样本音频帧序列和第一样本人脸图像帧序列输入生成模型，得到第二样本人脸图像帧序列，其中，所述第一样本人脸图像帧序列是通过对所述样本人脸图像帧序列进行预处理得到的，所述样本音频帧序列、所述第一样本人脸图像帧序列和所述第二样本人脸图像帧序列在时间上对齐；利用对抗模型，确定所述样本人脸图像帧序列与所述第二样本人脸图像帧序列的差异，其中，所述差异包括所述样本人脸图像帧序列和所述第二样本人脸图像帧序列分别在多个第三预设尺度下的差异；基于所述差异对所述生成模型和所述对抗模型进行参数调整，直至样本人脸图像帧序列与第二样本人脸图像帧序列的差异小于预设阈值。7.根据权利要求1-3中任一项所述的方法，其特征在于，所述音频帧序列中音频帧的数量与所述视频合成模型所部署至的设备的硬件性能正相关。8.一种视频合成方法装置，其特征在于，包括：获取模块，用于获取音频帧序列和人脸图像帧序列，其中，所述音频帧序列与所述人脸图像帧序列在时间上对齐；第一下采样模块，用于利用视频合成模型，对所述音频帧序列进行多个第一预设尺度的下采样，得到所述音频帧序列中每个音频帧对应的多个音频特征图；第二下采样模块，用于利用所述视频合成模型，对所述人脸图像帧序列进行多个第二预设尺度的下采样，得到所述人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；拼接模块，用于针对每个音频帧，利用所述视频合成模型，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，并对所述多个融合图像帧进行拼接处理，得到该音频帧对应的图像帧；合成模块，用于将每个音频帧和与其对应的图像帧合成，得到所述音频帧序列对应的视频帧序列。9.一种电子设备，其特征在于，包括：处理器；以及存储程序的存储器，其中，程序包括指令，指令在由处理器执行时使处理器执行根据权利要求1-7中任一项的视频合成方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据权利要求1-7中任一项的视频合成方法。

技术总结
本公开涉及一种视频合成方法、装置、设备及存储介质。该方法包括：得到音频帧序列中每个音频帧对应的多个音频特征图；得到人脸图像帧序列中每个人脸图像帧对应的多个人脸图像特征图；针对每个音频帧，基于该音频帧对应的多个音频特征图和多个人脸图像特征图中具有相同尺度的音频特征图和人脸图像特征图，得到该音频帧对应的多个融合图像帧，对多个融合图像帧进行拼接处理，得到该音频帧对应的图像帧；将每个音频帧和与其对应的图像帧合成，得到音频帧序列对应的视频帧序列。根据本公开实施例能够提高推理出的图像帧的合理性和平滑性，避免出现抖动的问题，还可使图像帧语义信息更加丰富，纹理和细节更加逼真，有利于提高视频合成质量。视频合成质量。视频合成质量。

技术研发人员：郎彦王鹏程冀志龙
受保护的技术使用者：北京世纪好未来教育科技有限公司
技术研发日：2022.08.08
技术公布日：2022/10/18

完整全部详细技术资料下载

当前第2页1 2