视频生成方法、装置、介质及电子设备与流程

文档序号：36656345发布日期：2024-01-06 23:44阅读：27来源：国知局

本公开涉及计算机领域，具体地，涉及一种视频生成方法、装置、介质及电子设备。

背景技术：

1、随着计算机技术的发展，视频生成也逐渐简便起来。相关技术中用户可以直接基于文本生成相应的视频，从而可以有效简化用户的操作。

2、相关技术中，从文本直接生成视频的方法可以包含直接基于深度神经网络模型进行端到端的训练的模型，从而获得连续变化的视频。又或者基于检索匹配的方法，如用户输入一段文字后，基于该文本从素材库内匹配最相符的素材，然后基于匹配到的素材生成视频。然而由于素材库内素材和模型学习特征的限制，使得生成的视频流畅度和准确度不足。

技术实现思路

1、提供该
技术实现要素：
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、第一方面，本公开提供一种视频生成方法，所述方法包括：

3、对目标文本进行分镜检测，获得所述目标文本对应的多个分镜文本；

4、针对每一所述分镜文本，确定所述分镜文本对应的提示词序列，所述提示词序列中的每一提示词用于描述所述分镜文本的特征；

5、根据所述提示词序列，生成所述分镜文本对应的分镜图像；

6、根据所述分镜图像和所述分镜文本，生成所述目标文本对应的目标视频。

7、第二方面，本公开提供一种视频生成装置，所述装置包括：

8、处理模块，用于对目标文本进行分镜检测，获得所述目标文本对应的多个分镜文本；

9、确定模块，用于针对每一所述分镜文本，确定所述分镜文本对应的提示词序列，所述提示词序列中的每一提示词用于描述所述分镜文本的特征；

10、第一生成模块，用于根据所述提示词序列，生成所述分镜文本对应的分镜图像；

11、第二生成模块，用于根据所述分镜图像和所述分镜文本，生成所述目标文本对应的目标视频。

12、第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面所述方法的步骤。

13、第四方面，本公开提供一种电子设备，包括：

14、存储装置，其上存储有计算机程序；

15、处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面所述方法的步骤。

16、由此，通过上述技术方案，针对各种长度的目标文本，可以通过对其进行分镜检测，获得多个分镜文本，进而基于分镜文本进行后续处理，使得该方法可以适用于较长文本下的视频生成场景，提高视频生成方法的使用范围和准确性。并且，基于分镜文本进行图像生成，一方面方案可以保证目标文本中的短文本拆分的合理性和有效性，既可以提高视频生成的效率，又能在一定程度上保证分镜文本中的特征的统一性和全面性，以分镜为单位进行图像生成，可以有效提高图像生成的准确性以及与分镜文本之间的匹配度，进而保证目标视频生成的准确性。另外，基于本公开提供的方案可以直接实现文本到视频的生成，无需预先生成多种素材，从而可以有效避免素材的单一性和覆盖范围小对生成的视频的影响，节省素材资源的同时，保证视频生成的多样性，提升用户使用体验。

17、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

技术特征：

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述分镜文本对应的提示词序列，包括：

3.根据权利要求1所述的方法，其特征在于，在针对每一所述分镜文本，确定所述分镜文本对应的提示词序列的步骤之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述提示词序列，生成所述分镜文本对应的分镜图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标文本中的每一所述分镜文本对应的图像类型相同。

6.根据权利要求1所述的方法，其特征在于，所述根据所述分镜图像和所述分镜文本，生成所述目标文本对应的目标视频，包括：

7.根据权利要求1所述的方法，其特征在于，所述对目标文本进行分镜检测，获得所述目标文本对应的多个分镜文本，包括：

8.一种视频生成装置，其特征在于，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

技术总结
本公开涉及一种视频生成方法、装置、介质及电子设备，所述方法包括：对目标文本进行分镜检测，获得所述目标文本对应的多个分镜文本；针对每一所述分镜文本，确定所述分镜文本对应的提示词序列，所述提示词序列中的每一提示词用于描述所述分镜文本的特征；根据所述提示词序列，生成所述分镜文本对应的分镜图像；根据所述分镜图像和所述分镜文本，生成所述目标文本对应的目标视频。由此可以适用于较长文本下的视频生成场景，提高视频生成方法的使用范围和准确性。并且，基于分镜文本进行图像生成，一方面方案可以保证目标文本中的短文本拆分的合理性和有效性，既可以提高视频生成的效率，又能在一定程度上保证分镜文本中的特征的统一性和全面性。

技术研发人员：张飞,李嘉桐,叶芷,罗世楷
受保护的技术使用者：抖音视界有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张飞,李嘉桐,叶芷,罗世楷
技术所有人：抖音视界有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。