图生视频方法、设备、存储介质及程序产品与流程

文档序号：41613623发布日期：2025-04-11 18:13阅读：4来源：国知局

本申请涉及计算机，特别涉及一种图生视频方法、设备、存储介质及程序产品。

背景技术：

1、图生视频模型是依赖于深度学习和特征提取技术得到的模型，用户输入图像和文字提示信息，即可生成高质量的视频内容。

2、相关技术中，将图像和文本提示信息输入至预先设定的图生视频模型，通过一个空间模块对输入的图像和文本提示信息进行空间特征提取，生成第一特征处理结果。然后通过时序自注意力模块对第一特征处理结果进行处理，生成第二样本特征。最后，通过运动适配器模块对图像进行运动信息的控制，生成预测视频数据，以确保加工后的内容更加生动且具备运动感。

3、然而，上述图生视频的过程中，由于图生视频模型是对输入图像进行整体运动绘制，使得图像中的主体区域和背景区域均会产生运动，导致视频内容容易出现不流畅、不合理等瑕疵，视频效果不可控。

技术实现思路

1、本申请实施例提供了一种图生视频方法、设备、存储介质及程序产品。本申请实施例提供的技术方案如下：

2、根据本申请实施例的一个方面，提供了一种图生视频方法，所述方法包括：

3、获取输入图像；

4、对所述输入图像执行区域分割，得到所述输入图像中的主体对应的主体图像；

5、通过轨迹生成模型根据所述主体图像，生成所述主体图像对应的轨迹数据，所述轨迹数据用于指示所述主体图像中的主体在所要生成视频中的运动轨迹；

6、通过图生视频模型根据所述主体图像和所述轨迹数据，生成所述主体图像对应的运动视频，所述主体图像对应的运动视频是所述主体图像中的主体按照所述主体图像对应的运动轨迹进行运动的视频。

7、根据本申请实施例的一个方面，提供了一种图生视频装置，所述装置包括：

8、图像获取模块，用于获取输入图像；

9、区域分割模块，用于对所述输入图像执行区域分割，得到所述输入图像中的主体对应的主体图像；

10、轨迹生成模块，用于通过轨迹生成模型根据所述主体图像，生成所述主体图像对应的轨迹数据，所述轨迹数据用于指示所述主体图像中的主体在所要生成视频中的运动轨迹；

11、图生视频模块，用于通过图生视频模型根据所述主体图像和所述轨迹数据，生成所述主体图像对应的运动视频，所述主体图像对应的运动视频是所述主体图像中的主体按照所述主体图像对应的运动轨迹进行运动的视频。

12、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图生视频方法。

13、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图生视频方法。

14、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图生视频方法。

15、本申请实施例提供的技术方案可以带来如下有益效果：

16、通过分割输入图像中的主体得到主体图像，使得轨迹生成模型所生成的轨迹数据是针对主体图像中的主体的运动数据，从而使得运动视频是主体图像中的主体进行运动的视频，相较于相关技术中生成的运动视频是主体区域和背景区域均会产生运动的视频，本申请的技术方案去除了输入图像中的背景区域，保证运动视频中主体运动的独有性，从而避免保留背景区域而导致的主体和背景同时运动所产生的不合理或不流畅等瑕疵问题，提高了运动视频的合理性和流畅度，即提高了运动视频的生成质量和生成效果，也提高了图生视频的稳定性和可控性。

技术特征：

1.一种图生视频方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过轨迹生成模型根据所述主体图像，生成所述主体图像对应的轨迹数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述参考数据包括以下至少之一：

4.根据权利要求3所述的方法，其特征在于，所述通过所述轨迹生成模型根据所述主体图像和所述参考数据，生成所述主体图像对应的轨迹数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过图生视频模型根据所述主体图像和所述轨迹数据，生成所述主体图像对应的运动视频，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述图生视频模型根据所述主体图像、所述轨迹数据和所述参考音频，生成配置有所述参考音频的所述运动视频，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取输入图像之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述瑕疵区域包括以下至少之一：文字区域、标识区域；

9.根据权利要求7所述的方法，其特征在于，所述通过视觉语言模型根据所述输入图像，得到所述输入图像对应的提示词，包括：

10.根据权利要求1所述的方法，其特征在于，所述通过图生视频模型根据所述主体图像和所述轨迹数据，生成所述主体图像对应的运动视频之后，还包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的图生视频方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的图生视频方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的图生视频方法。

技术总结
本申请公开了一种图生视频方法、设备、存储介质及程序产品，涉及计算机技术领域。所述方法包括：获取输入图像；对输入图像执行区域分割，得到输入图像中的主体对应的主体图像；通过轨迹生成模型根据主体图像，生成主体图像对应的轨迹数据，轨迹数据用于指示主体图像中的主体在所要生成视频中的运动轨迹；通过图生视频模型根据主体图像和轨迹数据，生成主体图像对应的运动视频，主体图像对应的运动视频是主体图像中的主体按照主体图像对应的运动轨迹进行运动的视频。本申请使得运动视频是主体图像中的主体进行运动的视频，保证了运动视频中主体运动的独有性，提高了运动视频的生成质量和生成效果，也提高了图生视频的稳定性和可控性。

技术研发人员：刘春宇,左隆湘
受保护的技术使用者：广州酷狗计算机科技有限公司
技术研发日：
技术公布日：2025/4/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘春宇,左隆湘
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：基于光闸系统下实现多任务文件摆渡落盘的方法与流程
上一篇：站点确定方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。