本发明涉及人工智能,具体为一种通过文本智能生成短视频的ai gc方法。
背景技术:
1、随着智能手机和互联网的普及,大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了文本、图像、短视频的多模态数据。
2、随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络、门控循环单元解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、lstm或分层lstm处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器,其将视频划分为多个短视频,将短视频输入低层lstm得到每个短视频的特征表示,再将短视频特征表示输入高层lstm用以捕获更长视频时序信息,高层lstm最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型,通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络,将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
3、然而,由于文本和视频属于两种不同结构的数据模态,难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟。同时传统的视频生成并未将文本作为潜在向量,大多直接从噪声中生成视频,而不是从语义文本中生成视频,导致视频偏差较大。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种通过文本智能生成短视频的ai gc方法,解决了传统方法中难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟的问题。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:一种通过文本智能生成短视频的ai gc方法,具体包括以下步骤:
5、步骤1.文本解析获取
6、获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
7、步骤2.向量特征关联
8、根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
9、步骤3.向量拼接
10、利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
11、步骤4.模型图像生成
12、输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
13、步骤5.短视频生成
14、利用基于图像动态化gan网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
15、优选的,所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
16、优选的,所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
17、优选的,所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
18、优选的,所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用l eakyrelu再与噪声向量拼接组合。
19、优选的,所述步骤4中的所述深度图估计模型为dpt模型,其中dpt模型使用vi t作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
20、优选的,所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
21、优选的,所述步骤5中的图像动态化gan网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。
22、(三)有益效果
23、本发明提供了一种通过文本智能生成短视频的ai gc方法。具备以下有益效果:
24、1、本发明提供了一种通过文本智能生成短视频的ai gc方法,通过将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容;同时将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,提高了短视频生成的效率,且促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
1.一种通过文本智能生成短视频的aigc方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
3.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
4.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
5.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用leaky relu再与噪声向量拼接组合。
6.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤4中的所述深度图估计模型为dpt模型,其中dpt模型使用vit作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
7.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
8.根据权利要求1所述的一种通过文本智能生成短视频的aigc方法,其特征在于:所述步骤5中的图像动态化gan网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。