文本生成方法、装置、计算机设备及介质与流程

文档序号：31406585发布日期：2022-09-03 07:05阅读：来源：国知局

技术特征：
1.一种文本生成方法，其特征在于，所述方法包括：获取目标视频的图像信息与文本信息；将所述图像信息与所述文本信息输入视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述目标视频的图像特征，通过所述视频特征提取模型的文本特征提取子模型对所述文本信息进行特征提取，得到所述目标视频的文本特征；通过所述视频特征提取模型的文本生成子模型所包括的自注意力层，对所述图像特征与所述文本特征进行处理，输出自注意力分值达到文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本。2.根据权利要求1所述的文本生成方法，其特征在于，所述内容描述文本包括内容类目描述文本、内容形式描述文本、内容主题描述文本以及内容详情描述文本中的至少一类。3.根据权利要求1所述的文本生成方法，其特征在于，所述内容描述文本包括多个类型的内容描述文本；所述通过所述视频特征提取模型的文本生成子模型所包括的自注意力层，对所述图像特征与所述文本特征进行处理，输出自注意力分值达到文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本之前，所述方法还包括：对所述图像特征与所述文本特征进行拼接，得到拼接特征；在所述拼接特征上，添加各个类型的类型标识；所述通过所述视频特征提取模型的文本生成子模型所包括的自注意力层，对所述图像特征与所述文本特征进行处理，输出自注意力分值达到文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本包括：将添加所述类型标识后的拼接特征输入所述文本生成子模型，通过所述文本生成子模型所包括的自注意力层，分别基于各个类型标识对应的处理机制，对所述拼接特征进行处理，输出所述自注意力分值达到所述文本生成条件的多个字符，基于所述多个字符生成所述目标视频的多个类型的内容描述文本。4.根据权利要求1所述的文本生成方法，其特征在于，所述视频特征提取模型的训练过程包括：在模型训练的第i次迭代过程中，将样本视频的图像信息与文本信息输入第i-1次迭代过程所确定的视频特征提取模型，得到第i次迭代过程的文本训练结果，所述i为大于1的正整数；基于所述第i次迭代过程的文本训练结果与所述样本视频的描述文本标签，确定所述第i次迭代过程的模型损失值；基于所述第i次迭代过程的模型损失值，对所述第i-1次迭代过程所确定的视频特征提取模型的模型参数进行调整，基于调整后的所述模型参数进行第i+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。5.根据权利要求4所述的文本生成方法，其特征在于，所述内容描述文本包括多个类型的内容描述文本；所述基于所述第i次迭代过程的文本训练结果与所述样本视频的描述文本标签，确定所述第i次迭代过程的模型损失值包括：
对于任一类型，基于所述第i次迭代过程在所述类型上的文本训练结果与所述样本视频在所述类型上的描述文本标签，确定所述第i次迭代过程在所述类型上的损失值；基于所述第i次迭代过程在所述多个类型上的损失值以及所述视频特征提取网络在所述多个类型上的权重系数，进行加权求和，得到所述第i次迭代过程的模型损失值。6.根据权利要求5所述的文本生成方法，其特征在于，所述基于所述第i次迭代过程在所述多个类型上的损失值以及所述视频特征提取网络在所述多个类型上的权重系数，进行加权求和，得到所述第i次迭代过程的模型损失值之前，所述方法还包括：对于任一类型，基于所述第i次迭代过程在所述类型上的正确文本数量以及总文本数量，确定所述第i次迭代过程在所述类型上的正确比例，所述正确比例表示在所述第i次迭代过程中正确文本数量占总文本数量的比例；基于所述第i次迭代过程在所述类型上的正确比例，确定所述视频特征提取网络在所述类型上的权重系数，其中，所述正确比例与所述权重系数成负相关。7.一种文本生成装置，其特征在于，所述装置包括：获取单元，被配置为执行获取目标视频的图像信息与文本信息；提取单元，被配置为执行将所述图像信息与所述文本信息输入视频特征提取模型，通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取，得到所述目标视频的图像特征，通过所述视频特征提取模型的文本特征提取子模型对所述文本信息进行特征提取，得到所述目标视频的文本特征；处理单元，被配置为执行通过所述视频特征提取模型的文本生成子模型所包括的自注意力层，对所述图像特征与所述文本特征进行处理，输出自注意力分值达到文本生成条件的多个字符，基于所述多个字符生成所述目标视频的内容描述文本。8.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；用于存储所述处理器可执行程序代码的存储器；其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至6中任一项所述的文本生成方法。9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至6中任一项所述的文本生成方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本生成方法。

技术总结
本公开关于一种文本生成方法、装置、计算机设备及介质，属于计算机技术领域。本公开实施例中，通过在视频特征提取模型中构建图像特征提取子模型和文本特征提取子模型的双流架构，能够精确地提取到目标视频的图像特征和文本特征，且，通过在视频特征提取模型中设置文本生成子模型，对该目标视频的图像特征和文本特征进行处理，能够输出自注意力分值达到文本生成条件的多个字符，进而基于所输出的多个字符能够自动生成该目标视频的内容描述文本，提供了一种基于文本生成的视频特征提取模型，所生成的内容描述文本包含了丰富的信息量，能够更好的表征该目标视频，提升了视频表征的准确性。性。性。

技术研发人员：林和政吴翔宇
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：2022.05.31
技术公布日：2022/9/2

完整全部详细技术资料下载

当前第2页1 2