一种生成视频描述的方法

文档序号：27111605发布日期：2021-10-27 18:46阅读：来源：国知局

技术特征：
1.一种生成视频描述的方法，其特征在于，所述方法包括：s1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性；s2、通过细粒度场景图优化器，将初步提取的实体、关系和属性转化为优化场景图，将优化场景图作为视频语义及其结构的表示；s3、将视频和优化场景图输入场景图引导文本生成模型，生成符合视频和场景图内容的文本；场景图为准确场景图时，生成准确的视频描述，场景图为多样场景图时，生成多样可控的视频描述。2.根据权利要求1所述的方法，其特征在于，所述细粒度场景图优化器的训练方法包括：s11、从训练集中提取视频帧序列以及对应的视频文本描述；s12、使用所述开源的预训练模型从视频帧中提取实体o、实体区域特征f
r
、关系r和属性a；s21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图，并将其和所述实体o、关系r和属性a进行对比，保留共同的部分，得到对齐场景图sg；s22、细粒度场景图优化器包括多个跨模态分类器，将视频帧序列与所述实体o、关系r和属性a输入所述多个跨模态分类器，将对齐场景图sg的节点作为分类器的训练目标，使用反向传播算法训练所述多个跨模态分类器，从而得到所述细粒度场景图优化器；s23、使用细粒度场景图优化器对上述实体o关系r和属性a进行分类并优化节点，将优化节点合并得到优化场景图，其中，以视频单帧为输入得到的场景图为多样场景图sg
i
，以视频帧序列作为输入提取的场景图为准确场景图sg
g
。3.根据权利要求1所述的方法，其特征在于，在所述步骤s2中，以视频单帧为输入得到的优化场景图为多样场景图sg
i
，以视频帧序列作为输入得到的优化场景图为准确场景图sg
g
。4.根据权利要求2所述的方法，其特征在于，所述步骤s22中，所述场景图优化器的训练公式为：v＝bilstm(f)lstm(f)lstm(f)其中，x为所述多个跨模态分类器的输入，其中实体分类器的输入为实体的word2vec向量embedding(o||f
r
)，实体组合分类器的输入为embedding(o1||o2)，关系分类器的输入为embedding(o1||r||o2)，属性分类器的输入为embedding(o||a)；y为分类器的标注数据，若输入x出现在对齐场景图sg中，则标注为1，否则标注为0；σ为sigmoid激活函数；表示逐元素相乘，表示逐元素相加，||表示向量串联；为所述多个跨模态分类器的参数集合。5.根据权利要求1所述的方法，其特征在于，在所述步骤s3中，所述场景图引导文本生成模型的训练方法包括：s31、使用图卷积网络gcn对准确场景图sg
g
的图节点x进行编码计算，得到图节点编码
并构造准确场景图的邻接矩阵m
g
，其中n
g
为图节点数量；s32、通过预训练的视频编码器对视频帧序列进行编码，得到视频帧向量s33、使用序列模型lstm分步循环生成文本，每一步代表一个词，当生成第t个词w
t
时(t∈[1,n
w
])，首先将上一步的词w
t
‑1输入到注意力解码器attention lstm进行解码，并对视频帧向量序列v应用时序注意力，对图节点序列n及邻接矩阵m
g
应用场景图流动注意力，得到视频帧与图节点的上下文向量与s34、使用上下文融合模块计算视频与场景图两种不同输入的权重，并对两个来自不同输入的上下文向量进行加权求和，得到最终的上下文向量c
t
；s35、使用文本解码器language lstm对上下文向量c
t
进行解码，并根据概率分布得到当前步的文本w
t
，通过反向传播算法训练场景图引导文本生成模型。6.根据权利要求5所述的方法，其特征在于，所述步骤s31中，所述图卷积网络的计算公式为：对于输入节点x
i
：：其中，σ为relu激活函数，n
i
为节点x
i
在场景图中的邻居节点数。7.根据权利要求5所述的方法，其特征在于，所述步骤s33中，所述注意力解码器和时序注意力的计算公式为：注意力的计算公式为：注意力的计算公式为：其中，为视频向量v和图节点编码n的平均值。8.根据权利要求7所述的方法，其特征在于，在步骤s33中，为每个场景图标注起始节点，在每次生成的起始时刻将起始图节点注意力赋为1，其余节点赋为0，在之后的生成过程中，节点的变化可分为5种情况，对应5种不同的流动注意力(1)原地不动，一个节点对应多个词语的情况，(2)移动一步，节点向前移动一步，(m为邻接矩阵)；(3)移动两步，节点向前移动两步，(4)移动三步，节点向前移动三步，(5)节点无关，当前词语与节点内容无关，则使用常规方法计算注意力
以下为图节点流动注意力的计算公式：以下为图节点流动注意力的计算公式：以下为图节点流动注意力的计算公式：其中，代表5种不同情况的流动注意力。9.根据权利要求5所述的方法，其特征在于，所述步骤s34中，所述计算权重的公式为：9.根据权利要求5所述的方法，其特征在于，所述步骤s34中，所述计算权重的公式为：其中，β
t
为多模态融合权重，ct为多模态上下文向量。10.根据权利要求5所述的方法，其特征在于，所述步骤s35中，所述文本解码器的文本生成计算公式为：其中，language lstm通过下式生成当前步的词概率分布：所述反向传播算法的损失函数为：其中，θ为场景图引导文本生成模型的参数集合。

技术总结
本发明提供一种生成视频描述的方法，包括：S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性；S2、通过细粒度场景图优化器，将初步提取的实体、关系和属性转化为优化场景图，将优化场景图作为视频语义及其结构的表示；S3、将视频和优化场景图输入场景图引导文本生成模型，生成符合视频和场景图内容的文本；场景图为准确场景图时，生成准确的视频描述，场景图为多样场景图时，生成多样可控的视频描述。本发明可以在准确生成的基础上做到可控生成，在实际应用中，用户可以根据视频中感兴趣的实体或关系构造场景图，并利用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。

技术研发人员：高扬陆旭阳
受保护的技术使用者：北京理工大学
技术研发日：2021.07.28
技术公布日：2021/10/26

完整全部详细技术资料下载

当前第2页1 2