一种生成视频描述的方法

文档序号:27111605发布日期:2021-10-27 18:46阅读:来源:国知局

技术特征:
1.一种生成视频描述的方法,其特征在于,所述方法包括:s1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;s2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;s3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。2.根据权利要求1所述的方法,其特征在于,所述细粒度场景图优化器的训练方法包括:s11、从训练集中提取视频帧序列以及对应的视频文本描述;s12、使用所述开源的预训练模型从视频帧中提取实体o、实体区域特征f
r
、关系r和属性a;s21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图,并将其和所述实体o、关系r和属性a进行对比,保留共同的部分,得到对齐场景图sg;s22、细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体o、关系r和属性a输入所述多个跨模态分类器,将对齐场景图sg的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器;s23、使用细粒度场景图优化器对上述实体o关系r和属性a进行分类并优化节点,将优化节点合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图sg
i
,以视频帧序列作为输入提取的场景图为准确场景图sg
g
。3.根据权利要求1所述的方法,其特征在于,在所述步骤s2中,以视频单帧为输入得到的优化场景图为多样场景图sg
i
,以视频帧序列作为输入得到的优化场景图为准确场景图sg
g
。4.根据权利要求2所述的方法,其特征在于,所述步骤s22中,所述场景图优化器的训练公式为:v=bilstm(f)lstm(f)lstm(f)其中,x为所述多个跨模态分类器的输入,其中实体分类器的输入为实体的word2vec向量embedding(o||f
r
),实体组合分类器的输入为embedding(o1||o2),关系分类器的输入为embedding(o1||r||o2),属性分类器的输入为embedding(o||a);y为分类器的标注数据,若输入x出现在对齐场景图sg中,则标注为1,否则标注为0;σ为sigmoid激活函数;表示逐元素相乘,表示逐元素相加,||表示向量串联;为所述多个跨模态分类器的参数集合。5.根据权利要求1所述的方法,其特征在于,在所述步骤s3中,所述场景图引导文本生成模型的训练方法包括:s31、使用图卷积网络gcn对准确场景图sg
g
的图节点x进行编码计算,得到图节点编码
并构造准确场景图的邻接矩阵m
g
,其中n
g
为图节点数量;s32、通过预训练的视频编码器对视频帧序列进行编码,得到视频帧向量s33、使用序列模型lstm分步循环生成文本,每一步代表一个词,当生成第t个词w
t
时(t∈[1,n
w
]),首先将上一步的词w
t
‑1输入到注意力解码器attention lstm进行解码,并对视频帧向量序列v应用时序注意力,对图节点序列n及邻接矩阵m
g
应用场景图流动注意力,得到视频帧与图节点的上下文向量与s34、使用上下文融合模块计算视频与场景图两种不同输入的权重,并对两个来自不同输入的上下文向量进行加权求和,得到最终的上下文向量c
t
;s35、使用文本解码器language lstm对上下文向量c
t
进行解码,并根据概率分布得到当前步的文本w
t
,通过反向传播算法训练场景图引导文本生成模型。6.根据权利要求5所述的方法,其特征在于,所述步骤s31中,所述图卷积网络的计算公式为:对于输入节点x
i
::其中,σ为relu激活函数,n
i
为节点x
i
在场景图中的邻居节点数。7.根据权利要求5所述的方法,其特征在于,所述步骤s33中,所述注意力解码器和时序注意力的计算公式为:注意力的计算公式为:注意力的计算公式为:其中,为视频向量v和图节点编码n的平均值。8.根据权利要求7所述的方法,其特征在于,在步骤s33中,为每个场景图标注起始节点,在每次生成的起始时刻将起始图节点注意力赋为1,其余节点赋为0,在之后的生成过程中,节点的变化可分为5种情况,对应5种不同的流动注意力(1)原地不动,一个节点对应多个词语的情况,(2)移动一步,节点向前移动一步,(m为邻接矩阵);(3)移动两步,节点向前移动两步,(4)移动三步,节点向前移动三步,(5)节点无关,当前词语与节点内容无关,则使用常规方法计算注意力
以下为图节点流动注意力的计算公式:以下为图节点流动注意力的计算公式:以下为图节点流动注意力的计算公式:其中,代表5种不同情况的流动注意力。9.根据权利要求5所述的方法,其特征在于,所述步骤s34中,所述计算权重的公式为:9.根据权利要求5所述的方法,其特征在于,所述步骤s34中,所述计算权重的公式为:其中,β
t
为多模态融合权重,ct为多模态上下文向量。10.根据权利要求5所述的方法,其特征在于,所述步骤s35中,所述文本解码器的文本生成计算公式为:其中,language lstm通过下式生成当前步的词概率分布:所述反向传播算法的损失函数为:其中,θ为场景图引导文本生成模型的参数集合。

技术总结
本发明提供一种生成视频描述的方法,包括:S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。本发明可以在准确生成的基础上做到可控生成,在实际应用中,用户可以根据视频中感兴趣的实体或关系构造场景图,并利用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。


技术研发人员:高扬 陆旭阳
受保护的技术使用者:北京理工大学
技术研发日:2021.07.28
技术公布日:2021/10/26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1