本发明涉及机器视觉及深度学习技术领域,特别是涉及一种语言描述引导的视频时序定位方法、系统。
背景技术:
视频时序定位作为一项新提出的关键任务,在人机交互和跨媒体分析领域中具有潜在应用,其目标是根据提供的文本描述,对某个给定视频进行时序定位,即输入一句话,通过模型定位出这句话所包含的意思在该视频中的时序片段(起始帧及终止帧)。
现有技术采用全监督的方式,在视频片段和相对应的语言描述之间进行映射。但是,获取细粒度的标注是一项艰巨的任务,需要大量的人工操作,随着这项任务向着更大尺度和更加复杂的场景发展,这成为了一个关键的瓶颈。
为了避免进行昂贵、笨拙的标注,人们开始在弱监督条件下解决该任务,即从视频级监督中推断与语言相关的时序范围。但是,这种弱监督范式只有视频级语言标注,而没有说明它们相应的具体时序边界,导致边界预测的准确性降低。
技术实现要素:
本发明提出了一种语言描述引导的弱监督视频时序定位方法,根据边界自适应优化(boundaryadaptiverefinement,bar)框架,借助强化学习范式来自适应地优化时序边界,缩小跨模态语义差距,得到更精确的结果。
本发明一个实施例提供一种语言描述引导的视频时序定位方法,包括:
接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
从所述待查询视频中获取目标视频片段;
从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
进一步地,所述从所述待查询视频中获取目标视频片段的步骤包括:
对所述待查询视频进行特征提取,得到待查询视频特征集合;根据所述待查询视频特征集合获取所述目标视频片段;
其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
进一步地,所述从所述查询文字中提取文字特征信息的步骤包括:
通过glove模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至gru网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
进一步地,所述从所述目标视频片段中提取目标特征信息的步骤包括:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
其中,ai为所述目标视频片段特征信息的注意力权重,e为所述文字特征信息,θ(fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;a为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
s=l2norm(a)⊙l2norm(e)
其中,s为对齐分数值,a为视频片段信息的注意力特征,⊙为点积计算,e为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
其中,rt为奖励函数,
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
进一步地,所述根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值的步骤包括:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
其中,
通过所述目标特征信息,计算归一化位置信息:
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
其中,st为状态指令,φ为两个级联的全连接层,
将状态指令输入至gru单元,得到输出状态;
将所述输出状态输入至策略函数。
进一步地,所述在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数的步骤包括:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
本发明一个实施例提供一种语言描述引导的视频时序定位系统,包括:
查询信息组接收模块,用于接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
目标视频片段获取模块,用于从所述待查询视频中获取目标视频片段;
文字特征信息提取模块,用于从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
目标特征信息提取模块,用于从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
目标损失值计算模块,用于根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
动作参数计算模块,用于在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
优化边界模块,用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
进一步地,所述目标视频片段获取模块,还用于:
对所述待查询视频进行特征提取,得到待查询视频特征集合;
根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段;
所述文字特征信息提取模块,还用于:
通过glove模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至gru网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令;
所述目标特征信息提取模块,还用于:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
其中,ai为所述目标视频片段特征信息的注意力权重,e为所述文字特征信息,θ(fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;a为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
s=l2norm(a)⊙l2norm(e)
其中,s为对齐分数值,a为视频片段信息的注意力特征,⊙为点积计算,e为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
其中,rt为奖励函数,
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息;
目标损失值计算模块,还用于:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
其中,
通过所述目标特征信息,计算归一化位置信息:
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
其中,st为状态指令,φ为两个级联的全连接层,
将状态指令输入至gru单元,得到输出状态;
将所述输出状态输入至策略函数;
动作参数计算模块,还用于:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
本发明一个实施例还提供一种电子装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述的语言描述引导的视频时序定位方法。
本发明一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述的语言描述引导的视频时序定位方法。
与现有技术相比,本发明实施例的有益效果在于:
本发明提供一种语言描述引导的视频时序定位方法,包括:接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;从所述待查询视频中获取目标视频片段;从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。本发明提出了一种语言描述引导的弱监督视频时序定位方法,根据边界自适应优化(boundaryadaptiverefinement,bar)框架,借助强化学习范式来自适应地优化时序边界,缩小跨模态语义差距,得到更精确的结果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的一种语言描述引导的视频时序定位方法的流程图;
图2是本发明某一实施例提供的一种语言描述引导的视频时序定位装置的结构图;
图3是本发明某一实施例提供的边界自适应框架的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
第一方面。
现在流行的“proposal-and-rank”模式着重于在rank分支学习更健壮的跨模态表示,但没有显式考虑对灵活边界和内容感知提议的建模。这种模式本质上是局限性的,它严重依赖于预定义的、不灵活的滑动窗口(例如128和256帧),导致难以泛化到长度差异很大的视频上。当将这种方法用于弱监督条件下时,它还会另外带来两个挑战。首先,在没有细粒度标注的情况下,用于边界调整的偏移回归学习(offsetregressivelearning)变得不切实际。其次,在训练过程中访问视频-查询对时,主导模型(leadingmodel)只能从视频间(inter-videos)学习跨模态映射,而没有考虑到视频内(intra-video)更细微和细粒度的语义概念。这些次优的跨模态映射通常会导致边界预测的准确性降低。
本发明提出的语言描述引导的弱监督视频时序定位方法将时序定位过程表述为马尔可夫决策过程,设计了一个边界自适应优化框架(boundaryadaptiverefinement,bar),从初始视频片段出发,使用强化学习技术逐步修改完善其时序边界,如图3所示。bar框架包含3个部分,其中,上下文感知特征提取器(context-awarefeatureextractor)将环境状态编码为跨模态上下文概念,跨模态对齐评估器(cross-modalalignmentevaluator)为迭代优化过程提供量身定制的奖励和终止信号,自适应动作计划器(adaptiveactionplanner)根据上下文自适应地推断动作(action)的方向和幅度,而不是每步都移动固定幅度。
用n个小片段(clips){v_1,v_2,…,v_n}表示视频v,每个clip对应一小部分连续帧。以视频段v和文本查询t作为输入,任务是输出在语义上与查询匹配的视频段(segment)[j,k],j和k分别表示开始和结束的片段索引。我们的工作集中在此任务的弱监督设置上,具体而言,仅提供一组v-t对,但每个对的视频段注释均不可用。
请参阅图1至图2,本发明某一实施例提供一种语言描述引导的视频时序定位方法,包括:
s10、接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频。
s20、从所述待查询视频中获取目标视频片段。
在某一具体实施中,所述从所述待查询视频中获取目标视频片段的步骤包括:
对所述待查询视频进行特征提取,得到待查询视频特征集合;根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
优选地,通过预训练的视频特征提取器对所述待查询视频进行特征提取,所述预训练的视频特征提取器包括:深度三维卷积网络(c3d模型)或时间敏感型网络(tsn模型)。
s30、从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词。
在某一具体实施例中,所述从所述查询文字中提取文字特征信息的步骤包括:
通过glove模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至gru网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
在某一具体实施方式中,上下文感知特征提取器从外部环境获取视频查询对(v-t),其中v表示待查询视频,t表示查询文字,并将其编码为上下文感知跨模态概念。首先使用glove模型嵌入对查询文字t中的每个单词进行编码,然后将编码后的查询文字t送入gru网络中以捕获远程依赖信息,从gru网络的最后一个隐藏状态得到查询指令e。预训练的视频特征提取器用于提取每个视频片段的片段级别特征。视频段表示为一系列视频片段特征f,即
此外,提取器还将归一化的边界位置信息lt-1包含在了编码特征中,以提供相对位置信息。其中,
s40、从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间。
在某一具体实施例中,所述从所述目标视频片段中提取目标特征信息的步骤包括:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
其中,ai为所述目标视频片段特征信息的注意力权重,e为所述文字特征信息,θ(fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;a为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
s=l2norm(a)⊙l2norm(e)
其中,s为对齐分数值,a为视频片段信息的注意力特征,⊙为点积计算,e为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
其中,rt为奖励函数,
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
在某一具体实施方式中,跨模态对齐评估器是专门为解决我们基于rl算法中的两个关键问题而设计的。一方面,该评估器用于分配面向目标的奖励,以解决在缺少细粒度边界注释的情况下自适应动作计划器无法直接获取可靠奖励函数的问题。另一方面,评估器确定准确的停止信号以终止优化过程。给定一个视频段,每个片段特征的维度通过过滤器函数(θ)减小到查询指令e的维度,该函数包括一个完全连接层,后跟线性整流函数(relu函数)和dropout函数。查询指令e用于在所有视频片段上创建时序注意力(attention),强调关键的视频片段并弱化不重要的部分。具体地,使用缩放点积注意力机制(scaleddot-productattentionmechanism)来获得注意力权重ai和分段注意力特征a:
其中,⊙表示两个向量之间的点积操作,k为查询指令e的维度。然后将片段注意力特征和查询表示映射到联合嵌入空间以计算对齐分数s:
s=l2norm(a)⊙l2norm(e)
对齐分数可以被视为提供可靠奖励的奖励估计。具体而言,评估器测量连续的段-查询对的对齐分数,并分配相应的奖励rt:
其中
s50、根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值。
在某一具体实施例中,所述根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值的步骤包括:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
其中,
通过所述目标特征信息,计算归一化位置信息:
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
其中,at为状态指令,φ为两个级联的全连接层,
将状态指令输入至gru单元,得到输出状态;
将所述输出状态输入至策略函数。
s60、在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数。
在某一具体实施例中,所述在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数的步骤包括:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
s70、根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
在某一具体实施方式中,自适应动作规划器旨在推断动作序列以完善时序边界。为了获得固定长度的视觉表示,我们在全局、当前、左和右视频段的特征集f上使用平均池化层,分别获得它们的池化特征fg,
其中ws和wv是参数矩阵,σ表示sigmoid函数。然后这些多模态特征被连接(concatenated)起来,送入两个级联的全连接层φ,得到状态激活表示st:
这些上下文特征促使规划器对视频内容进行左右权衡并推断出更准确的动作。st被进一步送入gru网络单元,以使代理能够合并关于已探查视频段的历史信息。接下来,gru网络的输出后面接两个单独的全连接层,分别估计一个策略函数π(at|st)和一个值近似器vπ(st)。在训练过程中,从策略函数π(at|st)采样获得基本动作
其中,
评论者(critic)预测的状态值vπ(st)是当前状态的值估计。在critic产生精确值的假设下,基于对梯度的无偏估计来训练actor。
在某一具体实施方式中,我们选择advantageactor-critic(a2c)算法来训练自适应动作规划器,设计结合了rankingloss
其中,
a2c损失具体为:自适应动作规划器在训练阶段运行tmax步来调整边界。给定轨迹γ=<st,π(·|st),vπ(st),at,rt>,actor的损失函数
其中,aπ(st,at)表示优势函数(advantagefunction),h()为策略的熵(policyentropy)。aπ(st,at)=qπ(st,at)-vπ(st)衡量动作是否比策略的默认行为好以及在多大程度上好于默认行为。采用时差学习(temporal-differencelearning)通过k阶函数逼近估计q值函数(q-valuefunction)qπ(st,at):
其中,γ为常量折扣因子(constantdiscountfactor)。bar不会在训练期间出现稀疏的奖励问题,因为可以在每个步骤获得奖励。为了优化critic,我们将q值函数和估计值之间的均方差(mse)损失
ranking损失具体为:通常,视频间的内容差异高于视频内的内容差异。因此,我们采用多实例学习算法,并且首次利用视频间的粗略语义概念来优化框架。具体地,给定全局视频特征fg和它对应的查询表示e,对于从其他样本对获取的任何视频fg′/查询
其中,[x]+表示由max(0,x)定义的斜坡函数,∈表示很小的数。s(fg,e)和sg是等价的。正对和负对从同一mini-batch中取得。
视频间通常包括广泛的语义抽象,这些语义抽象很难区分特定视频中的相似内容。为此,我们设计了视频内ranking损失
其中,
其中,λ是权重参数,对视频内和视频间的ranking损失进行权衡。在训练阶段的初期,段查询对的分数几乎不会超过sg,
交替更新:bar是从头开始训练(trainedfromscratch)的,并且采用了交替更新策略来使训练过程更稳定。具体来说,对于每组2k次的迭代,首先固定动作规划器的参数,使用
在每个时间步,bar通过贪婪解码算法执行一个动作以自适应调整时序边界。多模态对齐评估器计算分数
其中,δ表示异常长度的惩罚因子,τ是调节因子,随着τ的增加,惩罚度的影响也随之降低。测试过程中具有最大
在某一具体实施方式中,输入查询语言及视频。
1.使用glove对query进行编码后,再送入gru网络,将gru的最后一个隐藏状态作为查询表示e。
2.使用预训练的特征提取器(c3d或tsn)提取clip级别的视频特征
3.提取归一化位置信息:
4.将clipfeature送入滤波器函数θ(由fc、relu和dropout组成),降维到和查询表示e相同的维度。通过下式计算clipi的attentionweightai和视频段的attentionfeaturea:
上面,⊙表示两个向量之间的点积操作,k为e的维度。
通过下式计算对齐分数s:
s=l2norm(a)⊙l2norm(e)
根据对齐分数计算t时刻的奖励rt(t时刻当前段的对齐分数和t-1时刻当前段对齐分数的差的符号):
5.对全局、当前、左、右视频段应用平均池化,分别得到池化特征fg,
ws和wv是参数矩阵,σ表示sigmoid函数。
按下式计算,将括号内一系列特征cat起来,送入φ函数,φ表示两个级联的全连接层,得到状态表示st:
6.将st送入gru单元。gru的输出状态分别被送入两个fc分支,其中一个分支计算策略函数π(at|st),另一分支为值近似器,输出价值函数近似vπ(st)。
7.从策略函数π(at|st)中采样得到动作(action)
8.若达到最大迭代次数,停止迭代,当前段即为对齐结果;否则,使用动作at调整当前段的边界,然后令t=t+1,转到步骤1,进行下一次迭代。
在某一具体实施例中,完整的损失为
a2c用于训练自适应动作规划器:
aπ(st,at)=qπ(st,at)-vπ(st)
rankingloss用于训练跨模态对齐评估器和上下文感知特征提取器,具体计算方法如下:
在某一具体实施方式中,训练流程包括:从某一状态出发(随机选定当前视频段区域),用上下文特征提取器提取出当前的查询特征、视频段特征、位置特征。将查询特征和视频段特征送入跨模态对齐评估器,计算出查询和视频段的对齐分数,再根据对齐分数计算奖励rt,根据rt计算损失
其中,训练伪代码包括:
算法1交替更新训练过程
在某一具体实施例中,推断过程包括:
输入:查询句子、视频
1.随机选取当前段范围。
2.将查询和视频输入bar获取对齐分数
3.使用高斯惩罚函数更新置信度得分
4.若
5.选择过程中具有最大
第二方面。
请参阅图2,本发明某一实施例提供一种语言描述引导的视频时序定位系统,包括:
查询信息组接收模块10用于接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频。
目标视频片段获取模块20用于从所述待查询视频中获取目标视频片段。
在某一具体实施例中,所述目标视频片段获取模块20,还用于:
对所述待查询视频进行特征提取,得到待查询视频特征集合;
根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
文字特征信息提取模块30用于从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词。
在某一具体实施例中,所述文字特征信息提取模块30,还用于:
通过glove模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至gru网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
目标特征信息提取模块40用于从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间。
在某一具体实施例中,所述目标特征信息提取模块40,还用于:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
其中,ai为所述目标视频片段特征信息的注意力权重,e为所述文字特征信息,θ(fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;a为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
s=l2norm(a)⊙l2norm(e)
其中,s为对齐分数值,a为视频片段信息的注意力特征,⊙为点积计算,e为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
其中,rt为奖励函数,
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
目标损失值计算模块50用于根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值。
在某一具体实施例中,目标损失值计算模块50,还用于:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
其中,
通过所述目标特征信息,计算归一化位置信息:
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
其中,st为状态指令,φ为两个级联的全连接层,
将状态指令输入至gru单元,得到输出状态;
将所述输出状态输入至策略函数。
动作参数计算模块60用于在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数。
在某一具体实施例中,动作参数计算模块60,还用于:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
优化边界模块70,用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
第三部分。
本发明实施例还提供一种电子装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的语言描述引导的视频时序定位方法。
第四部分。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语言描述引导的视频时序定位方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。