一种文本视频检索方法及装置

文档序号：36929103发布日期：2024-02-02 21:54阅读：来源：国知局

技术特征：

1.一种文本视频检索方法，其特征在于，包括：

2.根据权利要求1所述的文本视频检索方法，其特征在于，所述对于每个视频数据，将其对应的多帧样本图像的编码图像特征，输入帧选择模块，获取每帧样本图像的重要性分数，包括：

3.根据权利要求2所述的文本视频检索方法，其特征在于，所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度，获取每帧样本图像的相关性分数，包括：

4.根据权利要求3所述的文本视频检索方法，其特征在于，所述基于所述重要性分数与所述相关性分数，构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数，表示为：

5.根据权利要求1所述的文本视频检索方法，其特征在于，所述利用每帧优化关键帧的重要性分数，对其所对应的编码图像特征进行加权，获取加权特征；将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合，获取每个视频数据的优化视频特征，包括：

6.根据权利要求1所述的文本视频检索方法，其特征在于，所述获取预先训练好的帧选择模块后，还包括：

7.根据权利要求1所述的文本视频检索方法，其特征在于，所述获取预先训练好的帧选择模块后，还包括：

8.根据权利要求7所述的文本视频检索方法，其特征在于，所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望，构建视频文本匹配损失，表示为：

9.根据权利要求1所述的文本视频检索方法，其特征在于，所述文本编码器为bert，所述视觉编码器为vision transformer。

10.一种文本视频检索装置，其特征在于，包括：

技术总结
本发明涉及多模态检索领域，公开了一种文本视频检索方法及装置，包括：获取文本样本的编码文本特征与动量文本特征；提取每帧样本图像的编码图像特征与动量图像特征；将每个视频数据多帧样本图像的编码图像特征输入帧选择模块，获取重要性分数；基于动量文本特征与每个动量图像特征的余弦相似度，获取每帧样本图像的相关性分数；构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数；训练直至散度损失函数收敛，获取预先训练好的帧选择模块；利用包含预先训练好的帧选择模块的文本视频检索模型，基于待检测文本及检索视频集，选取每个检索视频数据的K帧优化关键帧，构建优化视频特征，计算与待检测文本的相似性来选取相关视频。

技术研发人员：吴梦霞,曹敏,曾子胤
受保护的技术使用者：苏州大学
技术研发日：
技术公布日：2024/2/1

完整全部详细技术资料下载

当前第2页1 2