1.一种文本视频检索方法,其特征在于,包括:
2.根据权利要求1所述的文本视频检索方法,其特征在于,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
3.根据权利要求2所述的文本视频检索方法,其特征在于,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
4.根据权利要求3所述的文本视频检索方法,其特征在于,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
5.根据权利要求1所述的文本视频检索方法,其特征在于,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:
6.根据权利要求1所述的文本视频检索方法,其特征在于,所述获取预先训练好的帧选择模块后,还包括:
7.根据权利要求1所述的文本视频检索方法,其特征在于,所述获取预先训练好的帧选择模块后,还包括:
8.根据权利要求7所述的文本视频检索方法,其特征在于,所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:
9.根据权利要求1所述的文本视频检索方法,其特征在于,所述文本编码器为bert,所述视觉编码器为vision transformer。
10.一种文本视频检索装置,其特征在于,包括: