多媒体检索方法、装置及计算机设备与流程

文档序号：29695145发布日期：2022-04-16 12:48阅读：来源：国知局

技术特征：
1.一种多媒体检索方法，其特征在于，所述方法包括：获取待检索多媒体；调用多媒体检索模型对所述待检索多媒体和多媒体库包括的每个多媒体进行处理，得到所述多媒体库中与所述待检索多媒体相似的一个或多个目标多媒体，其中，所述多媒体检索模型是利用训练数据集包括的样本多媒体的多模态特征训练得到的，所述多模态特征是在对所述样本多媒体的视频特征、音频特征和文本特征的一种或多种分别进行特征规范空间处理得到对应的自融合特征之后，对一种或多种自融合特征进行融合处理得到的，所述一种或多种自融合特征的特征维度相同；根据每个目标多媒体与所述待检索多媒体之间的相似度的排序，确定所述待检索多媒体的检索结果。2.如权利要求1所述的方法，其特征在于，所述调用多媒体检索模型对所述待检索多媒体和多媒体库包括的每个多媒体进行处理，得到所述多媒体库中与所述待检索多媒体相似的一个或多个目标多媒体，包括：获取所述待检索多媒体的特征信息，所述特征信息包括视频特征、音频特征和文本特征的一种或多种；将所述待检索多媒体的特征信息输入多媒体检索模型进行处理，得到所述待检索多媒体的多模态特征；调用所述多媒体检索模型对所述待检索多媒体的多模态特征以及所述多媒体库包括的每个多媒体的多模态特征进行处理，得到所述多媒体库中与所述待检索多媒体相似的一个或多个目标多媒体。3.如权利要求2所述的方法，其特征在于，所述将所述待检索多媒体的特征信息输入多媒体检索模型进行处理，得到所述待检索多媒体的多模态特征，包括：调用多媒体检索模型的去冗余注意力层对所述待检索多媒体的特征信息包括的每个单模态特征进行特征规范空间处理，以得到所述每个单模态特征对应的自融合特征，所述单模态特征为所述视频特征、所述音频特征和所述文本特征中的任一种；调用所述多媒体检索模型的卷积层分别对所述每个单模态特征对应的自融合特征进行卷积堆叠处理，并将卷积堆叠处理后的每个自融合特征进行拼接处理，以确定所述待检索多媒体的拼接特征；调用所述多媒体检索模型的融合层对所述待检索多媒体的拼接特征进行融合提炼处理，得到所述待检索多媒体的多模态特征。4.如权利要求3所述的方法，其特征在于，所述调用多媒体检索模型的去冗余注意力层对所述待检索多媒体的特征信息包括的每个单模态特征进行特征规范空间处理，以得到所述每个单模态特征对应的自融合特征，包括：针对所述待检索多媒体的特征信息包括的每个单模态特征，获取所述单模态特征的位置权重向量，并调用所述去冗余注意力层的压缩层对所述单模态特征进行维度压缩处理，得到维度压缩后的单模态特征；调用所述去冗余注意力层的注意力层，利用所述位置权重向量和所述维度压缩后的单模态特征，计算位置相关后的单模态特征，并根据所述维度压缩后的单模态特征所指示的模态维度，对所述位置相关后的单模态特征进行计算，得到冗余单模态特征；
调用所述去冗余注意力层的去冗余层，对所述冗余单模态特征规范化处理，得到规范权重向量，并根据所述规范权重向量对所述冗余单模态特征进行加权处理，以得到所述每个单模态特征对应的自融合特征。5.如权利要求2-4中任一项所述的方法，其特征在于，所述特征信息包括视频特征，所述获取所述待检索多媒体的特征信息，包括：获取所述待检索多媒体的视频数据；对所述视频数据进行分镜处理，得到分镜处理后的多个分镜视频；根据所述多个分镜视频确定所述视频数据对应的多个视频片段；分别确定所述多个视频片段中每个视频片段的视频特征，并根据所述每个视频片段的视频特征，确定所述待检索多媒体的视频特征。6.如权利要求5所述的方法，其特征在于，所述特征信息还包括音频特征，所述方法还包括：获取所述待检索多媒体的音频数据；对所述音频数据进行分离处理，得到音乐数据和人声数据；确定所述音乐数据对应的音乐特征，以及确定所述人声数据对应的人声特征；将所述音乐特征和所述人声特征作为所述待检索多媒体的音频特征。7.如权利要求1所述的方法，其特征在于，所述调用多媒体检索模型对所述待检索多媒体和多媒体库包括的每个多媒体进行处理，得到所述多媒体库中与所述待检索多媒体相似的一个或多个目标多媒体之前，所述方法还包括：获取训练数据集，所述训练数据集包括多个样本对以及每个样本对的样本标签，所述多个样本对包括模态完整样本对和模态缺失样本对，所述样本标签用于指示所述每个样本对包括的第一样本多媒体和第二样本多媒体在各个单模态特征之间的相似性；利用所述模态缺失样本对包括的第一样本多媒体的单模态特征和第二样本多媒体的单模态特征对第一神经网络模型进行单模态训练，得到第二神经网络模型，所述单模态特征为视频特征、音频特征和文本特征中的任一种；利用所述模态完整样本对包括的第一样本多媒体的特征信息和第二样本多媒体的特征信息对所述第二神经网络模型进行联合模态训练，得到多媒体检索模型，所述特征信息包括视频特征、音频特征和文本特征的一种或多种。8.如权利要求7所述的方法，其特征在于，所述利用所述模态缺失样本对包括的第一样本多媒体的单模态特征和第二样本多媒体的单模态特征对第一神经网络模型进行单模态训练，得到第二神经网络模型，包括：调用第一神经网络模型对所述模态缺失样本对包括的第一样本多媒体的单模态特征进行特征规范空间处理，以得到所述第一样本多媒体的单模态特征对应的自融合特征；调用第一神经网络模型对所述模态缺失样本对包括的第二样本多媒体的单模态特征进行特征规范空间处理，以得到所述第二样本多媒体的单模态特征对应的自融合特征；根据所述第一样本多媒体的单模态特征对应的自融合特征、所述第二样本多媒体的单模态特征对应的自融合特征、以及所述模态缺失样本对的样本标签，调整所述第一神经网络模型的模型参数，并将模型参数调整后的第一神经网络模型作为第二神经网络模型。9.如权利要求7或8所述的方法，其特征在于，所述利用所述模态完整样本对包括的第
一样本多媒体的特征信息和第二样本多媒体的特征信息对所述第二神经网络模型进行联合模态训练，得到多媒体检索模型，包括：调用所述第二神经网络模型对所述模态完整样本对包括的第一样本多媒体的各个单模态特征分别进行特征规范空间处理，得到所述模态完整样本对包括的第一样本多媒体的每个单模态特征对应的自融合特征，以及对所述模态完整样本对包括的每个自融合特征进行融合处理，得到所述第一样本多媒体的多模态特征；调用所述第二神经网络模型对所述模态完整样本对包括的第二样本多媒体的各个单模态特征分别进行特征规范空间处理，得到所述模态完整样本对包括的第二样本多媒体的每个单模态特征对应的自融合特征，以及对所述模态完整样本对包括的每个自融合特征进行融合处理，得到所述第二样本多媒体的多模态特征；根据所述第一样本多媒体的多模态特征、所述第二样本多媒体的多模态特征、以及所述模态完整样本对的样本标签，调整所述第二神经网络模型的模型参数，并将模型参数调整后的第二神经网络模型作为多媒体检索模型。10.一种多媒体检索装置，其特征在于，所述装置包括：获取单元，用于获取待检索多媒体；处理单元，用于调用多媒体检索模型对所述待检索多媒体和多媒体库包括的每个多媒体进行处理，得到所述多媒体库中与所述待检索多媒体相似的一个或多个目标多媒体，其中，所述多媒体检索模型是利用训练数据集包括的样本多媒体的多模态特征训练得到的，所述多模态特征是在对所述样本多媒体的视频特征、音频特征和文本特征的一种或多种分别进行特征规范空间处理得到对应的自融合特征之后，对一种或多种自融合特征进行融合处理得到的，所述一种或多种自融合特征的特征维度相同；确定单元，用于根据每个目标多媒体与所述待检索多媒体之间的相似度的排序，确定所述待检索多媒体的检索结果。

技术总结
本申请提出一种多媒体检索方法、装置及计算机设备，该多媒体检索方法包括：获取待检索多媒体；调用多媒体检索模型对待检索多媒体和多媒体库包括的每个多媒体进行处理，得到多媒体库中与待检索多媒体相似的一个或多个目标多媒体，其中，多媒体检索模型是利用训练数据集包括的样本多媒体的多模态特征训练得到的，多模态特征是在对样本多媒体的视频特征、音频特征和文本特征的一种或多种分别进行特征规范空间处理得到对应的自融合特征之后，对一种或多种自融合特征进行融合处理得到的；根据每个目标多媒体与待检索多媒体之间的相似度的排序，确定待检索多媒体的检索结果。通过本申请，可以提高多媒体检索的准确性。可以提高多媒体检索的准确性。可以提高多媒体检索的准确性。

技术研发人员：郭卉
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.08.05
技术公布日：2022/4/15

完整全部详细技术资料下载

当前第2页1 2