数据处理方法、装置、设备、可读存储介质及程序产品与流程

文档序号：31669475发布日期：2022-09-28 00:37阅读：来源：国知局

技术特征：
1.一种数据处理方法，其特征在于，所述方法包括：获取待检测视频描述文本，将所述待检测视频描述文本输入文本编码器中进行处理，得到所述待检测视频描述文本的文本特征；将待检测视频的视频图像输入第一视频编码器中进行处理，得到所述待检测视频的视频特征；根据所述文本特征和所述视频特征，确定所述待检测视频描述文本和所述待检测视频的匹配结果；其中，所述文本编码器和所述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，所述文本编码器用于获取样本视频的视频描述文本的参考文本特征；所述第二视频编码器用于获取所述样本视频的采样图像序列的第一区域特征集；所述第一视频编码器用于获取所述采样图像序列的掩码图像序列的全局特征和第二区域特征集；所述全局特征和所述参考文本特征用于确定全局损失，所述第一区域特征集和所述第二区域特征集用于确定局部损失，所述文本编码器的网络参数是根据所述全局损失调整得到，所述第一视频编码器的网络参数是根据所述局部损失调整得到。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述样本视频的视频描述文本和采样图像序列，并获取所述采样图像序列对应的掩码图像序列；将所述样本视频的视频描述文本输入初始文本编码器中进行特征提取，得到所述参考文本特征；将所述采样图像序列输入初始第二视频编码器中进行特征提取，得到所述第一区域特征集，以及将所述掩码图像序列输入初始第一视频编码器中进行特征提取，得到所述全局特征和所述第二区域特征集；根据所述全局特征和所述参考文本特征确定所述全局损失，以及根据所述第一区域特征集和所述第二区域特征集确定所述局部损失；根据所述全局损失调整所述初始文本编码器的网络参数，根据调整后的文本编码器确定训练后的文本编码器；以及根据所述局部损失调整所述初始第一视频编码器的网络参数，根据调整后的第一视频编码器确定训练后的第一视频编码器。3.根据权利要求2所述的方法，其特征在于，获取所述样本视频的采样图像序列，包括：对所述样本视频进行间隔采样处理，得到采样图像序列；所述采样图像序列中的任意两个采样图像不相邻；所述获取所述采样图像序列对应的掩码图像序列，包括：对所述采样图像序列中的各个采样图像进行掩码处理，得到所述掩码图像序列；所述各个采样图像中被掩码处理的图像区域相匹配。4.根据权利要求2或3所述的方法，其特征在于，将所述掩码图像序列输入初始第一视频编码器中进行特征提取，得到所述第二区域特征集，包括：将所述掩码图像序列输入初始第一视频编码器中进行处理，针对所述掩码图像序列中的目标掩码图像，对所述目标掩码图像进行区域划分处理，并提取各个划分图像区域的区域特征；其中，所述目标掩码图像中包含掩码区域的第一图像区域的区域特征，是根据参考掩码图像中的非掩码部分以及所述目标掩码图像中的非掩码部分预测得到的预测特征，且
所述预测特征趋近于由所述初始第二视频编码器对所述采样图像序列中与所述第一图像区域相匹配的第二图像区域提取的特征；所述目标掩码图像为所述掩码图像序列中的任一掩码图像，所述参考掩码图像为所述掩码图像序列中除所述目标掩码图像之外的掩码图像；根据针对所述掩码图像序列中各个掩码图像提取的区域特征，得到所述第二区域特征集。5.根据权利要求4所述的方法，其特征在于，所述第一区域特征集由所述初始第二编码器针对所述采样图像序列中各个采样图像提取的区域特征构成，每一个区域特征对应采样图像的一个划分图像区域；所述根据所述全局特征和所述参考文本特征确定所述全局损失，以及根据所述第一区域特征集和所述第二区域特征集确定所述局部损失，包括：将所述全局特征和所述参考文本特征进行匹配处理，根据匹配处理后的全局特征和匹配处理后的参考文本特征，确定全局损失；针对所述第一区域特征集中的任一区域特征，从所述第二区域特征集中确定与所述任一区域特征相匹配的匹配区域特征；确定所述任一区域特征和所述匹配区域特征之间的差异参数，并根据所述差异参数确定所述局部损失。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述第一视频编码器的网络参数调整后，根据所述第一视频编码器的调整后的网络参数更新所述第二视频编码器的网络参数，得到调整后的第二视频编码器；结合所述调整后的第二视频编码器，对调整后的文本编码器和调整后的第一视频编码器再次进行联合训练，以得到训练后的文本编码器和训练后的第一视频编码器；其中，所述调整后的第二视频编码器针对样本视频的采样图像获取的特征，趋近于调整后的文本编码器针对样本视频的视频描述文本获取的文本特征。7.根据权利要求1-3或6中任一项所述的方法，其特征在于，所述待检测视频包含于视频数据库中，所述视频数据库包括多个视频，所述方法还包括：根据所述多个视频中各个视频与所述待检测视频描述文本的匹配结果，从所述视频数据库中确定与所述待检测视频描述文本相匹配的匹配视频。8.一种数据处理装置，其特征在于，所述装置包括：获取模块，用于获取待检测视频描述文本，将所述待检测视频描述文本输入文本编码器中进行处理，得到所述待检测视频描述文本的文本特征；处理模块，用于将待检测视频的视频图像输入第一视频编码器中进行处理，得到所述待检测视频的视频特征；匹配模块，用于根据所述文本特征和所述视频特征，确定所述待检测视频描述文本和所述待检测视频的匹配结果；其中，所述文本编码器和所述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，所述文本编码器用于获取样本视频的视频描述文本的参考文本特征；所述第二视频编码器用于获取所述样本视频的采样图像序列的第一区域特征集；所述第一视频编码器用于获取所述采样图像序列的掩码图像序列的全局特征和第二区域特征集；所述全局特征和所述参考文本特征用于确定全局损失，所述第一区
域特征集和所述第二区域特征集用于确定局部损失，所述文本编码器的网络参数是根据所述全局损失调整得到，所述第一视频编码器的网络参数是根据所述局部损失调整得到。9.一种计算机设备，其特征在于，包括：处理器、存储装置和通信接口，所述处理器、所述通信接口和所述存储装置相互连接，其中，所述存储装置存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，用以实现如权利要求1～7中任一项所述的数据处理方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以实现如权利要求1～7中任一项所述的数据处理方法。11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时，用以实现如权利要求1～7中任一项所述的数据处理方法。

技术总结
本申请实施例提出了一种数据处理方法、装置、设备、可读存储介质及程序产品，可应用于云技术、人工智能、智慧平台、应用软件、车载、文本视频检索等领域或场景，该方法包括：获取待检测视频描述文本，将待检测视频描述文本输入文本编码器中进行处理，得到待检测视频描述文本的文本特征；将待检测视频的视频图像输入第一视频编码器中进行处理，得到待检测视频的视频特征；根据文本特征和视频特征，确定待检测视频描述文本和待检测视频的匹配结果。通过本申请实施例，可以提高视频描述文本与待检测视频的匹配结果的生成效率和准确率。的匹配结果的生成效率和准确率。的匹配结果的生成效率和准确率。

技术研发人员：葛玉莹葛艺潇单瀛
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.04.26
技术公布日：2022/9/27

完整全部详细技术资料下载

当前第2页1 2