一种多尺度双流注意力视频语言事件预测的方法及装置

文档序号：31453605发布日期：2022-09-07 13:57阅读：来源：国知局

技术特征：
1.一种多尺度双流注意力视频语言事件预测的方法，其特征在于，包括：获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。2.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度视频特征的生成包括：采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧；对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征。3.根据权利要求2所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同采样尺度的视频帧包括：密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧；相应地，所述对所述不同采样尺度的视频帧进行特征提取，得到多尺度视频特征，包括：基于所述密集采样尺度的视频帧和预训练好的slowfast模型，得到所述密集采样尺度的视频帧的第一视频特征；基于所述一般采样尺度的视频帧和预训练好的resnet-152模型，得到所述一般采样尺度的视频帧的第二视频特征；基于所述稀疏采样尺度的视频帧和预训练好的slowfast模型，得到所述稀疏采样尺度的视频帧的第三视频特征；基于所述稀疏采样尺度的视频帧和预训练好的resnet-152模型，得到所述稀疏采样尺度的视频帧的第四视频特征；并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征；基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。4.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同尺度的第一融合视频特征的生成，包括以下步骤：基于未来候选事件引导的单模态特征转换层，将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合，得到未来候选事件引导的不同尺度的视频特征的第六视频特征；基于双流视频字幕跨模态融合层，将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合，并且将融合后的特征与每一所述未来候选事件的特征串联，得到字幕引导的不同尺度的视频特征；并将所述字幕引导的不同尺度的视频
特征输入基于所述未来候选事件引导的单模态特征转换层，得到每一尺度的视频特征的第七视频特征；将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。5.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述不同尺度的第一融合字幕特征的生成，包括以下步骤：基于未来候选事件引导的单模态特征转换层，将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕特征；基于双流视频字幕跨模态融合层，将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合，得到不同尺度的视频帧引导的字幕特征；并且基于所述未来候选事件引导的单模态特征转换层，将融合后的特征与每一所述未来候选事件的特征分别融合，得到视频引导的多个第二字幕特征；将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。6.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块，相应地，所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取模块生成，包括：将所述目标视频流对应的字幕输入所述字幕与未来候选事件特征提取模块，得到所述字幕的特征；将所述多个未来候选事件输入所述字幕与未来候选事件特征提取模块，得到所述多个未来候选事件的特征。7.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块，所述多尺度融合模块用于融合所述不同尺度的第一融合视频特征，得到第二融合视频特征，并用于融合所述不同尺度的第一融合字幕特征，得到第二融合字幕特征。8.根据权利要求7所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选事件预测结果，包括：对所述第二融合视频特征进行压缩，得到压缩后的第二融合视频特征；并对所述第二融合字幕特征进行压缩，得到压缩后的第二融合字幕特征；基于所述压缩后的第二融合视频特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第一得分；并基于所述压缩后的第二融合字幕特征进行事件预测，得到目标视频流对应多个未来候选事件的多个第二得分；将每一未来候选事件的第一得分与每一未来候选事件的第二得分相加，得到所述目标视频流对应每一未来候选事件的总得分；基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流对应的未来候选事件。9.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法，其特征在于，所述基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特
征，包括：将所述第一视频特征、所述第二视频特征以及所述第五视频特征转换为相同的维度；基于transformer编码器，对维度转换后的所述第一视频特征、所述第二视频特征以及所述第五视频特征分别进行时序编码，得到编码后的第一视频特征、第二视频特征以及所述第五视频特征；将所述编码后的第一视频特征、第二视频特征以及所述第五视频特征作为多尺度视频特征。10.一种多尺度双流注意力视频语言事件预测的装置，其特征在于，包括：获取模块，用于获取原始输入数据；其中，所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件；处理模块，用于将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到所述目标视频流的事件预测结果；其中，所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块；所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征；所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征，生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征；所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果，基于所述事件预测结果确定所述目标视频流的最终事件预测结果。11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述多尺度双流注意力视频语言事件预测的方法的步骤。12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述多尺度双流注意力视频语言事件预测的方法的步骤。13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述多尺度双流注意力视频语言事件预测的方法的步骤。

技术总结
本发明提供一种多尺度双流注意力视频语言事件预测的方法及装置，方法包括：获取原始输入数据；原始输入数据中包括一个目标视频流、目标视频流对应的字幕以及多个未来候选事件；将原始输入数据输入多尺度双流注意力视频语言事件预测模型，得到目标视频流的事件预测结果。多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块。基于此，全面的提取特征，并减少冗余特征，避免不同模态之间相互干扰造成的不利影响，有效的提高事件预测的准确率。有效的提高事件预测的准确率。有效的提高事件预测的准确率。

技术研发人员：王丹力郑楠马鑫伟
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2022.04.19
技术公布日：2022/9/6

完整全部详细技术资料下载

当前第2页1 2