一种精细化描述视频的方法及其评价方式与流程

文档序号：34763655发布日期：2023-07-13 06:28阅读：27来源：国知局

本发明涉及视频描述，特别涉及一种精细化描述视频的方法及其评价方式。

背景技术：

1、现有的视觉语言建模任务(visual-language modeling tasks)会将更多的关注放在视觉信息上，从而忽略掉了文本和音频信息。虽然目前也有部分技术中会采用多模态数据集进行建模，但是现有的视频描述相关的多模态数据集通常只关注两个模态的信息，即关注视觉和语言信息或者关注声音和语言信息。其中常见的关注视觉和语言信息的数据集用于做视频描述的有msvd，msr-vtt,vatex,tvc等；关注声音和语言信息的数据集用于做音频描述的有audiocaps,clotho等。

2、在多模态的下游任务，例如像图像/视频描述(image/video captioning)和图像/视频生成(text-to-image/video synthesis)中，语言信息经常是作为辅助性的信息为其他模态的数据提供补充。现有的视频描述任务通常的表现形式为视频描述(videocaptioning)和密集视频描述(dense video captioning)。其中视频描述任务是指用一句话来描述整个视频内容(one-sentence caption)，例如，针对如图4所示的视频(图中仅示出所述视频的部分帧图像，且实际视频为彩色图像)，视频描述任务得到的描述结果为：[caption]three people are training two dogs.视频描述任务常用的技术方案是采用序列建模，通过卷积神经网络(cnn)提取视觉信息，循环神经网络(rnn)提供文本特征，从而生成最终的描述。由于文本描述通常较为简洁，只有显著的物体或者行为会得到关注进行描述，因此缺少对视频中包含的丰富细节的描述，会丢失掉很多信息。密集视频描述任务是指对于长视频中包含的所有事件都进行描述，例如，针对如图3所示的视频(图中仅示出所述视频的部分帧图像)，密集视频描述任务得到的描述结果为：[os～5s]two men walktowards two dogs.[5s～8s]two men exchange the positions.[8s～10s]two dogsface towards a man.密集视频描述常用的技术方案是采取先定位后描述的方式，先确定事件的位置，然后生成与之对应的事件描述。密集视频描述通常是逐帧对视频中包含的事件进行描述，同样缺少精细化的细节描述。

技术实现思路

1、针对现有技术中的部分或全部问题，本发明提供一种精细化描述视频的方法，包括：

2、使用第一编码器对视频的图像进行编码以生成视觉特征；

3、使用第二编码器对视频的声音进行编码以生成音频特征；以及

4、使用第一模型基于所述视觉特征以及音频特征生成视频描述，其中所述第一模型通过进行包含视频、文本及音频信息的三个模态间的端到端的预训练得到。

5、进一步地，所述第一编码器包括视觉移位转换器(video swin transformer)编码器。

6、进一步地，所述第二编码器包括接插式音频转换器(passt，patchout audiotransformer)编码器。

7、进一步地，所述第一模型包括掩码语言模型(mlm，masked language modeling)、以及自回归语言模型(alm，auto-regressive language modeling)。

8、进一步地，所述视频描述包括：

9、对所述视频内容的总结；

10、视频中物体的颜色、形状；

11、视频中人物和/或物体的空间位置关系、变化；

12、视频中的环境信息；以及

13、视频中的音频信息。

14、进一步地，所述方法还包括：

15、基于第一数据集对所述第一编码器进行预训练，其中所述第一数据集为公开数据集。

16、进一步地，所述方法还包括：

17、基于第二数据集对所述第二编码器进行预训练，其中所述第二数据集为公开数据集。

18、进一步地，所述方法还包括：

19、构建第三数据集，并基于所述第三数据集对所述第一模型进行预训练。

20、进一步地，构建第三数据集包括：

21、收集包含发声物体的视频；

22、采用众包的方式对所述视频进行多语种数据标注，其中每个视频的每个语种的数据标注数量不低于5句；以及

23、将所述多语种数据标注与对应的视频一起进行存储，形成第三数据集。

24、进一步地，所述第一模型的预训练包括：

25、将所述第三数据集中的数据标注转换为文本特征，并分别通过第一编码器及第二编码器对所述数据标注对应的视频进行编码，以得到视觉特征及音频特征；以及

26、将所述文本特征、视觉特征及音频特征输入至所述第一模型，基于如下的损失函数进行训练：

27、l＝λlmlm+(1-λ)lalm，

28、其中，λ为缩放因子，以及lmlm、lalm分别为掩码语言模型及自回归语言模型的损失函数。

29、本发明第二方面提供如前所述的精细化描述视频的方法的评价方法，包括：

30、计算所述方法得到的视频描述中的实体与数据标注中的实体的差距；以及

31、计算所述方法得到的视频描述中的对于发声物体的描述的评分。

32、进一步地，所述实体的差距根据如下公式计算得到：

33、

34、

35、

36、其中，

37、p为所述方法得到的视频描述中的实体集合；

38、r为数据标注中的实体集合；

39、r(p，r)为所述方法得到的视频描述中的实体集合与数据标注中的实体集合的召回率；

40、c(p，r)为所述方法得到的视频描述中的实体集合与数据标注中的实体集合的归一化余弦相似度；以及

41、为r(p，r)与c(p，r)的调和平均数。

42、进一步地，发声物体的描述的评分根据如下公式计算得到：

43、

44、其中，

45、fa＝passt(a),为所述发声物体的音频特征，通过passt模型提取得到；

46、fv＝clip(v)，为所述发声物体的视觉特征，通过对比语言-图像预训练模型(clip模型，contrastive language image pretraining)提取得到；以及

47、ft＝clip(t)，为所述发声物体的文本特征，通过clip模型提取得到。

48、进一步地，发声物体的描述的评分根据如下公式计算得到：

49、

50、其中，

51、b＝0.693，＝c-10；

52、ea＝passt(a),为所述发声物体的音频特征，通过passt模型提取得到；

53、ev＝clip(v)，为所述发声物体的视觉特征，通过对比语言-图像预训练模型(clip模型，contrastive language image pretraining)提取得到；以及

54、et＝clip(t)，为所述发声物体的文本特征。

55、本发明提供的一种精细化描述视频的方法，其通过预训练得到的模型对包含音频的长视频进行精细化的描述，输出一整段包含视频的总体描述、视频的细节描述、音频描述的段落。所述模型的训练集包含了多语种的对长视频的精细化描述，所述精细化描述包括视频的总体描述、丰富的视频内容细节描述和音频描述，使得所述模型可以进行包含视频、文本和音频信息的三个模态间的端到端的训练和生成。采用所述模型进行视频描述，可以有效提高视频描述的精细度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟怡然李冬孔令鹏乔宇
技术所有人：上海人工智能创新中心
我是此专利的发明人

上一篇：一种污水处理罐的制作方法
上一篇：一种工程建筑物基桩施工设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。