本发明涉及计算机视觉,尤其涉及一种视频分类模型的训练方法及视频分类方法。
背景技术:
1、目前,通过视频分类模型对视频进行分类打标已经成为提高下游视频分发效率的一种重要方式。视频分类模型通常基于深度学习算法对神经网络进行训练得到。
2、通常情况下,训练数据是有分类标签的视频数据,但是由于标注难度大、成本高等原因,训练数据的标签只有分类标签,即每个视频只有类别标注(该视频是否为特定类别的视频),但是没有具体发生时间段的标注,也就是没有视频中哪几秒属于特定类别的标注信息。在这种情况下,模型训练的每个视频中,大部分时间都与特定类别任务不相关,只有小部分时间与特定类别任务相关,这样训练得到的视频分类模型,相应分类结果的置信度分数非常分散,精度会受到较大影响,且对于较短时间的视频分类很不敏感。
技术实现思路
1、本发明提供一种视频分类模型的训练方法及视频分类方法,用以解决上述问题。
2、本发明提供一种视频分类模型的训练方法,包括:
3、获取训练视频以及其对应的视频标签;
4、根据预设数量对所述训练视频进行分割,获得与所述预设数量对应的分割结果;其中,所述预设数量为训练超参数,且其通过预设的优化算法进行最优数量寻优确定;
5、基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果,从所述分类结果中确定目标分类结果;
6、根据所述目标分类结果以及所述视频标签进行损失计算,利用计算得到的损失值对所述预先构建的视频分类模型进行参数更新,以获得训练好的视频分类模型。
7、根据本发明提供的一种视频分类模型的训练方法,预设数量通过预设的优化算法进行最优数量寻优确定,包括:
8、s1,利用预定的优化算法进行参数初始化,获得初始数量;
9、s2,按照所述初始数量对所述训练视频进行分割,获得与初始数量对应的分割结果;
10、s3,基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述初始数量对应的分类结果,从所述分类结果中确定目标分类结果;
11、s4,根据所述目标分类结果以及所述视频标签进行损失计算,利用计算得到的损失值对所述预先构建的视频分类模型进行参数更新,以获取更新后的视频分类模型及其对应的模型性能;
12、s5,基于所述模型性能,利用所述预定的优化算法对所述初始数量进行优化,获得优化后数量;
13、s6,按照优化后数量对所述训练视频进行分割,获得与优化后数量对应的分割结果;
14、s7,重复所述s3-s6,直到所述模型性能满足预设的精度要求或达到预设的循环次数,以获得最优数量,用于视频分类模型的训练过程。
15、根据本发明提供的一种视频分类模型的训练方法,所述根据预设数量对所述训练视频进行分割,获得与所述预设数量对应的分割结果,包括:
16、将所述训练视频按照所述预设数量进行分割,获得与所述预设数量对应的视频片段;
17、相应地,所述基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果,包括:
18、将所述视频片段输入至所述预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果。
19、根据本发明提供的一种视频分类模型的训练方法,所述根据预设数量对所述训练视频进行分割,获得与所述预设数量对应的分割结果,包括:
20、将所述训练视频输入至预先构建的视频分类模型中,利用所述预先构建的视频分类模型中的各个网络层进行前向推理;
21、在前向推理过程中,选取任一网络层输出的特征图作为目标特征图,并按照所述预设数量对所述目标特征图进行分割,以获得与所述预设数量对应的子特征;
22、相应地,所述基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果,包括:
23、基于所述子特征,获取与所述预设数量对应的分类结果。
24、根据本发明提供的一种视频分类模型的训练方法,所述预先构建的视频分类模型包括特征提取主干网络以及检测网络;
25、相应地,所述选取任一网络层输出的特征图作为目标特征图,包括:
26、选取所述特征提取主干网络或所述检测网络中任一网络层输出的特征图作为目标特征图。
27、根据本发明提供的一种视频分类模型的训练方法,所述分类结果为所述分割结果所属类别的概率;
28、相应地,所述从所述分类结果中确定目标分类结果,包括:
29、将概率值最大的分类结果作为目标分类结果。
30、根据本发明提供的一种视频分类模型的训练方法,所述预设的优化算法至少为蚁群算法、遗传算法、模拟退火算法、禁忌搜索算法或粒子群算法中的一种。
31、本发明还提供一种视频分类方法,包括:获取待分类视频;
32、根据预设数量对所述待分类视频进行分割,获得与所述预设数量对应的分割结果;其中,所述预设数量为预先训练好的视频分类模型中的超参数,且其在视频分类模型训练过程中通过预设的优化算法对最优数量寻优确定;
33、基于所述分割结果,并利用预先训练好的视频分类模型进行分类预测,获得与所述预设数量对应的预测结果,从所述预测结果中确定目标预测结果,将其作为所述待分类视频的最终预测结果;其中,所述预先训练好的视频分类模型为通过上述任一项所述的视频分类模型的训练方法得到。
34、本发明还提供一种视频分类模型的训练装置,包括:
35、视频与标签获取模块,用于获取训练视频以及其对应的视频标签;
36、分割模块,用于根据预设数量对所述训练视频进行分割,获得与所述预设数量对应的分割结果;其中,所述预设数量为训练超参数,且其通过预设的优化算法进行最优数量寻优确定;
37、分类模块,用于基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果,从所述分类结果中确定目标分类结果;
38、模型更新模块,用于根据所述目标分类结果以及所述视频标签进行损失计算,利用计算得到的损失值对所述预先构建的视频分类模型进行参数更新,以获得训练好的视频分类模型。
39、本发明还提供一种视频分类装置,包括:
40、待分类视频获取模块,用于获取待分类视频;
41、待分类视频分割模块,用于根据预设数量对所述待分类视频进行分割,获得与所述预设数量对应的分割结果;其中,所述预设数量为预先训练好的视频分类模型中的超参数,且其在视频分类模型训练过程中通过预设的优化算法进行最优数量寻优确定;
42、预测模块,用于基于所述分割结果,并利用预先训练好的视频分类模型进行分类预测,获得与所述预设数量对应的预测结果,从所述预测结果中确定目标预测结果,将其作为所述待分类视频的最终预测结果;其中,所述预先训练好的视频分类模型为通过如上述视频分类模型的训练装置得到。
43、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述任一种视频分类模型的训练方法或上述视频分类方法。
44、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一种视频分类模型的训练方法或上述视频分类方法。
45、本发明提供的视频分类模型的训练方法及视频分类方法,其中,视频分类模型的训练方法通过根据预设数量m对所述训练视频进行分割,获得与所述预设数量对应的分割结果,并基于所述分割结果,并利用预先构建的视频分类模型进行前向推理,获得与所述预设数量对应的分类结果,从所述分类结果中确定目标分类结果。因此,在无详细标注发生时间的视频数据上,使得视频分类模型在训练时更加专注于和任务相关的视频片段中,显著提升视频分类模型的精度,提升对较短时间的特定行为的敏感度,使模型在特定行为发生时的置信度提高,未发生时的置信度降低,大大提升算法精度。