本公开涉及视频处理,具体而言,本公开涉及一种模型训练方法、关键帧抽取方法及装置。
背景技术:
1、视频是由连续的帧所构成,相邻的视频帧具有时间和空间连续性,因此相邻的视频帧包含了大量相同或相似的内容,可以通过从视频中抽取出最具代表性的、反应该视频主要内容的若干帧来代表这个视频,这些对视频语义具有代表性的视频帧就是关键帧。
2、现有的关键帧抽取方法通常是按照预设间隔对视频进行抽帧,该方法抽取到的关键帧的准确性较低。
技术实现思路
1、本公开实施例提供了一种模型训练方法、关键帧抽取方法及装置,可以解决关键帧抽取准确性较低的问题。本公开提供的技术方案如下:
2、根据本公开实施例的一个方面,提供了一种模型训练的方法,该方法包括:
3、获取视频样本中的多个样本候选关键帧;
4、基于所述多个样本候选关键帧对初始关键帧抽取模型和至少一个初始视频理解模型进行至少一次训练操作,直至满足预设训练结束条件,将满足所述预设训练结束条件的初始关键帧抽取模型作为训练好的关键帧抽取模型;
5、其中,所述训练操作包括:
6、将所述多个样本候选关键帧输入至初始关键帧抽取模型,确定各个样本候选关键帧的评价数值向量;所述评价数值向量中的各个评价数值分别用于表示各个样本候选关键帧分别与所述视频样本的关联程度;
7、基于所述评价数值向量,从所述多个样本候选关键帧中确定至少一个样本关键帧;
8、将所述至少一个样本关键帧分别输入至至少一个初始视频理解模型,得到所述至少一个初始视频理解模型分别输出的针对所述视频样本的视频预测标签;
9、针对每个初始视频理解模型,基于所述视频样本对应的视频样本标签和视频预测标签,确定所述初始视频理解模型对应的第一损失函数;
10、基于各个初始视频理解模型分别对应的第一损失函数,确定第二损失函数;
11、基于所述第二损失函数对所述初始关键帧抽取模型的参数和所述至少一个初始视频理解模型的参数进行调整,将调整参数后的初始关键帧抽取模型作为下一次训练操作对应的初始关键帧抽取模型,将调整参数后的至少一个初始视频理解模型作为下一次训练操作对应的至少一个初始视频理解模型。
12、可选地,所述将所述多个样本候选关键帧输入至初始关键帧抽取模型,确定各个样本候选关键帧的评价数值向量,包括:
13、对多个样本候选关键帧分别进行特征提取,得到多个样本候选关键帧分别对应的多个样本候选帧特征;
14、基于所述多个样本候选帧特征与参考向量之间的相关性,确定所述评价数值向量;所述参考向量用于表示视频样本的语义特征;
15、所述基于所述评价数值向量,从所述多个样本候选关键帧中确定至少一个样本关键帧,包括:
16、基于所述评价数值向量中各个样本候选关键帧分别对应的评价数值,将所述多个样本候选关键帧中评价数值最大的预设数量个样本候选关键帧,作为所述至少一个样本关键帧。
17、可选地,所述基于所述多个样本候选帧特征与参考向量之间的相关性,确定所述评价数值向量,包括:
18、通过初始语义提取模块获取当前次训练操作对应的参考向量;
19、针对每个样本候选帧特征,确定所述参考向量与所述样本候选帧特征之间的相似度,得到所述样本候选帧特征对应的权重;
20、基于各个样本候选帧特征及其对应的权重,生成所述评价数值向量。
21、可选地,所述方法还包括:
22、基于所述第二损失函数对所述初始语义提取模块的参数进行调整,并将调整参数后的初始语义提取模块作为下一次训练操作对应的初始语义提取模块。
23、可选地,所述对多个样本候选关键帧分别进行特征提取,得到多个样本候选关键帧分别对应的多个样本候选帧特征,包括:
24、对所述多个样本候选关键帧进行特征提取,得到所述多个样本候选关键帧分别对应的多个初始样本候选帧特征;
25、确定多个样本候选关键帧之间的时间序列信息,对于每一样本候选关键帧,将所述时间序列信息与对应的初始样本候选帧特征进行特征融合,得到每个样本候选关键帧分别对应的样本候选帧特征。
26、可选地,所述方法还包括:
27、获取至少两个视频理解任务;
28、基于所述至少两个视频理解任务确定至少两个不同的标签类型;
29、获取所述至少两个不同标签类型分别对应的至少两个不同的初始视频理解模型。
30、可选地,所述方法还包括:
31、当检测到当前训练操作对应的训练次数符合预设次数时,基于抽帧步长增加所述预设数量;所述抽帧步长是基于所述视频样本的时长确定的;
32、将增加后的预设数量作为下一次训练操作对应的预设数量。
33、可选地,所述获取视频样本中的多个样本候选关键帧,包括:
34、若检测到所述视频样本中当前视频帧与上一视频帧之间的差异大于预设阈值,则将所述当前视频帧作为一个样本候选关键帧;
35、或
36、每间隔预设时间间隔对所述视频样本进行抽帧,得到所述多个样本候选关键帧。
37、根据本公开实施例的一个方面,提供了一种关键帧抽取的方法,该方法包括:
38、获取待处理视频,对所述待处理视频进行抽帧,得到多个候选关键帧;
39、通过训练好的关键帧抽取模型基于所述多个候选关键帧,确定所述多个候选关键帧对应的评价数值向量,并基于所述多个候选关键帧对应的评价数值向量,从所述多个候选关键帧中确定至少一个关键帧;
40、其中,所述关键帧抽取模型是基于本公开任一可选实施例提供的模型训练方法训练得到的。
41、根据本公开实施例的另一个方面,提供了一种模型训练的装置,该装置包括:
42、获取模块,用于获取视频样本中的多个样本候选关键帧;
43、训练模块,用于基于所述多个样本候选关键帧对初始关键帧抽取模型和至少一个初始视频理解模型进行至少一次训练操作,直至满足预设训练结束条件,将满足所述预设训练结束条件的初始关键帧抽取模型作为训练好的关键帧抽取模型;
44、其中,所述训练操作包括:
45、将所述多个样本候选关键帧输入至初始关键帧抽取模型,确定各个样本候选关键帧的评价数值向量;所述评价数值向量中的各个评价数值分别用于表示各个样本候选关键帧分别与所述视频样本的关联程度;
46、基于所述评价数值向量,从所述多个样本候选关键帧中确定至少一个样本关键帧;
47、将所述至少一个样本关键帧分别输入至至少一个初始视频理解模型,得到所述至少一个初始视频理解模型分别输出的针对所述视频样本的视频预测标签;
48、针对每个初始视频理解模型,基于所述视频样本对应的视频样本标签和视频预测标签,确定所述初始视频理解模型对应的第一损失函数;
49、基于各个初始视频理解模型分别对应的第一损失函数,确定第二损失函数;
50、基于所述第二损失函数对所述初始关键帧抽取模型的参数和所述至少一个初始视频理解模型的参数进行调整,将调整参数后的初始关键帧抽取模型作为下一次训练操作对应的初始关键帧抽取模型,将调整参数后的至少一个初始视频理解模型作为下一次训练操作对应的至少一个初始视频理解模型。
51、根据本公开实施例的另一个方面,提供了一种关键帧抽取的装置,该装置包括:
52、候选关键帧获取模块,用于获取待处理视频,对所述待处理视频进行抽帧,得到多个候选关键帧;
53、关键帧抽取模块,用于通过训练好的关键帧抽取模型基于所述多个候选关键帧,确定所述多个候选关键帧对应的评价数值向量,并基于所述多个候选关键帧对应的评价数值向量,从所述多个候选关键帧中确定至少一个关键帧;
54、其中,所述关键帧抽取模型是基于本公开任一可选实施例提供的模型训练方法训练得到的。
55、根据本公开实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一种模型训练方法或关键帧抽取方法的步骤。
56、根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种模型训练方法或关键帧抽取方法的步骤。
57、根据本公开实施例的一个方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现如上述任一种模型训练方法或关键帧抽取方法的步骤。
58、本公开实施例提供的技术方案带来的有益效果是:
59、通过获取视频样本中的多个样本候选关键帧,通过初始关键帧抽取模型基于多个样本候选关键帧,确定评价数值向量,并基于评价数值向量,从多个样本候选关键帧中确定至少一个关键帧。通过对视频样本中的关键帧进行一次预抽取,并对抽取出的多个样本候选关键帧进行打分,基于各个候选关键帧分别对应的评分,对多个候选关键帧进行筛选,将与视频样本的关联程度较高的样本候选关键帧,作为样本关键帧,使得抽取到的样本关键帧可以更好地代表视频样本的特点,进而保证了训练好的关键帧抽取模型能够准确地从视频中抽取出具有代表性的关键帧,提高了抽取出的关键帧的准确性。
60、进一步地,通过将初始关键帧抽取模型与至少一个初始视频理解模型进行耦合训练,初始关键帧抽取模型在训练过程中可以根据下游的视频理解任务进行自适应调整,使得训练好的关键帧抽取模型抽取出的关键帧能够更好地适配下游的视频理解任务,有助于提高下游的视频理解任务输出的结果的准确性。