本技术涉及视频分类,尤其涉及一种模型训练、信息确定方法、装置、设备及计算机可读存储介质。
背景技术:
1、包裹在京东的物流园区中扮演着至关重要的角色,在作业过程(如分拣、装卸货)中的人为暴力操作会造成包裹破损,且每年由此产生的赔付成本十分高昂,因此自动准确地检测出暴力操作是物流园区亟待解决的重要任务;目前,相关技术中仅使用三维深度神经网络对整个视频特征进行分类并基于三维深度神经网络输出的置信度来确定视频中发生了暴力分拣;然而,在实现的过程中,发明人发现现有技术中至少存在如下问题:仅采用整个视频特征这一参数来确定视频中是否发生了暴力分拣行为的识别准确率不高。
技术实现思路
1、为解决上述技术问题,本技术实施例期望提供一种模型训练、信息确定方法、装置、设备及计算机可读存储介质,可以解决相关技术中的确定视频中是否发生了暴力分拣行为的识别准确率不高的问题。
2、本技术的技术方案是这样实现的:
3、一种模型训练方法,所述方法包括:
4、获取针对样本对象的操作行为的样本视频数据;
5、基于所述样本视频数据中的样本音频片段对初始音频特征提取模型进行模型训练,得到目标音频特征提取模型;
6、基于所述样本视频数据中的样本视频片段对初始视频特征提取模型进行模型训练,得到目标视频特征提取模型;其中,所述样本音频片段和所述样本视频片段具有对应关系;
7、基于多类样本待融合视频特征对初始特征融合模型进行模型训练,得到目标特征融合模型;其中,所述多类样本待融合视频特征是基于所述目标视频特征提取模型对所述样本视频片段进行特征提取得到的。
8、上述方案中,所述基于所述样本视频数据中的样本音频片段对初始音频特征提取模型进行模型训练,得到目标音频特征提取模型,包括:
9、针对每一所述样本音频片段,对所述样本音频片段进行处理得到样本梅尔频谱图;
10、基于多个所述样本梅尔频谱图对所述初始音频特征提取模型进行模型训练,得到所述目标音频特征提取模型。
11、上述方案中,基于多类样本待融合视频特征对初始特征融合模型进行模型训练,得到目标特征融合模型,包括:
12、针对所述样本视频片段中的每一样本视频帧,对样本局部特征进行特征融合得到第一样本融合特征,并对样本全局特征进行特征融合得到第二样本融合特征;其中,所述多类样本待融合视频特征包括所述样本局部特征和所述样本全局特征;
13、对所述第一样本融合特征和所述第二样本融合特征进行特征融合,得到第一类样本融合特征;
14、针对所述每一样本视频帧,按照特征数量对所述样本局部特征和所述样本全局特征进行特征融合,得到多个第三样本融合特征;
15、对所述多个第三样本融合特征进行特征融合,得到第二类样本融合特征;
16、基于所述第一类样本融合特征和所述第二类样本融合特征对所述初始特征融合模型进行模型训练,得到所述目标特征融合模型。
17、一种信息确定方法,所述方法包括:
18、获取针对目标对象的操作行为的目标视频数据;
19、采用所述目标音频特征提取模型对所述目标视频数据中的目标音频片段进行特征提取,得到目标音频特征;
20、采用所述目标视频特征提取模型对所述目标视频数据中的目标视频片段进行特征提取,得到多类目标待融合视频特征;
21、采用目标特征融合模型对所述多类目标待融合视频特征进行特征融合,得到目标视频特征;
22、基于目标分类模型、所述目标音频特征和所述目标视频特征,确定针对所述目标对象的操作行为是暴力行为;
23、其中,所述目标音频特征提取模型、所述目标视频特征提取模型和所述目标特征融合模型是通过上述任一项所述的模型训练方法进行训练得到的。
24、上述方案中,所述采用所述目标视频特征提取模型对所述目标视频数据中的目标视频片段进行特征提取,得到多类目标待融合视频特征,包括:
25、针对所述目标视频片段中的每一目标视频帧,采用局部特征提取单元对所述目标视频帧进行局部特征提取,得到目标局部特征;
26、针对所述每一目标视频帧,采用全局特征提取单元对所述目标视频帧进行全局特征提取,得到样本全局特征;其中,所述目标视频特征提取模型包括所述局部特征提取单元和所述全局特征提取单元;所述多类目标待融合视频特征包括所述目标局部特征和所述目标全局特征。
27、上述方案中,所述采用目标特征融合模型对所述多类目标待融合视频特征进行特征融合,得到目标视频特征,包括:
28、针对每一所述目标视频帧,对所述目标局部特征进行特征融合得到第一目标融合特征,并对每一所述目标全局特征进行特征融合得到第二目标融合特征;
29、对所述第一目标融合特征和所述第二目标融合特征进行特征融合,得到第一类目标融合特征;
30、针对每一所述目标视频帧,按照特征数量对所述目标局部特征和所述目标全局特征进行特征融合,得到多个第三目标融合特征;
31、对所述多个第三目标融合特征进行特征融合,得到第二类目标融合特征;
32、采用所述目标特征融合模型对所述第一类目标融合特征和所述第二类目标融合特征进行特征融合,得到所述目标视频特征。
33、上述方案中,采用所述目标特征融合模型对所述第一类目标融合特征和所述第二类目标融合特征进行特征融合,得到所述目标视频特征,包括:
34、对所述第一类目标融合特征和所述第二类目标融合特征进行特征融合,得到所述目标全局融合特征;
35、采用每一目标注意力单元对所述目标全局融合特征进行特征融合,得到所述目标视频特征;其中,所述目标特征融合模型包括所述目标注意力单元。
36、上述方案中,所述基于目标分类模型、所述目标音频特征和所述目标视频特征,确定针对所述目标对象的操作行为为暴力行为,包括:
37、采用所述目标分类模型对所述目标音频特征进行分类,得到第一概率;
38、采用所述目标分类模型对所述目标视频特征进行分类,得到第二概率;
39、在所述第一概率和所述第二概率满足概率阈值的情况下,确定所述操作行为是所述暴力行为。
40、一种模型训练装置,所述装置包括:
41、第一获取单元,用于获取针对样本对象的操作行为的样本视频数据;
42、第一训练单元,用于基于所述样本视频数据中的样本音频片段对初始音频特征提取模型进行模型训练,得到目标音频特征提取模型;
43、第二训练单元,用于基于所述样本视频数据中的样本视频片段对初始视频特征提取模型进行模型训练,得到目标视频特征提取模型;其中,所述样本音频片段和所述样本视频片段具有对应关系;
44、第三训练单元,用于基于多类样本待融合视频特征对初始特征融合模型进行模型训练,得到目标特征融合模型;其中,所述多类样本待融合视频特征是基于所述目标视频特征提取模型对所述样本视频片段进行特征提取得到的。
45、一种信息确定装置,所述装置包括:
46、第二获取单元,用于获取针对目标对象的操作行为的目标视频数据;
47、确定单元,用于采用所述目标音频特征提取模型对所述目标视频数据中的目标音频片段进行特征提取,得到目标音频特征;
48、所述确定单元,还用于采用所述目标视频特征提取模型对所述目标视频数据中的目标视频片段进行特征提取,得到多类目标待融合视频特征;
49、所述确定单元,还用于采用目标特征融合模型对所述多类目标待融合视频特征进行特征融合,得到目标视频特征;
50、处理单元,用于基于目标分类模型、所述目标音频特征和所述目标视频特征,确定针对所述目标对象的操作行为是暴力行为;
51、其中,所述目标音频特征提取模型、所述目标视频特征提取模型和所述目标特征融合模型是通过如上述任一项所述的模型训练方法进行训练得到的。
52、一种模型训练设备,所述设备包括:第一处理器、第一存储器和第一通信总线;
53、所述第一通信总线用于实现所述第一处理器和所述第一存储器之间的通信连接;
54、所述第一处理器用于执行所述第一存储器中的模型训练程序,以实现如上述任一项所述的模型训练方法的步骤。
55、一种信息确定设备,所述设备包括:第二处理器、第二存储器和第二通信总线;
56、所述第二通信总线用于实现所述第二处理器和所述第二存储器之间的通信连接;
57、所述第二处理器用于执行所述第二存储器中的信息确定程序,以实现如上述任一项所述的信息确定方法的步骤。
58、一种计算机可读存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述模型训练和信息确定方法的步骤。
59、本技术实施例所提供的模型训练、信息确定方法、装置、设备及计算机可读存储介质,首先获取针对样本对象的操作行为的样本视频数据,之后基于样本视频数据中的样本音频片段对初始音频特征提取模型进行模型训练,得到目标音频特征提取模型,同时基于样本视频数据中的样本视频片段对初始视频特征提取模型进行模型训练,得到目标视频特征提取模型,且样本音频片段和样本视频片段具有对应关系,之后基于多类样本待融合视频特征对初始特征融合模型进行模型训练,得到目标特征融合模型,且多类样本待融合视频特征是基于目标视频特征提取模型对样本视频片段进行特征提取得到的,这样,采用音频片段训练得到目标音频特征提取模型,同时采用视频片段训练得到的目标视频特征提取模型,之后采用多类样本待融合视频特征训练得到的目标特征融合模型,对针对目标对象的操作行为的目标视频数据进行分析,不仅考虑到了音频特征和视频特征,还考虑到了多类目标待融合视频特征之间的融合,从而提高了识别的准确率。