本发明涉及视觉图像处理,提供了一种监控视频对象识别跟踪方法、系统、电子设备及存储介质。
背景技术:
1、监控视频经过解复用以后获得原始es流,经过解码以及颜色空间转换,使用ai引擎去识别每一帧的对象,输出识别结果,根据结识别结果在相应得视频帧上叠加合成识别结果,生成包含ai识别的结果视频帧,送至视频编码器。编码器重新编码重新生成新的视频流,播放器播放新生成的视频,展示出ai输出的画面。
2、现有的监控视频对象识别跟踪需要每帧送入神经网络去识别,这个过程非常消耗性能,耗时很长无法在普通高配pc上都无法实时运行,因此都使用服务器进行处理。在服务器上需要同时运行ai框架,视频解码,视频编码等过程,二次编码解码产生的延迟,影响视频的时效性,无论对带宽还是服务器本身的硬件资源消耗都是很大的。
技术实现思路
1、为了解决背景技术中提到的至少一个技术问题,本发明的目的在于提供一种监控视频对象识别跟踪方法、系统、电子设备及存储介质,以降低视频对象识别跟踪过程中所消耗的硬件计算资源。
2、为实现上述目的,本发明提供如下技术方案:
3、一种监控视频对象识别跟踪方法,包括步骤:
4、s1:接收视频数据流,经过解复用和解码,输出原始视频的画面并记录帧类型,其中帧类型包括i帧和p帧;
5、s2:对i帧所解码的画面进行预处理,通过sdd目标检测算法模型在画面的图像中进行定位和对象识别,识别画面中的目标以及目标的位置信息,并将位置信息按照边界框的方式进行表示;
6、s3:将步骤s2中的识别结果在原始i帧的画面上进行标记和绘制;
7、s4:将获取的位置信息传递至跟踪器进行初始化,得到以i帧为初始帧的初始化目标跟踪器,根据初始化目标跟踪器学习的目标特征对视频的画面中移动目标进行持续跟踪;
8、s5:在出现p帧时,将p帧输入到步骤s4的初始化目标跟踪器中,根据当前p帧和学习的目标特征来更新边界框内的坐标信息,并在p帧上绘制反映目标新位置的标识框,将带有更新边界框的p帧在视频播放中进行展示。
9、进一步地,所述步骤s1包括:
10、s11:从服务器或本地文件中接收视频数据流,将复合的视频数据流分解为原始的nal单元;
11、s12:通过解码器接收nal码流,并进行解码;通过解码器分析slice层得出每一帧的类型;
12、s13:在解码器完成解码流程后输出原始画面并记录原有的帧类型。
13、进一步地,所述步骤s2包括:
14、s21:调整i帧所解码的画面图像大小并转换图像的颜色空间以适应模型输入;
15、s22:通过sdd目标检测算法模型在图像中定位和识别对象,在多个尺度和不同的预设位置进行特征提取和预测,识别出目标物体并通过边界框的方式给出每个目标在图像中的位置。
16、进一步地,所述步骤s4包括:
17、s41:调用tracker的create方法创建跟踪器,以i帧作为初始帧来初始化跟踪器,将获取的边界框传递给跟踪器进行初始化;
18、s42:调用init方法并传递i帧图像和初始边界框位置来初始化跟踪器;
19、s43:在初始化跟踪器后,学习所跟踪物体的目标特征信息,其中目标特征包括颜色、形状、纹理或运动模式中的任意一种;
20、s44:通过初始化目标跟踪器在后续帧中持续跟踪该目标;在每一帧中根据目标特征来定位目标,并更新边界框的位置;通过连续的帧得到目标在整个视频序列中的运动轨迹信息。
21、进一步地,所述步骤s5包括:
22、s51:通过跟踪器的update方法根据p帧中目标新位置调整边界框的坐标信息,并将坐标信息存储至队列中;
23、s52:在队列中获取边界框对象,由边界框内获取坐标信息,根据坐标信息绘制目标新位置的标识框。
24、进一步地,还包括步骤:
25、s6:根据目标出现的时间戳计算绘制画面的时机,在视频播放与音频播放不同步时,动态调整视频的播放速度。
26、进一步地,所述步骤s6包括:
27、s61:通过比较音频和视频的时间戳来同步视频与音频的播放时间;
28、s62:在视频播放落后于音频时,则加快播放速度;在视频播放超前于音频播放时,则减缓播放速度。
29、进一步地,还包括步骤:
30、s7:在出现新的i帧时,清空初始化目标跟踪器中的跟踪信息,并按照步骤s2至步骤s4进行操作,重新更新被跟踪的目标。
31、进一步地,所述步骤s7中的跟踪信息包括目标位置信息、目标特征信息、目标的运动轨迹信息和时间戳信息。
32、一种电子设备,所述电子设备包括:
33、存储器:用于存储可执行指令;
34、处理器:用于运行所述存储器存储的可执行指令时,实现上述方案中任一项所述的监控视频对象识别跟踪方法。
35、一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现上述方案中任一项所述的监控视频对象识别跟踪方法。
36、一种监控视频对象识别跟踪系统,包括:
37、接收模块:用于接收视频数据流,经过解复用和解码,输出原始视频的画面并记录帧类型,其中帧类型包括i帧和p帧;
38、预处理模块:用于对i帧所解码的画面进行预处理,通过sdd目标检测算法模型在画面的图像中进行定位和对象识别,识别画面中的目标以及目标的位置信息,并将位置信息按照边界框的方式进行表示;
39、标记模块:用于将预处理模块中的识别结果在原始i帧的画面上进行标记和绘制;
40、目标跟踪模块:用于将获取的位置信息传递至跟踪器进行初始化,得到以i帧为初始帧的初始化目标跟踪器,根据初始化目标跟踪器学习的目标特征对视频的画面中移动目标进行持续跟踪;
41、目标新位置标识模块:用于在出现p帧时,将p帧输入到步骤s4的初始化目标跟踪器中,根据当前p帧和学习的目标特征来更新边界框内的坐标信息,并在p帧上绘制反映目标新位置的标识框,将带有更新边界框的p帧在视频播放中进行展示。
42、进一步地,所述接收模块包括:
43、解复用单元:用于从服务器或本地文件中接收视频数据流,将复合的视频数据流分解为原始的nal单元;
44、解码单元:用于通过解码器接收nal码流,并进行解码;通过解码器分析slice层得出每一帧的类型;
45、画面还原单元:用于在解码器完成解码流程后输出原始画面并记录原有的帧类型;
46、所述预处理模块包括:
47、图像调整单元:用于调整i帧所解码的画面图像大小并转换图像的颜色空间以适应模型输入;
48、识别单元:用于通过sdd目标检测算法模型在图像中定位和识别对象,在多个尺度和不同的预设位置进行特征提取和预测,识别出目标物体并通过边界框的方式给出每个目标在图像中的位置;
49、所述目标跟踪模块包括:
50、跟踪器初始化单元:用于调用tracker的create方法创建跟踪器,以i帧作为初始帧来初始化跟踪器,将获取的边界框传递给跟踪器进行初始化;
51、传递单元:用于调用init方法传递i帧图像和初始边界框位置来初始化跟踪器;
52、目标特征学习单元:用于在初始化跟踪器后,学习所跟踪物体的目标特征信息,其中目标特征包括颜色、形状、纹理或运动模式中的任意一种;
53、跟踪目标定位单元:用于通过初始化目标跟踪器在后续帧中持续跟踪该目标;在每一帧中根据目标特征来定位目标,并更新边界框的位置;通过连续的帧得到目标在整个视频序列中的运动轨迹信息;
54、所述目标新位置标识模块包括:
55、坐标信息存储单元:用于通过跟踪器的update方法根据p帧中目标新位置调整边界框的坐标信息,并将坐标信息存储至队列中;
56、绘制单元:用于在队列中获取边界框对象,由边界框内获取坐标信息,根据坐标信息绘制目标新位置的标识框;
57、还包括:
58、音视频同步模块:用于根据目标出现的时间戳计算绘制画面的时机,在视频播放与音频播放不同步时,动态调整视频的播放速度;
59、所述音视频同步模块包括:
60、时间戳比较单元:用于通过比较音频和视频的时间戳来同步视频与音频的播放时间;
61、播放速度调节单元:用于在视频播放落后于音频时,则加快播放速度;在视频播放超前于音频播放时,则减缓播放速度;
62、目标跟踪刷新模块:用于在出现新的i帧时,清空初始化目标跟踪器中的跟踪信息,并由预处理模块、标记模块和目标跟踪模块进行操作,重新更新被跟踪的目标。
63、与现有技术相比,本发明的有益效果是:
64、本发明通过使用视频编码特性,只需识别i帧,对p帧使用对象跟踪技术,跟踪视频画面中的对象,将识别结果绘制到原i帧画面上,当后续视频帧遇到p帧时,使用之前在i帧定位的边界框,使用ai引擎推理的结果以i帧为初始帧初始化目标跟踪器。通过sdd目标跟踪算法更新该目标在p帧的位置,绘制新位置的标识框,将带有更新边界框的p帧在视频播放时进行展示。从而实现减少ai模型的调用次数,节约了大量的硬件计算资源。