1.本公开涉及图像处理技术,尤其是一种视频目标的状态检测方法和装置、电子设备及存储介质。
背景技术:2.在对视频或图像中目标进行行为状态检测或环境状态检测的应用中,往往需要利用深度学习模型来确定图像关于目标的行为状态或环境状态的置信度,然后在模型后处理过程中,系统可基于关于目标的状态的置信度输出关于目标的行为状态或环境状态的状态检测结果。
3.针对模型后处理过程,如何提高系统输出响应灵敏度,是一个值得关注的技术问题。
技术实现要素:4.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种视频目标的状态检测方法和装置、电子设备及存储介质。
5.根据本公开实施例的一个方面,提供了一种视频目标的状态检测方法,包括:基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的正向置信度;基于多个不同长度的窗口,分别确定每个窗口对应的所述待检测视频中的多帧图像关于所述目标的状态的融合正向置信度;基于所述每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定所述待检测视频中目标的状态检测结果;其中,所述融合正向置信度阈值是基于给定准确率确定的。
6.根据本公开实施例的另一个方面,提供了一种视频目标的状态检测装置,包括:正向置信度确定模块,用于基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的正向置信度;融合正向置信度确定模块,用于基于多个不同长度的窗口,分别确定每个窗口对应的所述待检测视频中的多帧图像关于所述目标的状态的融合正向置信度;检测结果确定模块,用于基于所述每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定所述待检测视频中所述目标的状态检测结果;其中,所述融合正向置信度阈值是基于给定准确率确定的。
7.根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的视频目标的状态检测方法。
8.根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的视频目标的状态检测方法。
9.基于本公开上述实施例提供的视频目标的状态检测方法和装置、电子设备及存储
介质,可以分别确定多个不同长度的窗口中每个窗口对应的多帧图像关于目标的状态的融合正向置信度,进而基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果,可以实现基于多时间窗口的状态输出策略,相对于采用固定时间窗口对待检测视频中目标的状态进行检测,具体较好的灵活性。另外,每个窗口的融合正向置信度阈值是基于给定准确率确定的,并且短窗口的检测过程耗时短,能够在保证状态检测结果准确率的前提下,有助于及时输出待检测视频中目标的状态检测结果,能够提高系统的响应灵敏度。
10.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
11.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
12.图1是本公开所适用的检测系统的一示例性框架示意图;
13.图2是本公开一示例性实施例提供的视频目标的状态检测方法的流程示意图;
14.图3a-3b是本公开多个不同长度的窗口的示意图;
15.图4是本公开的准确率曲线;
16.图5是本公开另一示例性实施例提供的视频目标的状态检测方法的流程示意图;
17.图6是本公开再一示例性实施例提供的视频目标的状态检测方法的流程示意图;
18.图7是本公开一个示例性实施例提供的视频目标的状态检测装置的结构示意图;
19.图8是本公开另一个示例性实施例提供的视频目标的状态检测装置的结构示意图;
20.图9是本公开再一个示例性实施例提供的视频目标的状态检测装置的结构示意图;
21.图10是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
22.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
23.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
24.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
25.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
26.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或
者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
27.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
28.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
29.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
30.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
31.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
32.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
33.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
34.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
35.申请概述
36.在实现本公开的过程中,发明人发现,在对视频中目标进行行为状态检测或环境状态检测的过程中,基于深度学习的算法模型,通常采用单帧图像做输入,经由算法模型输出关于目标的状态的置信度。由于场景复杂多变和深度学习能力的限制,算法模型输出无法做到较高的准确率和召回率,误报和漏报不可避免。比如,在检测驾驶员是否存在打电话的行为、检测危险品运输车中驾驶员是否存在吸烟行为、检测车辆行驶路段是否存在障碍物等应用场景下,仅根据单帧图像关于目标的状态的置信度,无法得到准确的状态检测结果。因此,选取时间轴上连续多帧图像运行算法模型,得到多个关于目标的状态的置信度,然后通过融合策略确定关于目标的状态的融合置信度,进而基于融合置信度确定目标的状态检测结果,可以适当减少误报和漏报。
37.现有的方法通常是取一个固定的时间窗口(比如1秒钟),确定时间窗口内的多帧图像(比如30帧图像)的置信度,并通过融合策略确定时间窗口内多帧图像的融合置信度,并根据融合置信度来确定行为状态或环境状态的检测结果。其中的融合策略可以是获取时
间窗口内多帧图像的平均置信度,或者可以是取窗口内多帧图像的正向置信度的加权平均置信度。基于这种方法,使用的时间窗口越长,获取到的图像帧数越多,判断准确率也就越高,然而时间窗口越长,会导致行为状态或环境状态的报告时间越迟,系统的灵敏度越低。
38.示例性系统
39.图1是本公开所适用的检测系统的一示例性框架示意图。该检测系统100可以包括摄像机设备101和服务器102,摄像机设备101与服务器102通信,将拍摄的待检测视频传输到服务器102进行存储及其他处理,以车辆检测系统为例,摄像机设备101可以设置在车辆内预设位置,预设位置根据能够拍摄到驾驶位司机的待检测视频来确定,或者摄像机设备101还可以设置在车辆外预设位置,预设位置根据能拍摄到车辆行驶路段的待检测视频来确定。
40.本公开实施例中,摄像机设备101在拍摄到待检测视频后,可以先基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的正向置信度,然后基于多个不同长度的窗口,分别确定每个窗口对应的待检测视频中的多帧图像关于目标的状态的融合正向置信度,进而可以基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果。
41.在实际应用中,待检测视频目标的状态检测可以是在图像传感器和图像信号处理器(image signal processing,简称:isp)之间增加状态检测单元实现,状态检测单元可以采用gpu(graphics processing unit,图形处理器)或ai(artificial intelligence,人工智能)芯片实现;此外,待检测视频目标的状态检测也可以是由isp实现,具体可以根据实际需求设置,本公开实施例不做限定。在一些应用中,待检测视频目标的状态检测还可以是由摄像机设备以外的其它电子设备(比如终端设备、计算机系统、服务器等)实现,通过与摄像机设备通信,将摄像机设备拍摄的待检测视频传输给其它电子设备,由其他电子设备进行待检测视频目标的状态检测后返回给摄像机设备。
42.示例性方法
43.图2是本公开一示例性实施例提供的视频目标的状态检测方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
44.步骤201,基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的正向置信度。
45.本公开实施例中,可以通过以下方式得到预先训练的分类模型:构建待训练分类模型;从训练样本集合中获取多个图像样本;将所述多个图像样本分别作为输入,提供给待训练分类模型,经由待训练分类模型对输入的各图像样本分别进行状态检测,根据待训练分类模型的输出,获得预测出的各图像样本中关于目标的状态的正向置信度;根据预测出的各图像样本中关于目标的状态的正向置信度和各图像样本的正向置信度标注信息之间的差异,调整待训练分类模型的模型参数,迭代执行上述过程,直至满足预设训练完成条件,得到分类模型。
46.本公开实施例中,待训练分类模型可以为二分类卷积神经网络模型,待训练分类模型的输出可以包括正向置信度和负向置信度。
47.本公开实施例中目标的状态可以为目标的行为状态或环境状态。图像中关于目标的状态的正向置信度可以表示图像中目标存在该状态的置信度,图像中关于目标的状态的
负向置信度可以表示图像中目标不存在该状态的置信度。
48.在一个可选示例中,本公开实施例的目标可以为出租车、快车、公交车、轮渡等公共交通的驾驶员,相应的状态可以为驾驶员未系安全带。
49.在另一个可选示例中,本公开实施例的目标可以为危险品运输车驾驶员,相应的状态可以为驾驶员抽烟。
50.在又一个可选示例中,本公开实施例的目标可以为施工现场的工作人员,相应的状态可以为工作人员未佩戴安全帽。
51.在再一个可选示例中,本公开实施例的目标可以为车辆的行驶路段,相应的状态可以为行驶路段有障碍物。
52.步骤202,基于多个不同长度的窗口,分别确定每个窗口对应的待检测视频中的多帧图像关于目标的状态的融合正向置信度。
53.本公开实施例中,窗口的长度可以通过图像帧数或者检测时长进行标识。作为一个示例,假定窗口t
10
的长度为10帧,该窗口可以对应待检测视频中的10帧图像。作为另一个示例,假定窗口t1的长度为1秒,若检测帧率为30帧每秒(即30fps),该窗口可以对应待检测视频中的30帧图像。需要说明的是,本领域技术人员可以根据实际需要设置多个窗口的长度和数量,本公开实施例对多个窗口的长度和数量不做限定。
54.在一个可选示例中,可以根据预先训练的分类模型的检测帧率确定多个不同长度的窗口。
55.作为一个示例,设定预先训练的分类模型的检测帧率为30帧每秒(即30fps),可以设置多个不同长度的窗口分别为t
30
、t
60
,还可以设置多个不同长度的窗口分别为t9、t
30
、t
60
等等。基于30fps的检测帧率,完成不同长度的窗口对应的多帧图像的检测所需要的时间也不同。对于窗口t9,完成窗口对应的多帧图像的检测需要0.3s;对于窗口t
30
,完成窗口对应的多帧图像的检测所需要的时间为1s;对于窗口t
60
,完成窗口对应的多帧图像的检测所需要的时间为2秒。
56.本公开实施例中,输入到检测系统中的待检测视频可以是摄像机设备实时拍摄的图像序列,也可以是摄像机设备预先拍摄的图像序列。
57.在一个可选示例中,每个窗口可以对应待检测视频中连续的多帧图像,每个窗口对应的连续的多帧图像中的最后一帧图像为待检测视频中的最后一帧图像。
58.作为一个示例,如图3a所述,输入到检测系统中的待检测视频可以为图像帧数为70帧的图像序列,多个不同长度的窗口分别为t
20
、t
25
、t
55
、t
60
。其中,t
20
对应的图像帧数为20帧、t
25
对应的图像帧数为25帧、t
55
对应的图像帧数为55帧、t
60
对应的图像帧数为60帧,每个窗口对应的多帧图像中的最后一帧图像为检测系统当前获取到的图像序列中的最后一帧图像,即第70帧图像。
59.在一个可选示例中,当有新的待检测图像输入到检测系统中时,待检测视频包含的图像帧数会随之增加,可以通过滑动多个不同长度的窗口,使得每个窗口对应的多帧图像中的最后一帧图像为检测系统当前获取到的最后一帧图像,以实现对检测系统当前获取到的图像序列中目标的状态检测。
60.作为一个示例,如图3b所述,当有新的待检测图像(如图3b中示出的第71帧图像)输入到检测系统中时,待检测视频变为图像帧数为71帧的图像序列,可以滑动多个不同长
度的窗口t
20
、t
25
、t
55
和t
60
,使得每个窗口对应的多帧图像中的最后一帧图像为检测系统当前获取到的最后一帧图像,即第71帧图像,以实现对检测系统当前获取到的图像序列中目标的状态检测。
61.在一个可选示例中,每个窗口可以分别对应不同的融合正向置信度阈值。在不同窗口具有相同准确率要求的情况下,窗口对应的融合正向置信度阈值的大小与窗口的长度负相关,也就是说,窗口的长度越小,对应的融合正向置信度阈值越大,窗口的长度越大,对应的融合正向置信度阈值越小。
62.作为一个示例,如图3a所示,可以分别设置窗口t
20
对应的融合正向置信度阈值为0.88、窗口t
25
对应的融合正向置信度阈值为0.85、窗口t
55
对应的融合正向置信度阈值为0.72、窗口t
60
对应的融合正向置信度阈值为0.65。
63.以窗口t
20
为例,可以通过以下操作确定窗口t
20
对应的融合正向置信度阈值:选取测试集(比如1000段样本视频);设定目标准确率(比如99%)和初始融合正向置信度阈值(比如0.6);基于窗口t
20
,分别确定测试集中各样本视频的融合正向置信度,并基于各样本视频的融合正向置信度和初始融合正向置信度阈值,确定窗口t
20
的测试准确率;不断调整以增大融合正向置信度阈值的值,使窗口t
20
的测试准确率达到目标准确率,该达到目标准确率对应的融合正向置信度阈值、即为窗口t
20
对应的满足准确率要求的融合正向置信度阈值。
64.基于此,通过不同长度的窗口对应不同的融合正向置信度阈值,使得多个不同长度的窗口可以满足相同准确率要求,从而可以保证状态检测结果的准确率。
65.在一个可选示例中,在确定每个窗口对应的待检测视频中的多帧图像关于目标的状态的融合正向置信度时,可以基于每个窗口对应的多帧图中每帧图像中关于目标的状态的正向置信度,按照预设方式确定每个窗口对应的多帧图像关于目标的状态的融合正向置信度。
66.在一个可选示例中,融合正向置信度可以是窗口对应的多帧图像的正向置信度的平均值。
67.在一个可选示例中,融合正向置信度可以是窗口对应的多帧图像的正向置信度的加权平均值。实际应用中,可以分别为多帧图像中的每帧图像设置不同的权值,或者可以先将多帧图像划分成多个图像组,然后分别为每个图像组设置不同的权值。
68.在一个可选示例中,针对多个图像组中的每个图像组,可以分别根据图像组包含的图像帧数,和/或图像组的时间顺序,为每个图像组设置不同的权值。
69.步骤203,基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果。
70.在一个可选示例中,待检测视频中目标的状态检测结果可以为待检测视频中目标存在上述状态或待检测视频中目标不存在上述状态。
71.本公开实施例中,多个不同长度的窗口可以分别对应不同的融合正向置信度阈值,基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,可以确定每个窗口的视频目标的状态检测结果。
72.在一个可选示例中,可以基于每个窗口的融合正向置信度与对应的融合正向置信度阈值的大小关系,确定每个窗口的视频目标的状态检测结果。
73.在一个可选示例中,若融合正向置信度大于对应的融合正向置信度阈值,可以确定视频目标的检测结果为视频目标存在上述状态;若融合正向置信度不大于对应的融合正向置信度阈值,可以确定视频目标的检测结果为视频目标不存在上述状态。
74.在一个可选示例中,若多个不同长度的窗口中有窗口的视频目标的状态检测结果为视频目标存在上述状态,可以确定待检测视频中目标的状态检测结果为待检测视频中目标存在上述状态。
75.在一个可选示例中,在确定待检测视频中目标的状态检测结果为待检测视频中目标存在上述状态之后,可以输出目标状态提示信息,以提示视频中目标存在上述状态。
76.在一个可选示例中,还可以按照预设周期,输出目标状态提示信息,以周期性提示视频中目标存在上述状态,比如按照预设周期,对车辆驾驶员的危险驾驶行为进行提醒,直到行为结束。
77.本公开实施例可以分别确定多个不同长度的窗口中每个窗口对应的多帧图像关于目标的状态的融合正向置信度,进而基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果,可以实现基于多时间窗口的状态输出策略,相对于采用固定时间窗口对待检测视频中目标的状态进行检测,具体较好的灵活性。另外,每个窗口的融合正向置信度阈值是基于给定准确率确定的,并且短窗口的检测过程耗时短,能够在保证状态检测结果准确率的前提下,有助于及时输出视频中目标的状态检测结果,能够提高系统的响应灵敏度。
78.实际应用中,利用预设测试样本集对本公开实施例的视频目标的状态检测方法进行测试,可以得到如图4所示的准确率曲线。
79.在图4中,左图为准确率-召回率曲线,描述了多个不同长度的窗口在测试样本集上的准确率和召回率的关系;右图为准确率-置信度曲线,描述了多个不同长度的窗口对应的融合正向置信度阈值与准确率的关系。
80.从右图可以看出,要获得相同的准确率,越小的窗口,窗口的融合正向置信度阈值应越大。由于越小的窗口取到的图像帧数少,只有选取比较高的融合正向置信度阈值才能确保准确率,以减少行为状态的误报。
81.从左图可以看出,在相同准确率的条件下,窗口越大事件的召回率越高,即行为状态的漏报越少。因此,若只使用一个固定的窗口进行行为状态检测,为了减少误报提高召回率,应选取一个较长的窗口。这样,系统的灵敏度会大大下降,造成行为状态上报不及时。
82.若使用多个不同长度的窗口进行行为状态检测,可以在确保准确率的条件下最大化灵敏度和召回率。如图4所示,当取准确率为95%时,窗口t
20
的融合正向置信度阈值为0.88,相应的召回率为38.5%,即有38.5%的行为状态可以在20帧范围内报出;窗口t
25
的融合正向置信度阈值为0.85,召回率为53%。以此类推,在确保95%准确率的条件下,20帧内检测出存在行为状态的占比为38.5%,25帧内检测出存在行为状态的占比为53%,55帧内检测出存在行为状态的占比为72%,60帧内检测出存在行为状态的占比为97%。因此,基于多个时间窗口的行为状态输出策略,在确保行为状态输出准确率和召回率的前提下,可以提高系统的响应灵敏度。
83.在一个可选示例中,图5是本公开另一示例性实施例提供的视频目标的状态检测方法的流程示意图,如图5所示,在上述图2所示实施例的基础上,步骤203可以包括如下步
骤:
84.步骤203-1,按照窗口的长度由小到大的顺序,确定多个不同长度的窗口对应的多个融合正向置信度的检测顺序。
85.步骤203-2,基于多个融合正向置信度的检测顺序,依次判断多个融合正向置信度与对应的融合正向置信度阈值的大小关系。
86.步骤203-3,基于大小关系,确定待检测视频中目标的状态检测结果。
87.在一个可选示例中,步骤203-2可以基于多个融合正向置信度的检测顺序,依次判断多个融合正向置信度与对应的融合正向置信度阈值的大小关系时,从多个融合正向置信度中确定出第一个大于对应的融合正向置信度阈值的融合正向置信度(可以称为第一融合正向置信度)。
88.在一个可选示例中,在上述步骤203-2从多个融合正向置信度中确定出第一融合正向置信度的情况下,可以确定待检测视频中目标的检测结果为待检测视频中目标存在上述状态,并可以输出状态提示信息,以提示待检测视频中目标存在上述状态。
89.在一个可选示例中,在基于第一融合正向置信度,确定出待检测视频中目标存在上述状态,并输出状态提示信息后,可以结束对待检测视频的状态检测,也就是不再对除第一融合正向置信度外的其他融合正向置信度与对应的融合正向置信度阈值的大小关系进行判断。
90.在一个可选示例中,若多个不同长度的窗口中每个窗口的融合正向置信度均不大于对应的融合正向置信度阈值,可以确定检测结果为待检测视频中目标不存在上述状态,不输出状态提示信息。
91.本公开实施例基于多个融合正向置信度的检测顺序,依次判断多个融合正向置信度与对应的融合正向置信度阈值的大小关系,若当前融合正向置信度大于对应的融合正向置信度阈值,可以确定检测结果为待检测视频中目标存在上述状态,进而可以输出状态提示信息,以提示待检测视频中目标存在上述状态,若长度较小的窗口可以检测出待检测视频中目标存在上述状态,便可以及时输出状态提示信息,从而可以有效提高系统的响应灵敏度。
92.在一个可选示例中,图6是本公开再一示例性实施例提供的视频目标的状态检测方法的流程示意图,如图6所示,在上述图2所示实施例的基础上,还可以包括如下步骤:
93.步骤204,基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的负向置信度。
94.步骤205,从多个不同长度的窗口中,确定第一个大于对应的融合正向置信度阈值的融合正向置信度对应的第一窗口。
95.步骤206,基于多个不同长度的窗口的预设顺序,确定第一窗口之前的多个窗口各自对应的融合负向置信度。
96.步骤207,基于多个融合负向置信度与对应的抑制阈值之间的大小关系,对第一个大于对应的融合正向置信度阈值的融合正向置信度进行抑制。
97.在一个可选示例中,预设顺序可以为窗口的长度由小到大的顺序,第一窗口之前的多个窗口的长度均小于第一窗口的长度。
98.在一个可选示例中,融合负向置信度可以是窗口内多帧图像的负向置信度的平
均。
99.在一个可选示例中,融合负向置信度可以是窗口对应的多帧图像的负向置信度的加权平均。实际应用中,可以分别为多帧图像中的每帧图像设置不同的权值,或者可以先将多帧图像划分成多个图像组,然后分别为每个图像组设置不同的权值。
100.在一个可选示例中,针对多个图像组中的每个图像组,可以分别根据图像组包含的图像帧数,和/或图像组的时间顺序,为每个图像组设置不同的权值。在一个可选示例中,多个不同长度的窗口可以分别对应不同的抑制阈值,本领域技术人员可以根据实际需要设置多个不同长度的窗口分别对应的抑制阈值,本公开实施例对抑制阈值的大小不做具体限定。
101.本公开实施例中,对第一融合正向置信度进行抑制,可以是将第一融合正向置信度的值变小。
102.在一个可选示例中,将第一融合正向置信度的值变小,可以是将第一融合正向置信度的值设定为1与第一融合正向置信度的差值。
103.在一个可选示例中,将第一融合正向置信度的值变小,可以是将第一融合正向置信度的值设定为小于第一窗口对应的融合正向置信度阈值的任一数值。
104.本公开实施例在确定第一融合正向置信度后,基于第一窗口之前的多个窗口各自对应的融合负向置信度对第一融合正向置信度进行抑制,也就是,根据第一窗口之前的多个窗口的检测结果,对第一窗口的检测结果进行修正,从而可以提高视频中目标的行为状态检测结果的准确度,降低误报率,减少对用户的打扰。
105.在一个可选示例中,步骤207中,基于多个融合负向置信度与对应的抑制阈值之间的大小关系,对第一个大于对应的融合正向置信度阈值的融合正向置信度进行抑制时,可以先按照窗口的长度的预设顺序,确定第一窗口之前的多个窗口各自对应的多个融合负向置信度的检测顺序,然后可以基于多个融合负向置信度的检测顺序,在从多个融合负向置信度中确定出第一个小于对应的抑制阈值的融合负向置信度的情况下,利用第一个小于对应的抑制阈值的融合负向置信度替换第一个大于对应的融合正向置信度阈值的融合正向置信度。这里,窗口的长度的预设顺序可以为窗口的长度由小到大的顺序。
106.在一个可选示例中,上述融合正向置信度阈值可以按照以下方式确定:分别针对样本视频集合中每个样本视频,先基于预先训练的分类模型,确定样本视频的每帧样本图像中关于目标的状态的样本正向置信度,并基于样本正向置信度确定目标窗口对应的样本视频中的多帧样本图像的样本融合正向置信度,以及基于样本融合正向置信度和目标窗口的融合正向置信度阈值确定样本视频中目标的状态检测结果,然后可以基于样本视频集合中每个样本视频中目标的状态检测结果确定目标窗口的准确率,并可以确定目标窗口的融合正向置信度阈值与准确率之间的函数关系,进而可以基于该函数关系,确定目标窗口在给定准确率下的融合正向置信度阈值作为上述融合正向置信度阈值。需要说明的是,这里的目标窗口可以是上述多个不同长度的窗口中的任一窗口,给定准确率可以根据实际需要进行设定,本公开实施例不做限定。
107.本公开实施例基于样本视频集合和预先训练的分类模型可以确定每个窗口的样本融合正向置信度阈值与准确率之间的函数关系,进而可以基于每个窗口的函数关系,确定每个窗口在给定准确率下的样本融合正向置信度阈值作为上述融合正向置信度阈值,有
助于保证通过融合正向置信度与对应的融合正向置信度阈值的大小关系确定出的待检测视频中目标的状态检测结果的准确率,降低误报率,减少对用户的打扰。
108.在一个可选示例中,在确定上述融合正向置信度阈值时,还可以对于多个不同长度的窗口,在任意相邻的两个窗口之间的长度之差大于一帧图像的情况下,基于相邻两个窗口对应的融合正向置信度阈值,利用插值公式确定在相邻两个窗口之间的窗口的融合正向置信度阈值。
109.在一个可选示例中,可以根据相邻两个窗口的长度之差,与相邻两个窗口的融合正向置信度阈值之差的比率关系,确定插值公式,进而可以利用该插值公式确定在相邻两个窗口之间的窗口的融合正向置信度阈值。
110.本公开实施例可以利用插值公式确定在相邻两个窗口之间的窗口的融合正向置信度阈值,相对于基于样本视频集合和预先训练的分类模型确定窗口的融合正向置信度阈值的方式,该方法实现过程简单,计算量小,有助于降低计算量,节省计算资源。
111.在一个可选示例中,上述抑制阈值按照以下方式确定:分别针对样本视频集合中每个样本视频,先基于预先训练的分类模型,确定样本视频的每帧样本图像的样本负向置信度,并基于样本负向置信度,确定每个目标窗口对应的样本视频中多帧样本图像的样本融合负向置信度,以及基于样本负向置信度和目标窗口的抑制阈值确定样本视频中目标的状态检测结果,然后可以基于样本视频集合中每个样本视频中目标的状态检测结果确定目标窗口的准确率,并可以确定目标窗口的抑制阈值与准确率之间的函数关系,进而可以基于该函数关系,确定目标窗口在给定准确率下的抑制阈值作为所述抑制阈值。需要说明的是,这里的目标窗口可以是上述多个不同长度的窗口中的任一窗口,给定准确率可以根据实际需要进行设定,本公开实施例不做限定。
112.本公开实施例基于样本视频集合和预先训练的分类模型可以确定每个窗口的抑制阈值与准确率之间的函数关系,进而可以基于每个窗口的函数关系,确定每个窗口在给定准确率下的抑制阈值作为上述抑制阈值,有助于保证通过基于多个融合负向置信度与对应的抑制阈值之间的大小关系,对第一融合正向置信度进行抑制的准确率,降低误报率,减少对用户的打扰。
113.在一个可选示例中,在确定上述抑制阈值的时,还可以对于多个不同长度的窗口,在任意相邻的两个窗口之间的长度之差大于一帧图像的情况下,基于相邻两个窗口对应的抑制阈值,利用插值公式确定在相邻两个窗口之间的窗口的抑制阈值。
114.本公开实施例可以利用插值公式确定在相邻两个窗口之间的窗口的抑制阈值,相对于基于样本视频集合和预先训练的分类模型确定窗口的抑制阈值的方式,该方法实现过程简单,计算量小,有助于降低计算量,节省计算资源。
115.本公开实施例提供的任一种视频目标的状态检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种视频目标的状态检测方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频目标的状态检测方法。下文不再赘述。
116.示例性装置
117.图7是本公开一个示例性实施例提供的视频目标的状态检测装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例。如图7所示的装置包括:正向置信度
确定模块301、融合正向置信度确定模块302和检测结果确定模块303。其中:
118.正向置信度确定模块301用于基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的正向置信度;
119.融合正向置信度确定模块302用于基于多个不同长度的窗口,分别确定每个窗口对应的待检测视频中的多帧图像关于目标的状态的融合正向置信度;
120.检测结果确定模块303用于基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果;其中,融合正向置信度阈值是基于给定准确率确定的。
121.本公开实施例可以分别确定多个不同长度的窗口中每个窗口对应的多帧图像关于目标的状态的融合正向置信度,进而基于每个窗口的融合正向置信度与对应的融合正向置信度阈值,确定待检测视频中目标的状态检测结果,可以实现基于多时间窗口的状态输出策略,相对于采用固定时间窗口对待检测视频中目标的状态进行检测,具体较好的灵活性。另外,每个窗口的融合正向置信度阈值是基于给定准确率确定的,并且短窗口的检测过程耗时短,能够在保证状态检测结果准确率的前提下,有助于及时输出待检测视频中目标的状态检测结果,能够提高系统的响应灵敏度。
122.图8是本公开另一个示例性实施例提供的视频目标的状态检测装置的结构示意图。如图8所示,在上图7所示实施例的基础上,上述装置还可以包括:负向置信度确定模块304、第一窗口确定模块305、融合负向置信度确定模块306和抑制模块307。其中,
123.负向置信度确定模块304用于基于预先训练的分类模型,确定待检测视频的每帧图像中关于目标的状态的负向置信度;
124.第一窗口确定模块305用于从多个不同长度的窗口中,确定第一个大于对应的融合正向置信度阈值的融合正向置信度对应的第一窗口;
125.融合负向置信度确定模块306用于基于多个不同长度的窗口的预设顺序,确定第一窗口之前的多个窗口各自对应的融合负向置信度;
126.抑制模块307用于基于多个融合负向置信度与对应的抑制阈值之间的大小关系,对第一个大于对应的融合正向置信度阈值的融合正向置信度进行抑制。
127.在一个可选示例中,在相同准确率要求下,对应的融合正向置信度阈值与每个窗口的长度负相关。
128.在一个可选示例中,上述融合正向置信度确定模块302可以用于基于每个窗口对应的多张图像中每帧图像中关于目标的状态的正向置信度,按照预设方式确定每个窗口的关于目标的状态的融合正向置信度。
129.在一个可选示例中,图9是本公开再一个示例性实施例提供的视频目标的状态检测装置的结构示意图,如图9所示的检测结果确定模块303,可以包括:第一检测顺序确定单元303-1、判断单元303-2和检测结果确定单元303-3。其中,
130.第一检测顺序确定单元303-1用于按照窗口的长度由小到大的顺序,确定多个不同长度的窗口对应的多个融合正向置信度的检测顺序;
131.判断单元303-2用于基于多个融合正向置信度的检测顺序,依次判断多个融合正向置信度与对应的融合正向置信度阈值的大小关系;
132.检测结果确定单元303-3用于基于大小关系,确定待检测视频中目标的状态检测
结果。
133.在一个可选示例中,上述判断单元303-2可以用于基于多个融合负向置信度的检测顺序,从多个融合正向置信度中确定出第一个大于对应的融合正向置信度阈值的融合正向置信度。
134.在一个可选示例中,上述检测结果确定单元303-2可以用于在从多个融合正向置信度中确定出第一个大于对应的融合正向置信度阈值的融合正向置信度的情况下,确定待检测视频中目标的状态检测结果为待检测视频中目标存在上述状态。
135.在一个可选示例中,上述抑制模块307可以包括:第二检测顺序确定单元和替换单元。其中,
136.第二检测顺序确定单元用于按照窗口的长度的预设顺序,确定第一窗口之前的多个窗口各自对应的多个融合负向置信度的检测顺序;
137.替换单元用于基于多个融合负向置信度的检测顺序,在从多个融合负向置信度中确定出第一个小于对应的抑制阈值的融合负向置信度的情况下,利用第一个小于对应的抑制阈值的融合负向置信度替换第一个大于对应的融合正向置信度阈值的融合正向置信度。
138.在一个可选示例中,上述融合正向置信度阈值可以按照以下方式确定:分别针对样本视频集合中每个样本视频,先基于预先训练的分类模型,确定样本视频的每帧样本图像中关于目标的状态的样本正向置信度,并基于样本正向置信度确定目标窗口对应的样本视频中的多帧样本图像的样本融合正向置信度,以及基于样本融合正向置信度和目标窗口的融合正向置信度阈值确定样本视频中目标的状态检测结果,然后可以基于样本视频集合中每个样本视频中目标的状态检测结果确定目标窗口的准确率,并可以确定目标窗口的融合正向置信度阈值与准确率之间的函数关系,进而可以基于该函数关系,确定目标窗口在给定准确率下的融合正向置信度阈值作为上述融合正向置信度阈值。需要说明的是,这里的目标窗口可以是上述多个不同长度的窗口中的任一窗口,给定准确率可以根据实际需要进行设定,本公开实施例不做限定。
139.在一个可选示例中,确定上述融合正向置信度阈值的方式还可以包括:对于多个不同长度的窗口,在任意相邻的两个窗口之间的长度之差大于一帧图像的情况下,基于相邻两个窗口对应的融合正向置信度阈值,利用插值公式确定在相邻两个窗口之间的窗口的融合正向置信度阈值。
140.在一个可选示例中,上述抑制阈值按照以下方式确定:分别针对样本视频集合中每个样本视频,先基于预先训练的分类模型,确定样本视频的每帧样本图像的样本负向置信度,并基于样本负向置信度,确定每个目标窗口对应的样本视频中多帧样本图像的样本融合负向置信度,以及基于样本负向置信度和目标窗口的抑制阈值确定样本视频中目标的状态检测结果,然后可以基于样本视频集合中每个样本视频中目标的状态检测结果确定目标窗口的准确率,并可以确定目标窗口的抑制阈值与准确率之间的函数关系,进而可以基于该函数关系,确定目标窗口在给定准确率下的抑制阈值作为所述抑制阈值。需要说明的是,这里的目标窗口可以是上述多个不同长度的窗口中的任一窗口,给定准确率可以根据实际需要进行设定,本公开实施例不做限定。
141.在一个可选示例中,确定上述抑制阈值的方式还可以包括:对于多个不同长度的窗口,在任意相邻的两个窗口之间的长度之差大于一帧图像的情况下,基于相邻两个窗口
对应的抑制阈值,利用插值公式确定在相邻两个窗口之间的窗口的抑制阈值。
142.示例性电子设备
143.下面,参考图10来描述根据本公开实施例的电子设备。该电子设备包括一个或多个处理器401和存储器402。
144.处理器401可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
145.存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的各个实施例的视频目标的行为状态检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
146.在一个示例中,电子设备还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置403可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号,还可以是通信网络连接器,用于从其它电子设备接收所采集的输入信号。
147.此外,该输入设备403还可以包括例如键盘、鼠标等等。
148.该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
149.当然,为了简化,图10中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
150.示例性计算机程序产品和计算机可读存储介质
151.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频目标的行为状态检测方法中的步骤。
152.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
153.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频目标的状态检测方法中的步骤。
154.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可
以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
155.以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
156.本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
157.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
158.可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
159.还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
160.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
161.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。