用于确定监控图像序列的值得注意的部分序列的方法
背景技术:
1.基于视频的交通工具内部空间监控用于,观测交通工具中的乘客、例如在共乘(ride-sharing)交通工具中或者在自主出租车(autonomen taxi)中或者一般在至少部分自动化驾驶的情况下的乘客,以便记录在行驶(fahrt)期间的特别事件。经由移动无线电网络传输(英语upload(上传))视频数据以及在用于存储视频数据的设备上必须可供使用的数据存储器的大小是运营成本的重要经济因素。为了缩减要传输的数据的量,可以使用压缩方法,以便提高用于传输和存储视频的经济收益。
技术实现要素:
2.尤其是为了传输和存储这种视频文件,例如为了将这种视频文件传输和存储到云中,除了压缩之外,经济上还要求进一步减少要传输的数据,而在此无需不允许地降低在相关信息区域中的必需的质量。
3.尤其是,这种基于视频的交通工具内部空间监控可用于汽车共享(car sharing)、预约出租车(英语ride hailing)的领域中,或者可用于出租车公司,以便例如避免危险的或者违法的行为,或者以便自动地或者手动地辨识危险的或者违法的行为。
4.为了为缩减要传输的数据的量而在传输之前仅仅辨识行驶的相关部分(例如在交通工具中的相关部分),常规地可能会应用将这种事件(或events)当作正面类别看待的方法。这种方法可能会被配置成使得,探测到相应的事件并按时间来编排相应的事件。为了能够实现这一点,可能必须清楚地定义这些事件,或这些事件可能必须清楚地是可定义的。
5.交通工具中的用于确定相关的事件(或events)或场景的这种深刻的分析方法的缺点是与之相联系的计算密集的开销,并且因此是成本。附加地,为了开发这种深刻的分析方法,形成高的开发开销,以便记录足够量的相关事件,以便能够清楚和明确地定义这些事件。此外,形成高的硬件成本,以便在交通工具中执行这种计算。在此,关于此存在“先有鸡还是先有蛋问题”,因为为了能够定义相对应的硬件和方法需要来自现场的大量数据,可是这些硬件和方法必须在现场使用之前就存在。
6.根据本发明的多个方面,建议了根据独立权利要求的特征的一种用于确定监控图像序列的值得注意的部分序列的方法、一种用于训练用于确定特征点的神经网络的方法、一种监控设备、一种用于提供控制信号的方法、一种监控设备、一种对用于确定监控图像序列的值得注意的部分序列的方法的应用和一种计算机程序。有利的构建方案是从属权利要求以及随后描述的主题。
7.在本发明的整个说明书中,方法步骤系列呈现为使得,可容易理解该方法。但是,本领域技术人员将认识到,也可以以不同的顺序经历这些方法步骤中的许多方法步骤,并且这些方法步骤中的许多方法步骤导致相同的或者相对应的结果。在这个意义上,可以相对应地改变这些方法步骤的顺序。若干特征配备有数词,以便提高可读性或者使分配关系(zuordnung)更明确,但是这并不意味着存在确定的特征。
8.根据一个方面,建议了一种用于确定监控区域的监控图像序列的值得注意的部分
序列的方法,该方法具有下列步骤:
9.在一个步骤中,提供来自监控区域的音频信号,该音频信号至少部分地包括监控图像序列的时段。在另一步骤中,提供要监控的环境的已由成像系统生成的监控图像序列。在另一步骤中,从所提供的音频信号中确定音频信号的至少一个具有异常噪声的区段。在另一步骤中,确定监控图像序列的至少一个在要监控的环境之内具有异常运动的区段。
10.在另一步骤中,确定音频信号的至少一个具有异常噪声的区段与监控图像序列的至少一个具有异常运动的区段的相互关系,以便确定监控图像序列的值得注意的部分序列。
11.通过利用这种方法来确定监控图像序列的值得注意的部分序列,传输这些值得注意的部分序列可能足以充分监视监控区域。由于以值得注意的部分序列共计监控图像序列的仅小部分为出发点,所以利用这种方法可以显著降低如下数据量:该数据量例如被存储和/或无线地被传输至控制中心和/或至评估单元。以此达到了如下目标:使数据传输和存储的成本最小化。
12.在此,监控图像序列可能具有大量如下部分序列:所述部分序列分别表征监控图像序列的时间子范围。
13.监控区域表征如下空间区域:在所述空间区域中,通过音频信号和监控图像序列来跟踪变化。尤其是,如果监控区域涉及交通工具的内部空间,则异常噪声和异常运动涉及在乘客与交通工具的驾驶员之间的交互。尤其是,确定监控图像序列的至少一个在监控区域中的至少一个对象具有异常运动的区段。
14.利用这种方法,既用监控图像序列的图像信号又用音频信号对监控区域进行监控,其中音频信号例如可以与(尤其是摄影机的)视频信号一起被提供,并且该方法不仅分析图像信号,而且分析音频信号。
15.对于音频范围,频率范围可以划分为使得,过滤掉不相关的份额(anteile)。例如,这涉及发动机噪声和来自监控区域的外部环境的经过强烈衰减的噪声。尤其是,针对音频信号可以使用如下这种过滤器组:所述过滤器组被用在信息技术中,并且是合适的和设立为,以便将环境噪声与乘客噪声分开。
16.在此,音频信号可能具有大量单独探测到的音频信号,所述单独探测到的音频信号已分别通过监控区域中的各个不同的声音转换器探测到。
17.在视频分析中,亦即在确定例如对象或者乘客的异常运动时,要在监控图像序列的图像系列中检测运动。在此,以如下假设为出发点:在驾驶员与乘员或者乘客之间缺少交互时,如例如在无冲突的情形中,在交通工具中只存在少量运动。
18.确定音频信号的至少一个具有异常噪声的区段与监控图像序列的至少一个具有异常运动的区段的相互关系既可以基于规则地进行,又可以(如在下面所呈现的那样)利用相对应训练过的神经网络来实现。
19.在最简单的情况下,涉及辨识行驶中的场景,在所述场景中未曾交谈,而只是已发生少量运动。接着,为了上传或传输,可能由于缺乏相关性而抑制监控图像序列的这种部分序列。
20.根据一个方面建议了,监控区域为交通工具内部空间。除了应用于监控交通工具内部空间之外,这里描述的用于确定监控区域的监控图像序列的值得注意的部分序列的方
法例如一般也可被用于监控摄像机或者行车记录仪。
21.根据一个方面建议了,借助对于确定训练过的神经网络,确定音频信号的具有异常噪声的区段和/或监控图像序列的具有异常运动的区段。
22.换言之,尤其是为了进行预过滤,借助组合式神经网络,音频信号和监控图像序列的视频信号可以确定音频信号的至少一个具有异常噪声的区段和/或监控图像序列的具有异常运动的区段,和/或可以将环境噪声与乘客噪声分开。
23.一般而言,在神经网络中,在人工神经元的连接处的信号可能是实数,并且人工神经元的输出通过其输入之和的非线性函数来计算。人工神经元的连接通常具有如下权重:该权重随着进步式学习而调整。权重提高或者降低在连接处的信号的强度。人工神经元可以具有阈值,使得只有当总信号超过该阈值时,才输出信号。
24.通常,多个人工神经元被联合成多个层。不同的层可能针对其输入执行不同类型的变换。信号从第一层(即输入层)移动至最后一层(即输出层);可能在多次经历这些层之后移动至最后一层(即输出层)。
25.这种人工神经网络的架构可以是如下神经网络:该神经网络必要时用其他不同构造的层来扩展。原则上,这种神经网络具有至少三层神经元:输入层、中间层(隐藏层(hidden layer))和输出层。这表明,该网络的所有神经元划分成多个层。
26.在此,在前馈(feed-forward)网络中没有实现至在先层的连接。除了输入层之外,不同的层由如下神经元构成:所述神经元可能遭受非线性激活函数,并且可能与下一层的神经元相连。深度神经网络可能具有多个这种中间层。
27.这种神经网络必须针对其特定任务进行训练。在此,该神经网络的相对应架构的每个神经元都获得例如随机的初始权重。接着,输入数据被给予到该网络中,并且每个神经元都可以用它的权重来给输入信号进行加权且进一步向下一层的神经元给予结果。在输出层上,接着提供总结果。可以计算误差的大小,以及计算每个神经元占该误差的份额,以便接着朝使误差最小化的方向来改变每个神经元的权重。接着,进行递归式扫描(durchlaeufe),重新测量误差和调整权重,直至满足误差标准。
28.这种误差标准例如可以是测试数据集(如例如被加标签的参考图像)上的分类误差,或者也可以是损失函数的当前值(例如在训练数据集上的当前值)。替选地或者附加地,作为其中在训练中可能会采用过拟合(overfitting)或者用于训练的可用时间到期的步骤,误差标准可能涉及中断标准。
29.针对用于确定监控图像序列的值得注意的部分序列的方法,这种神经网络可以借助训练过的卷积神经网络来实现,所述训练过的卷积神经网络必要时与完全连接的神经网络相组合地、必要时在使用如批次归一化(batch-normalisierung)和训练丢弃(trainings-drop-outs)之类的经典的正则化层和稳定化层的情况下、在使用如sigmoid和relu等之类的不同激活函数的情况下来结构化。
30.在此,监控图像序列的相应图像以数字形式作为输入信号被提供给训练过的神经网络。
31.根据一个方面建议了,通过如下方式来确定监控图像序列的至少一个值得注意的部分序列:从监控图像序列中减去如下至少一个部分序列:在所述至少一部分序列中,确定监控图像序列的至少一个具有异常运动的区段与音频信号的至少一个具有异常噪声的区
段的相互关系表现(auspraegung)在极限值以下。
32.换言之,在该方法的该方面中,通过如下方式来辨识监控图像序列的值得注意的部分序列:确定相互关系在极限值以下的不值得注意的部分序列。尤其是,这种极限值可以通过如下方式来确定:利用相对应的相互关系,关于整个观测时段或者整个行驶来确定异常噪声和/或异常运动;并且为了确定不值得注意的部分序列或值得注意的部分序列,根据相互关系的时间变化过程来确定相互关系的极限值。尤其是,可以通过关于相互关系的时间变化过程计算平均值来确定极限值。替选地或者附加地,针对异常噪声可以确定第一极限值,和/或针对异常运动可以确定第二极限值。通过登上或者离开交通工具,和/或通过交通工具的驾驶员,可以触发这种计算。
33.在该方法的该方面中,可能使用特别的非计算密集的方法来确定异常噪声和/或异常运动,以便将硬件成本保持得低,并且也使对成本高昂的训练和验证数据的需求最小化,因为在该方法的该方面中的目标是辨识监控图像序列的如下部分序列:在所述部分序列中,没有异常运动或没有异常噪声可以被确定。
34.在此,音频信号的区段与监控图像序列的区段的相互关系可以基于规则地或者以经过学习的方式进行。
35.有利地,在该方法的该方面中,由于部分不了解异常噪声和/或异常运动,保守地选择如下极限值:所述极限值保证,在所述极限值以下,在监控区域中没有出现异常噪声和/或异常运动,并且因此在一定程度上颠倒用于确定值得注意的部分序列的方法。换言之,代替确定事件或值得注意的部分序列,确定行驶的如下阶段:在所述阶段中肯定没有出现异常过程。这种着手方式使得能够避开上面提到的成本和问题,因为这些方法可以不太深刻的方式被设立用于关于异常噪声和/或异常运动进行分析。
36.以此,因此解决了如下问题,确定传感器数据中的相关区域,以便传输经过缩减的数据流,所述经过缩减的数据流排除了非相关的区域。因为代替在准备阶段对所有可想象的异常过程进行定义和分类,而在一定程度上应用逆向逻辑,以便排除“寻常的”情况。由此,缩减要传输的数据量,并减低直接运营成本。附加地,得出如下优点:稍后的评估不必对行驶的整个时间变化过程进行评估,而是可以聚焦于相关区域。经此,节省了操作性的手动工作时间。随后,可以手动或者自动分析得到的被传输的或被存储的声学和视频相关的数据。
37.总之,利用该方法的该方面得出如下优点:用少量的计算能力来查明,行驶中的哪个部分或者监控区域的监控持续时间和监控图像序列中的与之相联系的部分序列中的哪个部分是低相关性的,也就是说是不值得注意的,以便缩减要传输的数据量、例如要传输到云中的数据量。
38.用于该方法的成像系统可以是摄像机系统和/或视频系统和/或热成像摄像机和/或激光雷达(lidar)系统和/或雷达(radar)系统和/或超声系统和/或热摄像机系统(英语:thermal imaging camera(热成像摄像机))。
39.根据该方法的一个方面建议了,通过在音频信号中关于异常幅度和/或异常频率辨识人声的频带,确定音频信号的至少一个具有异常噪声的区段。
40.以此,人声因此可以从包含在音频数据中的环境噪声中被过滤出来,以便提高信噪比,并且可以过滤对于确定异常噪声不相关的份额。这包含例如发动机噪声和来自环境
的经过强烈衰减的噪声。为此,可以使用来自信息技术的过滤器组,以便将环境噪声与乘客噪声分开。
41.根据一个方面建议了,所提供的音频信号是直接在监控区域中探测到的音频信号与环境噪声和/或噪声源之间的差分信号。
42.由无线电或者导航设备造成的干扰噪声可以通过直接截取无线电和/或导航设备的音频信号而从相对应的声学混合信号中被过滤并且被分开,其方式是减去这些干扰噪声。与此相应地,通过在相对应的扬声器附近的附加麦克风,可以截取无线电和/或导航设备的音频信号。
43.根据该方法的一个方面建议了,检测所提供的音频信号的来源地点,并基于该来源地点来确定异常噪声。
44.通过将声音转换器或麦克风分布式地定位在监控区域或交通工具内部空间中,可以通过评估音频信号的幅度和/或相位来对所提供的音频信号的来源地点进行这种测位(ortung)。替选地或者附加地,通过评估幅度差和/或传播时间差,可以利用立体声声音转换器或立体声麦克风进行这种测位。
45.如所实施的那样,可以经由音频幅度来评估在交通工具的内部的经过过滤的噪声,以便确定异常噪声。在此,利用如下特性:麦克风例如可能建造在后视镜旁边的行车记录仪中,并且由此检测到驾驶员的声音比来自无线电或者导航设备的声音/噪声明显更靠近麦克风。在轻微减弱的情况下,同样的情况适用于与耳朵处于麦克风附近的驾驶员交流的乘客。在交谈中,乘客的声音朝向驾驶员、并且以此也朝向麦克风对准,使得驾驶员能比环境噪声更好地听到这些声音。这样,经由幅度可以将与驾驶员的交谈同其他(如例如来自无线电或者导航设备的)声音区分开。其他附加信息可以通过立体声麦克风或者每个其他的具有多于一个输入端的麦克风来获得。由此,声音的方向可以被确定,并且可以被分派给监控区域中的交通工具的各个座位。
46.根据一个方面建议了,对监控图像序列的图像进行压缩,并基于用于压缩监控图像序列的相继图像的开销变化,借助监控图像序列来确定监控区域中的异常运动。
47.也可以通过在h264/h265编解码器(codec)中使用的流来近似光流。该光流描述了宏块在两个相继的图像之间的运动。
48.为了确定在监控图像序列的图像中的运动,也可以随着时间的过去来确定差分图像。这有利地与特别低的计算开销联系在一起。
49.有利地,因此可以通过确定经过压缩的图像的各自比特率来确定运动的程度。在大运动的情况下,图像的比特率上升,而具有少量运动的图像可以明显更强烈地被压缩。
50.除此以外,这里建议的方法可以与用于压缩的任意编码方法(如例如h.265)一起被使用,而且不必动用专有的编码方法、例如来自视频领域的专有的编码方法。替选地或者附加地,可以使用一般的编码方法、如例如mpeg、h.264、h.265。
51.根据该方法的一个方面建议了,根据在图像的至少一个图像区域中的压缩的变化来确定异常运动。
52.一般地,用如例如h.264/h.265之类的格式对图像进行压缩已经存在于设备中。读出和处理这些信息只是少量计算开销。在访问h.264/h.265压缩的各个宏块的压缩率时,甚至针对图像的各个区域可以提取压缩率。以此,可以将与运动关联的压缩率分配给交通工
具的各个区域。
53.通过将交通工具内部划分为不同的区域,同样可以将运动测量更强烈地聚焦于交通工具中的相关的异常运动。
54.通过对监控区域和尤其是交通工具的内部视图进行分割,例如通过用于语义分割的神经网络进行分割,可以从监控图像序列的图像中完全去除窗、空座位或者也去除方向盘区域,或者对窗、空座位或者方向盘区域进行向下加权。这也可以间接地由此来实现,其方式是:例如通过将这些区域涂黑或者通过强烈模糊来抑制这些区域中的运动。不同的加权也可以被应用于不同座位排中的绝对运动。
55.例如,当存在人员探测时,这些区域可以是静态的,或者也可以动态调整。
56.根据一个方面建议了,为了确定监控区域中的异常运动,确定监控图像序列的图像的至少一个光流,并基于所确定的光流,借助这些图像来确定异常运动。
57.有利地,光流的确定要以少量计算开销来实现,并且因而,与利用简单确定差分图像完全一样地,可以以此随着时间的过去确定监控图像序列的图像中的运动。
58.相对图像中的非相关运动,可以对以少量计算能力可实现的基于视频的方法进行补偿。这种非相关的运动例如是窗区域中的变化,或者也是行驶引起的运动。为了补偿,可以使用下列方法:
59.根据一个方面建议了,监控区域布置在交通工具之内,并且借助地图比较和/或方向盘位置和/或图像的具有光流的子区域来确定交通工具的运动和/或当前的交通工具运动,而且为了(基于图像的光流)确定异常运动,将交通工具的运动和/或当前的交通工具运动包括在内。
60.在此,例如可以使用基于惯性的测量单元(imu),以便确定在转弯行驶时在窗中的较大运动,尤其是确定针对后部的和“弯道外侧的”窗的较大运动,并且也确定乘员的由于驾驶性能而引起的运动。基于惯性的测量单元(imu)在此被利用,以便识别是恰好驶过例如弯道,还是已发生剧烈制动。通过与地图匹配相结合的全球定位系统(gps),同样的情况是可能的,其中通过地图匹配也可以考虑驾驶员在转向过程开始之前和开始时的运动、如例如转头检查盲点或者偏转方向盘。
61.根据一个方面建议了,确定监控区域中的人员的特征点,并基于监控图像序列之内的特征点的变化来确定异常运动。
62.这种特征点可以定义在人员的手上、胳膊上或者例如定义在人员的脖子上,使得可以跟踪异常运动,如例如可以跟踪抬起胳膊超出一定高度,以便确定人员的异常运动。
63.根据一个方面建议了,借助为了确定特征点而训练过的神经网络,确定监控区域中的人员的特征点。
64.借助于相对应设立的和经过训练的神经网络,确定特征点可能特别简单,因为只须提供相对应被加标签的参考图像。
65.根据一个方面建议了,借助音频信号的至少一个具有异常噪声的区段与监控图像序列的至少一个具有异常运动的区段的时间上的相互关系,确定所述相互关系。
66.根据一个方面建议了,监控图像序列的至少一个值得注意的部分序列通过如下方式来确定:相互关系的表现处于绝对值上方和/或处于相对值上方,所述相对值基于相互关系关于整个监控图像序列的平均值。
67.当例如存在在行驶期间出现冲突的信息时,那么尤其是要有利地应用这一点。接着,可以利用该信息来安排如下前提:关于该行驶的音频信号或监控图像序列,所述行驶的确定的部分与该行驶的剩余部分相比具有更多活动。借助为该行驶确定的针对相互关系的表现的相对值,可以确定涉及相应的行驶的决策阈值。
68.根据一个方面建议了,借助为了确定相互关系而训练过的神经网络,确定音频信号的至少一个具有异常噪声的区段与监控图像序列的至少一个具有异常运动的区段的相互关系。
69.根据一个方面建议了,为了确定相互关系而训练过的神经网络设立为,确定音频信号的至少一个具有异常噪声的区段,和/或确定监控图像序列的至少一个具有异常运动的区段。
70.因此,利用相对应设立的和训练过的神经网络,既可以确定音频信号的至少一个具有异常噪声的区段,又可以确定监控图像序列的至少一个具有异常运动的区段,以及可以确定监控区域中的人员或者乘客的特征点。
71.建议了一种方法,在该方法的情况下,基于监控区域的监控图像序列的值得注意的部分序列,提供用于操控至少部分自动化的交通工具的控制信号,和/或基于所述值得注意的部分序列来提供用于警告交通工具乘员的警告信号。
72.术语“基于”要关于如下特征广义地来理解:基于监控区域的监控图像序列的值得注意的部分序列来确定控制信号,所述值得注意的部分序列根据上面描述的方法之一来确定。该术语要被理解为使得,对于每次确定或者计算控制信号都考虑值得注意的部分序列,其中这并不排除,为了确定控制信号也还考虑其他输入变量。这一点相对应地适用于提供警告信号。
73.建议了一种用于训练用于确定特征点的神经网络的方法,该方法具有多个训练周期,其中每个训练周期都具有下列步骤:
74.在一个步骤中,提供参考图像,其中在参考图像中给人员的特征点加标签。在另一步骤中,用于确定特征点的神经网络被适配,以便在用神经网络确定人员的特征点时使与相应的被分配的参考图像的被加标签的特征点的偏差最小化。
75.尤其是,用于确定特征点的神经网络可以是卷积神经网络。
76.利用这种神经网络,通过如下方式可以容易辨识人员的特征点:生成和提供多个被加标签的参考图像,利用所述参考图像来训练该神经网络,以便确定监控区域的监控图像序列的值得注意的部分序列。
77.参考图像是如下图像:尤其是特定地为了训练神经网络,已记录并且例如已手动挑选和注释、或者已合成式地生成所述图像,而且针对训练神经网络的相对应的意图来给所述图像加标签。尤其是,这种标签可以涉及监控图像序列的图像中的人员的特征点。
78.建议了一种监控设备,该监控设备设立为,执行上面描述的用于确定监控区域的监控图像序列的值得注意的部分序列的方法之一。利用这种监控设备,可以容易地将相对应的方法集成到不同的系统中。
79.建议了上面描述的用于对监控区域进行监控的方法之一的应用,其中借助成像系统来提供监控图像序列。
80.根据一个方面,给出了一种计算机程序,所述计算机程序包括指令,所述指令在通
过计算机实施计算机程序时促使该计算机,实施上面描述的方法之一。这种计算机程序使得能够将所描述的方法使用在不同的系统中。
81.给出了一种机器可读的存储介质,在所述机器可读的存储介质上存储有上面描述的计算机程序。借助这种机器可读的存储介质,上面描述的计算机程序是便携式的。
附图说明
82.参照图1示出并且在下文更详细地阐述本发明的实施例。
83.图1示出了用于确定监控图像序列的值得注意的部分序列的方法的示意图。
具体实施方式
84.图1示意性地草绘了用于确定监控区域的监控图像序列110的值得注意的部分序列114a的方法100。
85.提供s1来自监控区域的音频信号120和监控图像序列110,其中监控图像序列110由成像系统生成。
86.利用方法100,从所提供的音频信号130中,确定s2音频信号130的至少一个具有异常噪声的区段114a,其中这里通过关于异常高的幅度来辨识人声的频带,确定音频信号130的至少一个具有异常噪声的区段114a。
87.此外,利用该方法来确定在监控图像序列110之内的(例如对象的)运动140,并借助运动140来确定s3监控图像序列的在要监控的环境之内具有异常运动的区段114a。
88.如从图1中可看出的那样,音频信号130和运动信号140在区段114a中相互关联,并以此确定监控图像序列的值得注意的部分序列。
89.在此,借助对于该确定训练过的神经网络,可以确定音频信号的具有异常噪声的区段和/或监控图像序列的具有异常运动的区段。
90.替选地或者附加地,通过如下方式可以确定监控图像序列110的至少一个值得注意的部分序列114a:从监控图像序列110中减去如下至少一个部分序列112a:在所述至少一个部分序列112a中,确定监控图像序列110的至少一个具有异常运动的区段112a与音频信号130的至少一个具有异常噪声的区段112a的相互关系表现在极限值以下。
91.以这种方式,在监视图像序列110中可以确定s4多个值得注意的部分序列114a。替选地,可以确定如下多个部分序列112a:在所述多个部分序列112a中,确定相互关系(如上面所描述的那样)表现在极限值以下,以便确定监控图像序列110。接着,在步骤s5中,可以(例如无线地)从交通工具向云传输监控图像序列110的确定为值得注意的多个部分序列114。