1.本公开一般涉及视频监控系统,并且更具体地涉及使用音频以帮助识别所监控的环境中的异常事件的视频监控系统。
背景技术:2.由于其提供针对设施监控的互补信息的优点,音频分析在视频监控场所中正变得越来越普遍。在许多情况下,为了检测异常音频事件,开发和训练单独的音频分析模块以检测对应的音频事件。例如,可以开发和训练一个音频分析模块以检测枪声,同时可以开发和训练另一个音频分析模块以检测尖叫。这些经训练的一个音频分析可以购自各种供应商购以供使用。
3.这些音频分析模块中的每个音频分析模块通常独立于其他音频分析模块而应用于传入音频流,以检测对应的音频事件。在使用中,可能存在数十、数百或甚至数千个音频分析模块正在运行以检测所监控的环境中的期望范围的引起关注的音频事件类型。另外,每个环境可能需要不同组的音频分析模块。例如,学校中的儿童尖叫可能不会引起高度关注,但在机场中的儿童尖叫可能是严重的异常。另外,特定的所监控的环境中的背景噪声可能干扰这些现有的音频分析模块的可靠性,因为通常在没有类似背景噪声的情况下开发和训练音频分析模块。
技术实现要素:4.本公开一般涉及视频监控系统,并且更具体地涉及使用音频以帮助识别所监控的环境中的异常事件的视频监控系统。在一个示例中,识别特定环境中的异常声音的方法包括:当不存在异常音频事件时,从位于特定环境中的麦克风接收正常音频流;以及将正常音频流的至少一部分用作基线,用于随后处理传入音频流,以确定来自特定环境中的麦克风的传入音频流是否包括特定针对环境的异常音频事件。当确定传入音频流包括针对特定环境的异常音频事件时,该方法可以访问电子数据库以确定特定环境中的异常音频事件的位置,识别具有包括特定环境中的异常音频事件的位置的视场的摄像机,并且检索来自所识别的摄像机的视频流并且将其显示在显示器上。
5.另选地或除上述任何示例之外,在另一个示例中,可以在训练模式期间接收正常音频流。
6.另选地或除上述任何示例之外,在另一个示例中,在训练模式期间,该方法还可以包括:将正常音频流划分为多个正常音频剪辑片段;通过将已知异常音频事件叠加到多个正常音频剪辑片段中的一个或多个正常音频剪辑片段上来制备多个异常音频剪辑片段;以及使用多个正常音频剪辑片段和多个异常音频剪辑片段中的一者或多者来训练音频分类模型,以识别特定环境中的异常音频事件。
7.另选地或除上述任何示例之外,在另一个示例中,音频分类模型可以用于确定在
操作模式期间来自特定环境的传入音频流是否包括针对特定环境的异常音频事件。
8.另选地或除上述任何示例之外,在另一个示例中,音频分类模型可以是自学习模型。
9.另选地或除上述任何示例之外,在另一个示例中,自学习模型可以使用增强学习和/或迁移学习。
10.另选地或除上述任何示例之外,在另一个示例中,该方法还可以包括:向操作者呈现一个或多个所确定的异常音频事件;从操作者接收分类,该分类为针对特定环境,所确定的异常音频事件确实为异常音频事件或者应被认为是正常音频事件;以及基于从操作者接收的分类来更新音频分类模型。
11.另选地或除上述任何示例之外,在另一个示例中,确定特定环境中的异常音频事件的位置可以至少部分地基于存储在电子数据库中的特定环境中的麦克风的物理位置。
12.另选地或除上述任何示例之外,在另一个示例中,麦克风可以是具有定向取向的定向麦克风,并且其中确定特定环境中的异常音频事件的位置可以至少部分地基于特定环境中的麦克风的物理位置和麦克风的定向取向。
13.另选地或除上述任何示例之外,在另一个示例中,摄像机可以包括容纳麦克风的外壳,并且提供传入音频流和视频流。
14.另选地或除上述任何示例之外,在另一个示例中,摄像机可以与麦克风分开容纳,并且麦克风可以与摄像机分开处理。
15.另选地或除上述任何示例之外,在另一个示例中,该方法还可以包括当确定传入音频流包括针对特定环境的异常音频事件时,向操作者发送警示。
16.在另一个示例中,用于识别特定环境中的异常声音的方法可以包括进入训练模式。在训练模式时,该方法可以包括:从特定环境中的多个麦克风捕获实时音频;将实时音频分为多个音频文件;将多个音频文件中的至少一些音频文件保存为包含针对特定环境的正常音频签名的正常音频文件;将异常音频签名叠加到多个正常音频文件中的至少一些正常音频文件上,并且将所得文件保存为包含异常音频签名的异常音频文件;并且使用正常音频文件和异常音频文件来训练音频分类模型。该方法还可以包括进入操作模式。在操作模式时,该方法可以包括:从多个麦克风中的每个麦克风捕获实时音频;将实时音频分为多个可操作音频文件;经由处理器使用音频分类模型来处理可操作音频文件,以识别特定环境中的一个或多个异常音频签名;确定特定环境中的异常音频签名中的一个异常音频签名的位置;以及检索来自具有包括该位置的视场的摄像机的视频流并且将其显示在显示器上。
17.另选地或除上述任何示例之外,在另一个示例中,该方法还可以包括接收用户输入,该用户输入确认或拒绝异常音频签名的识别。
18.另选地或除上述任何示例之外,在另一个示例中,可以基于用户输入来更新音频分类模型。
19.另选地或除上述任何示例之外,在另一个示例中,音频分类模型可以是自学习模型。
20.另选地或除上述任何示例之外,在另一个示例中,自学习模型可以使用增强学习和/或迁移学习。
21.在另一个示例中,用于识别特定环境中的异常声音的系统可以包括用于存储音频分类模型的存储器、显示器和可操作地耦接到存储器和显示器的控制器。控制器可以被配置为:当不存在异常音频事件时,从位于特定环境中的麦克风接收正常音频流;将正常音频流的至少一部分用作基线,用于训练音频分类模型,以识别来自麦克风的传入音频流是否包括针对特定环境的异常音频事件;使用经训练的音频分类模型以确定来自麦克风的传入音频流是否包括针对特定环境的异常音频事件;当确定传入音频流包括针对特定环境的异常音频事件时,确定特定环境中的异常音频事件的位置;识别具有包括特定环境中的异常音频事件的位置的视场的摄像机;并且检索来自所识别的摄像机的视频流并且将其显示在显示器上。
22.另选地或除上述任何示例之外,在另一个示例中,音频分类模型可以是自学习模型。
23.另选地或除上述任何示例之外,在另一个示例中,控制器可以被进一步配置为:经由显示器向操作者呈现一个或多个所确定的异常音频事件;从操作者接收分类,该分类为针对特定环境,所确定的异常音频事件确实为异常音频事件或者应被认为是正常音频事件;并且基于从操作者接收的分类来更新音频分类模型。
24.在另一个示例中,用于捕获特定环境的音频和视频的音频摄像机可以包括外壳;由外壳容纳的相机,以用于提供视频流;一个或多个定向麦克风,每个定向麦克风均被配置为从主音频方向接收声音,其中一个或多个定向麦克风由外壳承载,使得一个或多个定向麦克风中的每个定向麦克风的主音频方向在不同方向上从外壳进行取向,使得可以确定从特定环境传出的声音事件的近似方向;以及由外壳容纳的控制器、可操作地耦接到相机和一个或多个定向麦克风中的每个定向麦克风的控制器、被配置为向远程设备提供音频和视频输出的控制器。
25.另选地或除上述任何示例之外,在另一个示例中,相机可以是具有视场的摇摄倾斜缩放(ptz)摄像机。控制器可以被配置为:使用一个或多个定向麦克风来确定从特定环境传出的声音事件的近似方向,并且控制ptz摄像机的视场以面向声音事件的所确定的近似方向,以便捕获声音事件的来源的视频流。
26.另选地或除上述任何示例之外,在另一个示例中,可以将一个或多个定向麦克风的主要方向取向为具有均匀的角间距。
27.提供前面的发明内容是为了便于理解本公开的一些特征,而并非意图作为完整的描述。通过将整个说明书、权利要求书、附图和说明书摘要作为一个整体,能够获得对本公开的全面理解。
附图说明
28.结合附图考虑以下对各种实施方案的详细描述,可以更全面地理解本公开,其中:
29.图1是例示性建筑物或包括视频监控系统等的其他结构的示意图;
30.图2是用于图1的视频监控系统的例示性声音分析系统的框图;
31.图3是用于在图1的视频监控系统中执行视频和音频分析的例示性方法的流程图;
32.图4是用于生成音频模型的例示性方法的流程图,该音频模型用于对音频流中的音频噪声进行分类;
33.图5是用于使用音频模型来识别异常音频事件的例示性方法的流程图,该音频模型使用图4的方法而生成;
34.图6是具有音频传感器的例示性摄像机;
35.图7是用于在图1的视频监控系统中执行视频和音频分析的另一种例示性方法;和
36.图8是用于在图1的视频监控系统中执行视频和音频分析的另一种例示性方法。
37.虽然本公开服从于各种修改和另选形式,但是其细节已经在附图中以示例的方式示出并将被详细描述。然而,应当理解,其意图不是将本公开的方面限制于所描述的特定实施方案。相反,其意图是覆盖落入本公开的实质和范围内的所有修改、等同物和替代方案。
具体实施方式
38.应参考附图阅读以下具体实施方式,其中不同附图中的相似元件以相同的方式编号。具体实施方式和附图描绘了例示性实施方案,并且不旨在限制本公开的范围,附图不一定按比例绘制。所示的示例性实施方案仅旨在为示例性的。除非有明确相反的说明,否则任何例示性实施方案的一些或全部特征均可并入其他例示性实施方案中。
39.本文所述的各种系统和/或方法可以用以下各项来实现或执行:通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列信号(fpga)或其他可编程逻辑设备、分立栅极或晶体管逻辑、分立硬件部件或设计用于执行本文所述的功能的以上各项的任何组合。通用处理器可以是微处理器,但是在替代方式中,该处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器可还被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、结合dsp核心的一个或多个微处理器或者任何其他此类配置。
40.在一些情况下,方法或系统可利用专用处理器或控制器。在其他情况下,方法或系统可利用公共或共享控制器。无论是相对于专用控制器/处理器还是公共控制器/处理器描述系统或方法,每种方法或系统都可利用专用控制器/处理器或公共控制器/处理器中的任一者或两者。例如,单个控制器/处理器可用于单个方法或系统或方法或系统的任何组合。在一些情况下,系统或方法可在分布式系统中实现,其中系统或方法的部分分布在该分布式系统的各种部件之间。例如,方法的一些部分可在本地执行,而其他部分可由远程设备诸如远程服务器执行。这些只是示例。
41.公共区域(诸如但不限于商业建筑物、制造场所、机场、交通枢纽、学校、商场、购物中心、剧场、体育场等)可以使用监控摄像机以提供对该区域的安全性。在一些情况下,可能期望包括音频分析以补充用于设施安全或监控的视频监控。例如,音频分析可以用于识别异常或令人担忧的噪声,诸如但不限于火灾警报、抢劫声、尖叫、喊叫、枪声或来自异常装备的噪声或噼啪作响的噪声。当前,为了检测异常音频事件,开发和训练单独的音频分析模块以检测对应的音频事件。例如,可以开发和训练一个音频分析模块以检测枪声,同时可以开发和训练另一个音频分析模块以检测尖叫。这些经训练的一个音频分析可以购自各种供应商购以供使用。
42.这些音频分析模块中的每个音频分析模块通常独立于其他音频分析模块而应用于传入音频流,以检测对应的音频事件。在使用中,可能存在数十、数百或甚至数千个音频分析模块正在运行以检测所监控的环境中的期望范围的引起关注的音频事件类型。另外,
每个环境可能需要不同组的音频分析模块。例如,学校中的儿童尖叫可能不会引起高度关注,但在机场中的儿童尖叫可能是严重的异常。另外,特定的所监控的环境中的背景噪声可能干扰这些现有的音频分析模块的可靠性,因为通常在没有类似背景噪声的情况下开发和训练音频分析模块。
43.此外,异常的声音定位可以限于检测该异常的相机。大体上而言,当今附接到相机的麦克风是全向的。当如此设置时,相机可以指向一个方向,而音频在相机中看不到的取向上被捕获,这抑制了准确的声音定位。本公开克服了当前视频监控系统的这些和其他缺陷。
44.转向图1,该图是例示性建筑物或结构10的示意图,该例示性建筑物或结构包括用于控制服务于建筑物或结构10的一个或多个客户端设备的建筑物管理系统(bms)12。例示性bms 12包括安全系统、hvac系统、照明控制系统和消防控制系统。安全系统包括视频监控系统包括设置在整个环境中的多个摄像机和音频传感器(例如,麦克风)。如本文根据各种例示性实施方案所述,bms 12可用于控制一个或多个客户端设备,以便控制和/或监控某些环境条件(例如,温度、通风、湿度、照明、安全性等)。此类bms 12可在例如办公建筑、工厂、制造场所、配送场所、零售建筑、医院、健身俱乐部、机场、交通枢纽、学校、购物中心、电影院、餐厅、甚至住宅等地方实现。虽然相对于建筑物描述了bms 12,但应当理解,bms 12或其部分也可以用于户外环境中。
45.图1所示的bms 12包括一个或多个暖通空调(hvac)系统20,一个或多个安全系统30,一个或多个照明系统40,一个或多个消防系统50以及一个或多个门禁控制系统60。这些只是可由bms 12包括或控制的系统的几个示例。在一些情况下,bms 12可包括更多或更少的系统,这取决于建筑物的需求。例如,一些建筑物还可包括制冷系统或冷却器。在另一个示例中,bms 12可以仅包括视频监控系统。
46.在一些情况下,每个系统可包括客户端设备,该客户端设备被配置为提供用于监控和/或控制bms 12的一个或多个建筑物控制部件和/或设备的一个或多个控制信号。例如,在一些情况下,hvac系统20可包括hvac控制设备22,该hvac控制设备用于与一个或多个hvac设备24a、24b和24c(统称为24)通信并对其进行控制,以便服务于建筑物或结构10的hvac需求。虽然hvac系统20被示出为包括三个设备,但应当理解,根据需要,该结构可包括少于三个或多于三个设备24。一些例示性设备可包括但不限于加热炉、热泵、电热泵、地热泵、电加热单元、空调单元、屋顶单元、加湿器、除湿器、空气交换器、空气净化器、风门、阀、鼓风机、风扇、电机、空气净化器、紫外(uv)灯等。hvac系统20还可包括管道系统和通风口(未明确示出)的系统。hvac系统20还可包括被配置为测量要控制的环境的参数的一个或多个传感器或设备26。hvac系统20可根据需要包括多于一个的每种类型的传感器或设备以控制系统。可以设想到,大型建筑物(诸如但不限于办公建筑)可在每个房间中或在某些类型的房间内包括多个不同的传感器。一个或多个传感器或设备26可包括但不限于温度传感器、湿度传感器、二氧化碳传感器、压力传感器、占用传感器、接近传感器等。传感器/设备26中的每个传感器/设备可经由相应的通信端口(未明确示出)可操作地连接到控制设备22。可以设想到,通信端口可以是有线的和/或无线的。当通信端口是无线的时,通信端口可包括无线收发器,并且控制设备22可包括兼容的无线收发器。可以设想到,无线收发器可使用标准和/或专有通信协议进行通信。根据需要,合适的标准无线协议可包括例如蜂窝通信、zigbee、蓝牙、wifi、irda、专用短程通信(dsrc)、enocean或任何其他合适的无线协议。
47.在一些情况下,安全系统30可包括用于与一个或多个安全单元34通信并对其进行控制以监控建筑物或结构10的安全控制设备32。安全系统30还可包括多个传感器/设备36a、36b、36c、36d(统称为36)。传感器/设备36可被配置为检测建筑物10内和/或周围的威胁。在一些情况下,传感器/设备36中的一些传感器/设备可被构造成检测不同的威胁。例如,传感器/设备36中的一些传感器/设备可以是位于建筑物10的门和窗上的限位开关,其由闯入者通过门和窗进入建筑物10而被激活。举例来说,其他合适的安全传感器/设备36可以包括火灾、烟雾、水、一氧化碳和/或天然气检测器。其他合适的安全系统传感器/设备36可包括检测建筑物10中的闯入者的运动的运动传感器,检测打破玻璃的声音或环境中的其他声音的噪声传感器或麦克风、安全卡通行系统或电子锁等。可以设想到,运动传感器可以是被动红外(pir)运动传感器、微波运动传感器、毫米波室内雷达传感器、超声运动传感器、断层摄影运动传感器、具有运动检测软件的摄像机、振动运动传感器等。在一些情况下,传感器/设备36中的一个或多个传感器/设备可包括摄像机,该摄像机含有或不含结合到其外壳的声音传感器或麦克风。在一些情况下,传感器/设备36可包括喇叭或警报、风门执行器控制器(例如,其在火灾事件期间闭合风门)、用于自动打开/关闭灯以模拟占用的灯控制器,和/或任何其他合适的设备/传感器。这些只是示例。
48.在一些情况下,照明系统40可包括用于与具有照明单元l1-l10的一个或多个灯组44通信并对其进行控制以服务于建筑物或结构10的照明控制设备42。在一些实施方案中,照明单元l1-l10中的一个或多个照明单元可被配置为提供视觉照明(例如,在可见光谱中),并且照明单元l1-l10中的一个或多个照明单元可被配置为提供紫外(uv)光以提供照射,有时用于杀死建筑物表面的病原体。照明单元l1-l10中的一个或多个照明单元可以包括多传感器束,该多传感器束可以包括但不限于湿度传感器、温度传感器、麦克风、运动传感器等。照明系统40可以包括应急灯、插座、照明、外部灯、挂帘和通用负载开关,其中一些可以经受“调光”控制,该“调光”控制改变递送到各种建筑物控制设备的功率量。
49.在一些情况下,消防系统50可包括用于与具有消防单元f1-f6的一个或多个防火堤54通信并对其进行控制以监控和服务于建筑物或结构10的消防控制设备52。消防系统50可包括烟雾/热传感器、喷水系统、警示灯等。
50.在一些情况下,门禁控制系统60可包括用于与一个或多个门禁控制单元64通信并对其进行控制以允许进入、离开和/或围绕建筑物或结构10的门禁控制设备62。门禁控制系统60可包括门、门锁、窗、窗锁、十字转门、停车闸口、电梯或其他物理障碍物,其中准许进入可以以电子方式控制。在一些实施方案中,门禁控制系统60可包括一个或多个传感器66(例如,rfid等),该一个或多个传感器被配置为允许进入建筑物或建筑物10的某些部分。
51.在简化示例中,bms 12可用于控制单个hvac系统20、单个安全系统30、单个照明系统40、单个消防系统50和/或单个门禁控制系统60。在其他实施方案中,bms 12可用于与多个系统20、30、40、50、60的多个离散建筑物控制设备22、32、42、52和62通信并对其进行监控/控制。系统20、30、40、50、60的设备、单元和控制器可在建筑物10的专用空间(例如,办公室、工作室等)中或在其外部位于不同的区域和房间中,诸如公共空间区域(大厅、休息室等)。在一些情况下,系统20、30、40、50、60可由线电压供电,并且可由相同或不同的电路供电。可以设想到,bms 12可用于控制其他合适的建筑物控制部件,这些建筑物控制部件可用于服务于建筑物或结构10。
52.根据各种实施方案,bms 12可包括主机设备70,该主机设备可被配置为与bms 12的分立系统20、30、40、50、60通信。在一些情况下,主机设备70可被配置有应用程序,该应用程序将离散系统的设备分配给特定设备(实体)类别(例如,公共空间设备、专用空间设备、户外照明、一体控制器等)。在一些情况下,可存在多个主机。例如,在一些示例中,主机设备70可以是控制设备22、32、42、52、62中的一者或多者。在一些情况下,主机设备70可以是在外部或远程服务器(也称为“云”)处位于建筑物10外部的集线器。
53.在一些情况下,建筑物控制设备22、32、42、52、62可被配置为将命令信号传输到其相应的建筑物控制部件,以便以期望的方式激活或去激活建筑物控制部件。在一些情况下,建筑物控制设备22、32、42、52、62可被配置为接收建筑物控制部件的类别,并且考虑到建筑物控制部件的分类,可将相应的命令信号传输到其相应的建筑物控制部件。
54.在一些情况下,建筑物控制设备22、32、62可被配置为从位于整个建筑物或结构10上的一个或多个传感器26、36、66接收信号。在一些情况下,建筑物控制设备42和52可被配置为从分别与位于整个建筑物或结构10上的照明单元l1-l10和消防单元f1-f6可操作地和/或通信地耦接的一个或多个传感器接收信号。在一些情况下,一个或多个传感器可与其相应的建筑物控制设备22、32、42、52、62中的一者或多者集成并且形成其一部分。在其他情况下,一个或多个传感器可作为与对应的建筑物控制设备分开的部件提供。在其他情况下,一些传感器可以是其对应的建筑物控制设备的单独部件,而其他传感器可以与其对应的建筑物控制设备集成。这些只是一些示例。建筑物控制设备22、32、42、52、62和主机设备70可被配置为使用从一个或多个传感器接收的信号来操作或协调位于整个建筑物或结构10上的各种bms系统20、30、40、50、60的操作。如本文将更详细地描述的,建筑物控制设备22、32、42、52、62和主机设备70可以被配置为使用从一个或多个传感器接收的信号以检测和定位异常噪声。
55.一个或多个传感器26、36、66、l1-l10和f1-f6可以是温度传感器、湿度传感器、占用传感器、压力传感器、流量传感器、光传感器、声音传感器(例如,麦克风)、摄像机、电流传感器、烟雾传感器和/或任何其他合适的传感器中的任一者。在一个示例中,传感器26、36、66或其他传感器中的至少一者可以是占用传感器。建筑物控制设备22、32、42、62和/或主机设备70可从占用传感器接收指示建筑物或结构10的房间或区域内的占用的信号。作为响应,建筑物控制设备22、32、42和/或62可以发送命令以激活位于感测到占用的房间或区域中或者服务于该房间或区域的一个或多个建筑物控制部件。
56.同样,在一些情况下,传感器26中的至少一个传感器可以是被配置为发送指示建筑物或结构10的房间或区域中的当前温度的信号的温度传感器。建筑物控制设备22可从温度传感器26接收指示当前温度的信号。作为响应,建筑物控制设备22可以向hvac设备24发送命令以激活和/或去激活hvac设备24,该hvac设备位于该房间或区域中或者正在服务于该房间或区域以根据期望的温度设定点来调节温度。
57.在又一个示例中,传感器中的一个或多个传感器可以是电流传感器。电流传感器可耦接到一个或多个建筑物控制部件和/或向一个或多个建筑物控制部件提供电力的电路。电流传感器可被配置为向对应的建筑物控制设备发送信号,该信号指示与建筑物控制部件的操作相关联的电流的增大或减小。此信号可用于提供由建筑物控制设备传输的命令已被建筑物控制部件成功接收并采取行动的确认。这些只是bms 12的配置以及可在传感器
和控制设备之间进行的通信的几个示例。
58.在一些情况下,从bms 12接收的数据可被分析并用于动态地(例如,自动地)触发或提供对bms 12中的各种设备24、34、64、l1-l10、f1-f6和/或传感器26、36、66的服务请求、工作顺序、改变操作参数(例如,设定点、时间表等)的建议。在一些情况下,从bms 12接收的数据可被分析并用于动态地(例如,自动地)触发或提供关于建筑物或区域的入住者的健康状态的信息。
59.在又一些情况下,从bms 12接收的数据可被分析并用于动态地(例如,自动地)触发或提供关于建筑物或区域中的噪声水平或生成噪声的事件的信息。可以设想到,可根据需要从控制设备22、32、42、62、设备24、34、64、l1-l10、f1-f6和/或传感器26、36、66接收数据。在一些情况下,从bms 12接收的数据可以与来自安全系统的图像捕获设备的视频数据组合。可以设想到,视频数据可以从某些传感器26、36、66获得,这些传感器是与bms 12的分立系统20、30、60相关联的图像捕获设备,或者可根据需要作为单独的图像捕获设备提供,诸如视频(或静态图像)捕获摄像机80a、80b(统称为80)。“图像”可包括静态单帧图像或以每秒多个帧捕获的图像流(例如,视频)。虽然示例性建筑物10被示出为包括两个摄像机80,但可以设想到,建筑物可根据需要包括少于两个或多于两个摄像机。还可以设想到,相机(离散相机80或与离散系统20、30、60相关联的相机)可被认为是能够独立地处理图像流的“智能”边缘相机(其可被认为是物联网(iot)设备),或用作传感器以收集由独立视频分析引擎分析的视频信息的“非智能”相机。一些例示性相机可以包括可见光安全摄像头,但也可以包括安装在无人机上的相机、热像仪(例如ir)相机和/或任何其他合适的相机。
60.可以设想到,来自bms 12和/或传感器26、36、66、80的数据可以被系统地分析并且与来自bms 12的基线数据进行比较,以通过识别其独特的声学特征来监控来自建筑物或建筑群内不同房间/空间内的个体的活动。例如,可以将实时音频数据与代表针对特定环境的正常声音配置文件以及异常声音配置文件的音频模型进行比较。环境中异常声音的检测可以触发警示,诸如但不限于安全警示、维护警示等。在一些情况下,可以自动识别异常声音的来源的位置,并且可以自动地显示正在捕获所识别位置的摄像机的视频输入。
61.图2是用于识别特定环境中的异常声音的例示性系统100的示意性框图。系统100可形成上述bms系统20、30、40、50、60中的任一者的一部分或与上述bms系统20、30、40、50、60中的任一者组合使用。例如,系统100可以与bms系统20、30、40、50、60中的任一者通信,使得正常和/或异常声音与bms系统20、30、40、50、60的操作循环和/或特定环境内的正常行为相关联或相对应。在其他示例中,系统100可以是独立系统。还可以设想到,系统100可用于传统建筑物之外的区域,诸如但不限于公共交通或其他人们可聚集的区域。在一些情况下,系统100可根据需要控制以下项中的一者或多者:hvac系统、安全系统、照明系统、消防系统、建筑物门禁系统和/或任何其他合适的建筑物控制系统。
62.在一些情况下,系统100包括控制器102和一个或多个边缘设备104。边缘设备104可包括但不限于麦克风(或其他声音传感器)106、静态相机或摄像机108、建筑物门禁系统读取器或设备110、hvac传感器112、运动传感器114和/或本文所述的任何设备或传感器。在一些情况下,麦克风(或其他声音传感器)106可作为独立网络传感器提供。在一些情况下,麦克风106可以是从特定方向听到声音的定向麦克风,或者可以是听到来自所有方向的声音的全向麦克风。在一些情况下,一个或多个麦克风(或其他声音传感器)106可以是一个或
多个静态相机或摄像机108的一部分或结合到一个或多个静态相机或摄像机中。控制器102可被配置为从边缘设备104接收数据,分析该数据,并且基于该数据做出决定,如本文将更详细地描述的。例如,控制器102可包括控制电路和逻辑部件,该控制电路和逻辑部件被配置为对系统100的各种部件(未明确示出)进行操作、控制、命令等和/或发出警示或通知。
63.控制器102可根据需要与任意数量的边缘设备104通信,诸如但不限于一个、两个、三个、四个、十个、一百个或更多个边缘设备。在一些情况下,可存在多于一个控制器102,每个控制器与多个边缘设备通信。可以设想到,边缘设备104的数量可取决于系统100大小和/或功能。边缘设备104可被选择并配置为监控系统100的建筑物和/或区域的不同方面或位置。例如,边缘设备104中的一些边缘设备可位于建筑物的内部。在一些情况下,边缘设备104中的一些边缘设备可位于建筑物的外部。边缘设备104中的一些边缘设备可定位在开放区域中,诸如公园或公共交通站点。这些只是一些示例。
64.控制器102可被配置为通过包括局域网(lan)或广域网(wan)的第一网络116与边缘设备104通信,或者可进行到外部计算机的连接(例如,通过使用互联网服务提供商的互联网)。此类通信可经由控制器102处的第一通信端口122和边缘设备104处的通信接口(未明确示出)发生。控制器102的第一通信端口122和/或边缘设备104的通信接口可以是包括用于通过无线网络116无线地发送和/或接收信号的无线收发器的无线通信端口。然而,这不是必需的。在一些情况下,第一网络116可以是有线网络或有线网络和无线网络的组合。
65.控制器102可包括第二通信端口124,该第二通信端口可以是包括用于通过第二无线网络118发送和/或接收信号的无线收发器的无线通信端口。然而,这不是必需的。在一些情况下,第二网络118可以是有线网络或有线网络和无线网络的组合。在一些实施方案中,第二通信端口124可与用于连接到第二网络118的有线或无线路由器或网关通信,但这不是必需的。当如此设置时,路由器或网关可与控制器102成一整体(例如,在该控制器内),或者可作为单独的设备提供。第二网络118可以是广域网或全球网(wan),包括例如互联网。控制器102可通过第二网络118与由一个或多个外部web服务器120(例如,云)托管的外部web服务通信。
66.控制器102可包括处理器126(例如,微处理器、微控制器等)和存储器130。在一些情况下,控制器102可包括用户接口132,该用户接口包括显示器和用于接收用户输入的装置(例如,触摸屏、按钮、键盘等)。在一些情况下,用户界面132可以与控制器102成一整体。另选地或除此之外,控制器102可以可操作地耦接到远程定位的用户界面136,该用户界面包括显示器和用于接收用户输入的装置。例如,远程定位的用户界面136可以是安全监控站、便携式设备(诸如但不限于智能电话、平板电脑、膝上型计算机等)或其他此类设备中的显示器。可以设想到,远程用户界面136可以根据需要经由第一网络116和/或第二网络118与控制器102通信。
67.存储器130可与处理器126通信。存储器130可用于存储任何期望的信息,诸如但不限于控制算法、配置协议、设定点、调度时间、诊断极限(诸如例如压差极限、δt极限)、安全系统布防模式、音频分类模型等。在一些实施方案中,存储器130可包括被配置为针对特定条件或情况分析从边缘设备104获得的数据的特定控制程序或模块。例如,存储器130可以包括但不限于声音分类模块134和模型生成模块138,其包含可由处理器126执行的指令和/或数据。声音分类模块134可以被配置为检测对于特定环境异常的声音和/或活动,如本文
将更详细地描述的。模型生成模块138可以被配置为针对特定区域生成期望的声音配置文件的模型并且针对特定区域生成非期望的声音配置文件的模型,如本文将更详细地描述的。存储器130可以包括声音分类模块134和模型生成模块138中的一者或多者。在一些情况下,存储器130可以包括附加的声音分类模块或模型生成模块。存储器130可以是任何合适类型的存储设备,包括但不限于ram、rom、eprom、闪存存储器、硬盘驱动器等。在一些情况下,处理器126可将信息存储在存储器130内,并且随后可从存储器130检索所存储的信息。
68.在一些实施方案中,控制器102可包括具有多个接线端子的输入/输出块(i/o块)128,以用于从边缘设备104和/或系统部件接收一个或多个信号和/或用于向边缘设备104和/或系统部件提供一个或多个控制信号。例如,i/o块128可与系统100的一个或多个部件(包括但不限于边缘设备104)通信。控制器102可具有任意数量的接线端子,以用于接受来自模块化控制系统100的一个或多个部件的连接。然而,利用多少接线端子以及接线哪些端子取决于系统100的特定配置。具有不同部件和/或部件类型的不同系统100可具有不同接线配置。在一些情况下,i/o块128可被配置为从边缘设备104和/或一个或多个部件或传感器(未明确示出)接收无线信号。另选地或除此之外,i/o块128可与另一个控制器通信。还可以设想到,i/o块128可与另一个控制器通信,该另一个控制器控制单独的建筑物控制系统,诸如但不限于安全系统基础模块、havc控制器等。
69.在一些情况下,电力转换块(未明确示出)可连接到i/o块128的一条或多条导线,并且可被配置为从i/o块128的一条或多条导线泄放或窃取能量。i/o块的一条或多条导线泄放的电力可存储在能量存储设备(未明确示出)中,该能量存储设备可用于至少部分地为控制器102供电。在一些情况下,能量存储设备可以是电容器或可再充电电池。除此之外,控制器102可包括备用能量源,例如电池,当由能量存储设备存储的可用电力的量低于最优值或不足以为某些应用供电时,该备用能量源可用于补充供应到控制器102的电力。由基础模块执行的某些应用或功能相比其他应用或功能可能需要更多的能量。如果存储在能量存储设备中的能量不足,则在一些情况下,处理器126可禁止某些应用和/或功能。
70.控制器102还可包括一个或多个传感器,诸如但不限于温度传感器、湿度传感器、占用传感器、接近传感器等。在一些情况下,控制器102可包括内部温度传感器,但这不是必需的。
71.当如此设置时,用户接口132可以是允许控制器102显示和/或请求信息以及接受与控制器102的一个或多个用户交互的任何合适的用户接口132。例如,用户接口132可允许用户本地键入数据(诸如控制设定点、开始时间、结束时间、调度时间、诊断极限、对警示的响应),将传感器关联到警报模式等。在一个示例中,用户接口132可以是在控制器102处可访问的物理用户接口,并且可包括显示器和/或不同的小键盘。显示器可以是任何合适的显示器。在一些情况下,显示器可包括或可以是液晶显示器(lcd),并且在一些情况下可包括或可以是电子墨水显示器、固定分段显示器或点阵lcd显示器。在其他情况下,用户接口可以是用作显示器和小键盘两者的触摸屏lcd面板。该触摸屏lcd面板可适于请求多个操作参数的值和/或接收此类值,但这不是必需的。在其他情况下,用户接口132可以是动态图形用户接口。
72.在一些情况下,用户接口132不需要由用户在控制器102处物理访问。相反,用户接口可以是可使用移动无线设备(诸如智能电话、平板电脑、电子阅读器、膝上型计算机、个人
计算机、密钥卡等)经由第一网络116和/或第二网络118访问的虚拟用户接口132。在一些情况下,虚拟用户接口132可由一个或多个app提供,该一个或多个app由用户的远程设备执行以用于与控制器102远程交互的目的。通过由用户的远程设备上的app提供的虚拟用户接口132,用户可改变控制设定点、开始时间、结束时间、调度时间、诊断极限、对警示的响应,更新其用户配置文件,查看能量使用数据,布防或解除安全系统,配置警报系统等。
73.在一些情况下,通过由用户的远程设备上的app提供的用户接口132对控制器102进行的改变可首先被传输到外部web服务器120。外部web服务器120可接收并接受通过由用户的远程设备上的app提供的虚拟用户接口132键入的用户输入,并且将用户输入与外部web服务上的用户账户相关联。如果用户输入包括对现有控制算法的任何改变,包括任何温度设定点改变、湿度设定点改变、调度改变、开始和结束时间改变、窗口防霜设定改变、操作模式改变和/或对用户的配置文件的改变,则在适用的情况下,外部web服务器120可更新控制算法,并且将所更新的控制算法的至少一部分通过第二网络118传输到控制器102,在该控制器处,所更新的控制算法的至少一部分经由第二通信端口124被接收并且可存储在存储器130中以供处理器126执行。在一些情况下,用户可观察其输入在控制器102处的效果。
74.虚拟用户接口132可包括由外部web服务器(例如,web服务器120)通过第二网络118(例如,wan或互联网)传输的一个或多个网页,而不是专用app。形成虚拟用户接口132的一个或多个网页可由外部web服务托管并且与具有一个或多个用户配置文件的用户账户相关联。外部web服务器120可接收并接受经由虚拟用户接口132键入的用户输入,并且将用户输入与外部web服务上的用户账户相关联。如果用户输入包括对现有控制算法的改变,包括任何控制设定点改变、调度改变、开始和结束时间改变、窗口防霜设定改变、操作模式改变和/或对用户的配置文件的改变,则在适用的情况下,外部web服务器120可更新控制算法,并且将所更新的控制算法的至少一部分通过第二网络118传输到控制器102,在该控制器处,所更新的控制算法的至少一部分经由第二通信端口124被接收并且可存储在存储器130中以供处理器126执行。在一些情况下,用户可观察其输入在控制器102处的效果。
75.在一些情况下,用户可使用在控制器102处提供的用户接口132和/或如本文所描述的虚拟用户接口。这两种类型的用户接口彼此不互相排斥。在一些情况下,虚拟用户接口132可向用户提供更高级的能力。还可以设想,相同的虚拟用户接口132可用于多个bms部件。
76.如上所述,控制器102可以另选地或除此之外经由第一网络116和/或第二网络118与远程用户界面136或显示设备通信。远程用户界面136可以位于例如控制室、主办公室、监控站等中。另选地或除此之外,远程用户界面可以是由用户携带的便携式设备(例如,智能电话、平板电脑、膝上型电脑、手表等)。远程用户界面136可以是如上所述的物理设备或虚拟用户接口(例如,可经由互联网访问)。在一些情况下,远程用户界面可以包括显示器和/或不同的小键盘。显示器可以是任何合适的显示器。可以设想到,除了与控制器102通信之外,远程用户界面136还可以与包括边缘设备104的其他建筑物控制设备或系统通信。
77.系统100还可以包括视频管理系统(vms)和/或网络视频记录仪(nvr)140。vms/nvr 140可以经由第一网络116和/或第二网络118与控制器102和/或边缘设备104通信。vms/nvr 140可以被配置为记录来自静态相机或摄像机108的图像和/或视频。在一些情况下,vms/nvr 140可以从控制器102接收信息并且响应于所接收的信息而控制一个或多个相机108的
视场,尽管这不是必需的。
78.可以设想到,识别和/或定位特定环境中的异常噪声可以向监督用户和/或bms的部分提供信息,该监督可以用于更适当地响应于特定环境中的不规则性。可以设想到,系统100可以检测特定环境中的异常声音并且通过识别该异常的位置和/或取向来定位异常。在一些情况下,系统100可以进一步识别异常声音。图3示出了用于执行自适应视频和音频分析的例示性方法和系统的概述的示意性流程图200。一般来讲,该系统可以检测异常音频签名,定位异常,并且将该信息发送到vms/nvr 140和/或其他边缘设备104以改变和/或选择一个或多个相机108到定位区域的视场。另外,异常音频的检测可以是将消息发送到所要求的人员以用于适当操作的触发事件。
79.最初,系统100接收相机自适应音频签名和模型202。音频签名和模型202可以存储在控制器102的存储器130内、存储在声音分类模块134(或一般地,音频分析模块)内。现在将参考图4,其示出了用于生成相机自适应签名和模型202的例示性方法300的示意性流程图。这些可以在现场生成,使得可以考虑特定环境的背景声学。如上所述,相机108和声音传感器106被部署在诸如道路、设施、商业机构等不同环境中。这些环境中的每个环境均具有与它们相关联的不同常规或正常噪声。例如,道路上的相机采集交通噪声,并且设施和商业机构中的相机会接收到机器噪声、人们的谈话等。在一些情况下,使用深度神经人工智能(ai)训练对系统100进行训练,以识别针对特定环境的异常声音或噪声。可以设想到,对用于生成模型的音频流进行的采集和分析可以由相同的控制器(例如,控制器102)执行,该控制器用于操作分析或根据需要可以是单独的控制器或计算机。训练周期可以在一段时间内连续地或以预定间隔进行,诸如但不限于几小时、几天、几周等。当如此设置时,这可以允许系统100在各种条件下训练异常声音检测。例如,在白天,人们在办公建筑中谈话可以被认为是正常音频,而在午夜,人们在办公建筑中谈话可以被认为是异常的。这只是一个示例。
80.首先,在一个示例中,控制器102被放置到训练模式中,并且当不存在异常音频事件时,在特定环境302的正常使用期间从位于特定环境中的一个或多个麦克风106接收音频。应当理解,特定环境可以包括一个或多个麦克风106。可以从存在于特定区域中的每个麦克风106接收和处理音频。还可以设想到,建筑物或空间可以包括多于一个的被单独训练和分析的环境,因为此类空间的用途可能不同,并且此类空间的声学可能不同。为了增加模型的准确性,可以在将特定环境用于其预期目的同时,完成该训练的至少一些训练。例如,在机场中,可以在机场开放并服务乘客时完成该训练中的至少一些训练。一个或多个麦克风可以是独立网络声音传感器,每个网络声音传感器均具有唯一的ip地址,一个或多个麦克风可以结合到安全摄像头或它们的组合中。网络声音传感器的ip地址和/或相机id可以用于识别从哪个麦克风获取音频(在训练期间和正常操作期间),并且用于识别特定环境内的声音传感器的物理位置。每个麦克风106和/或相机108的物理位置和/或定向取向可以存储在控制器102的存储器130内的电子数据库中、外部服务器120上的电子数据库中和/或vms/nvr 140内的电子数据库中。通过向电子数据库供给特定麦克风106和/或相机108的识别,电子数据库可以返回特定麦克风106和/或相机108的对应物理位置和/或定向取向。
81.可以设想到,音频流302可以包含来自单个麦克风106的音频,或者可以包含同时收集的来自多个麦克风106的多个音频流。当从多于一个声音传感器同时接收音频输入时,可以将音频流单独分析为不同物理位置中的麦克风可以在环境的正常使用期间记录不同
音频配置文件。当随后用控制器102或处理器126处理传入音频流以确定从特定环境中的一个或多个麦克风接收的传入音频流是否包括针对特定环境的异常音频事件时,可以将正常音频流用作基线。
82.在一些情况下,当控制器102接收音频流时,控制器102可以将正常音频流分为或分割为n个第二音频文件304以形成多个正常音频剪辑片段或文件。例如,可以根据需要将输入音频流分为一秒、两秒、三秒、四秒片段或更长的音频剪辑片段。可以将这些n个第二音频文件中的每个第二音频文件保存为正常声音模式306。可以设想到,如果在训练周期或训练模式期间出现异常声音,则监督用户可以从所保存的n个第二音频文件中移除对应的音频文件。然后可以使用相同的n个第二音频剪辑片段以制备多个异常音频剪辑片段。例如,先前已经捕获的已知异常声音或噪声可以在n个第二正常音频剪辑片段上叠加308,以创建具有正常音频剪辑片段作为背景噪声的异常音频剪辑片段。已知异常声音或噪声可能包括但不限于尖叫、响亮的声音、枪声、玻璃碎裂声、机器噪声等。然后将制备或改变的音频剪辑片段保存为异常音频剪辑片段310。
83.可以使用多个正常音频剪辑片段中的一个或多个正常音频剪辑片段和多个异常音频剪辑片段中的一个或多个异常音频剪辑片段来训练音频分类模型,以识别特定环境中的异常音频事件。例如,音频特征(诸如但不限于梅尔频率倒谱系数(mfcc)、摄谱仪、零交叉、信号能量、能量熵、频谱质心、扩频、谱熵、频谱滚降等)可以从正常音频和异常音频中提取312。然后可以使用这些音频特征以创建用于将未来音频文件分类为正常或异常模式314的一个或多个音频分类模型。音频分类模型可用于确定在操作模式期间来自特定环境的传入音频流是否包括针对特定环境的异常音频事件。例如,然后可以将在系统100的操作模式期间接收的实时音频与所存储的音频分类模型进行比较,以确定实时音频是否被分类为正常或异常。音频分类模型可以包括识别特征,诸如但不限于从中获得正常音频流的麦克风的身份标识、所述麦克风的物理位置、一天的某个时间、一周的某一天等。这可以允许系统100将传入音频流与在类似操作条件下获得的训练音频进行比较。
84.回到图3,一旦将音频分类模型202训练并存储在控制器102的存储器130内,就可以启动操作模式。在操作模式中,从一个或多个相机108和/或一个或多个麦克风106接收实时音频和视频数据206。输入数据206可以分为音频数据流208和视频数据流210。在一些情况下,摄像机108可以容纳麦克风106并且提供传入音频流208和传入视频流210两者。在其他情况下,摄像机108可以与麦克风106分开容纳,其中麦克风与摄像机分开处理。可以使用音频分析204(例如,声音分类模块134)来分析实时音频数据流208,以确定音频数据流208是否包括异常声音或噪声。
85.现在将参考图5,该图示出了用于执行音频分析204(例如,分析传入或实时音频数据,以用于识别特定环境中的异常声音)的例示性方法250的示意性流程图。如上所述,音频数据流208的分析可以由控制器102或处理器126执行,并且在一些情况下,例如,执行存储在专用模块内的指令,诸如但不限于声音分类模块134。首先,将传入音频流分为n个第二音频文件252以形成多个音频剪辑片段。例如,可以根据需要将音频流208分为一秒、两秒、三秒、四秒片段或更长的音频剪辑片段。在一些情况下,可以将传入音频流分为与在训练阶段期间的音频剪辑片段具有相同长度的片段,尽管这不是必需的。下一个音频特征(诸如但不限于梅尔频率倒谱系数(mfcc)、摄谱仪、零交叉、信号能量、能量熵、频谱质心、扩频、谱熵、
频谱滚降等)可以从传入音频片段中提取254。
86.在训练阶段期间生成的音频分类模型可以从模型生成模块138访问并且应用于多个传入音频剪辑片段的音频特征256。控制器102可以识别传入分离音频流特征与音频分类模型之间的相似度。控制器102还可以使用该比较以确定音频流是否包括正常声音或噪声258。例如,如果传入分离音频流特征类似于正常声音音频模型的音频特征,则控制器102可以确定声音是正常的或期望的并且不采取进一步的操作260。如果传入分离音频流特征类似于异常声音音频模型的音频特征,则控制器102可以确定声音是异常的或非期望的,并且在图5所示的示例中,启动计数器。在计数器达到预定数量的异常声音事件之后,控制器102/处理器126可以确定传入音频流包括针对特定环境的异常音频事件。
87.当检测到异常音频事件时,控制器102/处理器126可以访问电子数据库以确定记录了异常声音事件的麦克风106的位置,这与异常声音事件的位置相关联。在一些情况下,除了麦克风106的物理位置之外,控制器102/处理器126可以访问电子数据库以确定麦克风106的定向取向(当麦克风106是定向麦克风时)。因此,可以至少部分地基于麦克风106的物理位置和麦克风106的定向取向来确定异常声音事件的位置。如本文将更详细地描述的,控制器102/处理器126(和/或vms/nvr 140)还可以使用电子数据库以识别摄像机108,该摄像机具有包括特定环境中的异常音频事件的位置的视场。可以检索来自所识别的摄像机的视频流并且将其显示在显示器上(诸如但不限于远程用户界面136)。在一些情况下,摄像机108是摇摄/倾斜/缩放(ptz)摄像机,控制器102/处理器126可以向特定摄像机发送ptz命令以将特定摄像机的视场引导向检测到的异常音频事件的位置处。
88.还可以设想到,在预定数量的异常声音事件之后,可以生成警示262并将其传输给操作者。可以设想到,警示可以发送到监督者或其他用户的远程或移动设备或vms/nvr 140。该通知可以是自然语言消息,该自然语言消息提供关于异常声音、原始位置和/或推荐操作的细节。在一些情况下,警示可以触发由bms 12采取的附加操作。例如,工作场所干扰或安全威胁可能导致建筑物的一个或多个门的自动锁定。在另一个示例中,装备故障警示可能导致一件装备的关闭。这里只是一些示例。
89.在一些情况下,可以向操作者或用户呈现传入音频剪辑片段,并且该操作者或用户可以将剪辑片段手动标记或分类为正常的或异常的264。这些经标记的剪辑片段可以保存在vms/nvr 140中,以用于通过自学习技术来将模型进一步优化。例如,音频分类模型可以是自学习模型。一些自学习技术可以包括现场学习机制,诸如增强学习或迁移学习。可以基于从操作者接收的分类来更新音频分类模型。在一些情况下,仅可以向操作者呈现异常音频事件(或它们的子集)。在其他情况下,仅可以向操作者呈现正常音频事件(或它们的子集)。在又一些情况下,可以向操作者呈现异常和正常音频事件(或它们的子集)。在一个示例中,可以向操作者呈现已经被确定为或分类为异常音频事件的传入音频剪辑片段。然后,操作者可以输入分类,该分类为针对特定环境,所确定的异常音频事件确实为异常音频事件或者应被认为是正常音频事件。然后可以基于从操作者接收的分类来更新音频分类模型。在一些情况下,音频分类模型可以将音频分类为更多的分类,而非仅仅是正常的和异常的。例如,可以训练音频分类模型以将异常音频事件分类为指示严重程度或威胁级别的类别,诸如低、中和高。这可以帮助操作者对检测到的异常音频事件进行优先级排序。
90.回到图3,除了执行音频分析204之外,控制器102/处理器126可以与音频分析204
并行执行音频定位212。例如,如上所述,控制器102可以使用网络声音传感器的ip地址或相机的id编号(或ip地址)以确定已经接收已被分析的音频的传感器的物理位置。可以设想到,传感器的物理位置及其标识符可以存储在控制器102的存储器130中的电子数据库中。当麦克风106是定向麦克风时,麦克风106的定向取向也可以存储在电子数据库中。还可以设想到,控制器102可以被配置为确定音频起源于离声音传感器多远的距离。这可以通过分析声音的音量并且确定其他附近的声音传感器是否具有类似的音频签名来执行。基于三角形划分,可以确定声音的来源的大约位置。控制器102可以将定位信息214发送到vms/nvr 140或其他边缘设备104,以便进行存储(以用于记录保存)用于改善声音分类模型,并且/或者以便当检测到异常声音事件时有利于进一步的操作。
91.附加地或另选地,当音频传感器106是联网传感器时,可以使用对等通信来执行音频定位212,以用于通过发送信号将音频异常从相应音频传感器或麦克风106通知到最近或经配置的相机108。音频流标识符或联网音频传感器的ip地址可以识别麦克风106,从该麦克风检测到异常音频签名(并且因此检测到大约位置)。边缘设备104或相机108与联网音频传感器/麦克风106之间的对等通信可以传达异常警示。如本文所述,可以考虑用取向和可听视场以定位音频异常。
92.如参照图5所描述的,当检测到异常声音事件时,可以生成警报262。警报可以直接传输到负责人员或可以发送到vms/nvr 140或其他边缘设备104。警报262可以包括异常声音事件和/或优先级的指示。例如,警报262可以包括指示紧急程度(例如,高、中、低)的优先级分类。在一些情况下,vms/nvr 140或其他边缘设备104可以与音频定位数据212组合来使用警示262,以确定哪个相机最接近异常声音事件的来源或者哪个相机具有来源位置的最佳视图。例如,在一些情况下,警示可以直接发送到所识别的相机108。然后,所识别的相机108可以传输其视频输入或调整其视场。在相机是摇摄-倾斜-缩放(ptz)摄像机的事件中,可以调整相机的位置以将相机的视野聚焦在定位位置上216。在一些情况下,将相机聚焦在定位位置上可以包括选择具有最佳视野的相机而无需移动相机的位置。然后可以将来自指向定位位置的相机的实况视频输入与其他相关信息一起传输给负责人员。然后,该人员可以使用视频输入以验证异常声音事件(如果可能)并且采取进一步的操作。在一些情况下,该人员可以生成维护请求。在其他情况下,该人员可以呼叫紧急应答器。在又一些情况下,该人员可以行进到定位位置以研究异常声音事件。这些只是一些示例。应当理解,该人员所采取的操作对于特定环境和异常声音事件的类型可以是唯一的。在一些情况下,可能不存在能够捕获声音位置的相机。在此类情况下,可以通知操作者没有可用的视频输入。
93.在一些情况下,音频定位可以经由音频摄像机来执行,该音频摄像机具有嵌入到相机的周边的音频传感器或微处理器。图6示出了例示性音频摄像机400的分解透视图。一般来讲,可以将多个定向麦克风嵌入相机前部附近的外壳上或该外壳中。可以放置相机以覆盖360度的取向(或其他期望的角跨度,诸如90度、180度等)。
94.图6的音频摄像机400未示出摄像机的所有结构元件和/或功能元件,但是为了清楚起见,仅示出了这些元件中的一些元件。例示性音频摄像机400可以包括用于包封音频摄像机400的部件的外壳402。外壳402可以包括被配置为固定到彼此的多个部件。在一些情况下,音频摄像机400可以是包括透明保护圆顶404的圆顶摄像机。然而,这不是必需的。在一些情况下,音频摄像机400可以是子弹头摄像机。根据需要,音频摄像机400可以具有固定视
场或者可以为摇摄-倾斜-缩放(ptz)摄像机。可以设想到,音频摄像机400可以根据需要供室内和/或户外使用以及供白天和/或夜晚使用。在一些情况下,外壳402可以是不受天气影响的,以供在外部使用,或者可以靠近圆顶404设置一个或多个夜视发光二极管(led),以供夜间使用。
95.在外壳402内,例示性音频摄像机400可以包含或容纳相机或透镜406。透镜406可以被配置为将入射光引导朝向图像传感器(未明确示出)。图像传感器可以将由透镜406捕获的光处理为数字信号。数字信号(例如,视频记录)可以存储在音频摄像机400的存储器(未明确示出)中或被转移到vms或nvr(诸如但不限于vms/nvr 140)。在一些情况下,图像传感器可以作为控制印刷电路板410的一部分提供或以其他方式通信地耦接到该控制印刷电路板,尽管这不是必需的。控制印刷电路板410可以包括处理器或控制器(未明确示出)。虽然一些部件被描述为控制印刷电路板410的一部分,但是这些部件可以与控制印刷电路板410分开设置。在一些情况下,控制器可以被配置为针对数据而轮询各种传感器,分析传感器数据并确定声音或噪声起源的位置。控制器还可以与存储器通信,或者可操作地耦接到该存储器(未明确示出)。存储器可以用于存储任何期望的信息,诸如但不限于用于如何处理来自传感器的数据和/或来自图像传感器的数字信号的机器指令。存储器可以是任何合适类型的存储设备,包括但不限于ram、rom、eprom、闪存存储器、硬盘驱动器等。在一些情况下,控制器和/或图像传感器可以将信息存储在存储器内,并且随后可以从存储器检索所存储的信息。
96.在一些实施方案中,音频摄像机400可以配备有通信模块。通信模块可以允许音频摄像机400与bms 12或系统100的其他部件通信,以用于识别特定环境中的异常声音,诸如但不限于网络视频记录仪(nvr)和/或远程监控站。通信模块可以提供有线和/或无线通信。在一个示例中,通信模块可使用任何期望的无线通信协议,根据需要诸如但不限于蜂窝通信、zigbee、redlink
tm
、蓝牙、wifi、irda、专用短程通信(dsrc)、enocean和/或任何其他合适的公共或专有无线协议。在另一个示例中,通信模块可以通过网络电缆通信。在一些情况下,网络电缆可以是通过以太网(poe)电缆的电力。例示性摄像机400可以根据需要通过poe电缆、单独的电力电缆、电池或任何其他合适的电源来接收电力。
97.例示性音频摄像机400还可以包括后框408。后框可以形成外壳402的一部分,或者可以安装到外壳402以将音频摄像机400安装到墙壁或天花板。在一些情况下,后框408可以耦接到外壳402的外部,而在其他情况下,后框408可以在外壳402内或内部。在一些情况下,后框408可以容纳电缆连接件。例如,后框408可以容纳例如网络电缆与控制印刷电路板410之间的连接件、电力电缆与控制印刷电路板410之间的连接件和/或音频电缆与控制印刷电路板410之间的连接件。可以设想到,根据需要,音频摄像机400可以包括其他电缆和/或连接件。在一些情况下,可以使用后框408内的连接端口的内部电路来测试摄像机400与网络之间的连接件。端口可以包括呈某一颜色而发光以指示连通性的leds。
98.音频摄像机400还可以包括一个或多个定向麦克风412a、412b、412c、412d(统称为412),该一个或多个定向麦克风根据需要嵌入在外壳402的厚度中或设置在外壳402的内部内,与其前端414相邻。定向麦克风412可以从主音频方向或预定角度接收声音。例如,定向麦克风412可以各自在约5
°
、约10
°
、约15
°
等的角度范围接收声音。可以设想到,根据需要,角度可以小于5
°
或大于15
°
。例如,全向麦克风可以是接收超过360
°
的声音的定向麦克风的
类型。根据需要,定向麦克风412可以被取向为具有均匀的角间距或者可以围绕外壳402的周边偏心地间隔开。定向麦克风412可由外壳402承载,使得每个麦克风412在不同方向上从外壳402进行取向,使得可以确定从特定环境传出的声音事件的近似方向。在一些情况下,所使用的定向麦克风412的数量可以由定向麦克风的角度以及期望的覆盖范围确定。例如,为了用具有5
°
的覆盖角的定向麦克风412来实现360
°
覆盖,可以使用七十二个麦克风。
99.可以使用音频流中的标识符或使用ip地址来识别每个定向麦克风412。定向麦克风412可以仅从对应于麦克风412的定向取向的预定方向接收声音。因此,可以基于接收声音的定向麦克风412来确定声音的位置。在一些情况下,声音可以由多个定向麦克风412捕获。在此类情况下,具有最强信号的定向麦克风可用于确定声音来自哪个方向。
100.可以设想到,定向麦克风412可以可操作地耦接416到控制印刷电路板410,使得控制印刷电路板410可以处理音频并且/或者传输音频。例如,控制器和/或控制印刷电路板410可以被配置为使用多个定向麦克风412来确定从特定环境传出的声音事件的近似方向。控制器和/或控制印刷电路板410可以被配置为控制相机400(例如,ptz摄像机)的视场以面向声音事件的所确定的近似方向,以便捕获声音事件的来源的视频流。另选地或除此之外,控制器或控制印刷电路板410可以被配置为向远程设备提供音频和视频输出。
101.图7示出了用于执行自适应视频和音频分析的另一种例示性方法和系统的概述的示意性流程图500。一般来讲,该系统可以检测异常音频签名,定位异常,并且将该信息发送到vms/nvr 140和/或其他边缘设备104以改变和/或选择一个或多个相机108到定位区域的视场。另外,异常音频的检测可以是将消息发送到所要求的人员以用于适当操作的触发事件。首先,当不存在异常事件时,系统100可以从位于特定环境中的一个或多个麦克风106接收正常音频流,如框502所示。在一些情况下,可以在训练周期或模式期间收集正常音频流。然后可以将正常音频流用作基线,以用于随后用处理器126来处理传入音频流,如框504所示。当系统100处于操作模式时,可以处理传入音频流。
102.正常音频流可用于确定来自特定环境中的麦克风106的传入音频流是否包括针对特定环境的异常音频事件,如框506所示。这可以使用本文所述的任何技术来完成。如果正常音频流不包括针对特定环境的异常音频事件,则处理器126可以继续处理传入音频流。如果确定传入音频流包括针对特定环境的异常音频事件,则访问电子数据库以确定特定环境中的异常音频事件的位置,如框508所示。如上所述,麦克风106的物理位置和/或麦克风106的定向取向可以用于存储在电子数据库中,并且可以至少部分地用于确定异常音频事件的位置。
103.一旦确定了异常音频事件的位置,就可以识别具有包括特定环境中的异常音频事件的位置的视场的摄像机108,如框510所示。然后可以检索来自所识别的摄像机的视频流并且将其显示在显示器上,如框512所示。
104.图8示出了用于执行自适应视频和音频分析的另一种例示性方法和系统的概述的示意性流程图600。一般来讲,该系统可以检测异常音频签名,定位异常,并且将该信息发送到vms/nvr 140和/或其他边缘设备104以改变和/或选择一个或多个相机108到定位区域的视场。另外,异常音频的检测可以是将消息发送到所要求的人员以用于适当操作的触发事件。首先,系统100可以进入训练模式,如框602所示。在训练模式时,系统100可以从特定环境中的多个麦克风捕获实时音频,如框604所示。可以将实时音频分为多个音频文件,如框
606所示。可以将多个音频文件中的至少一些音频文件保存为包含针对特定环境的正常音频签名的正常音频文件,如框608所示。可以将异常音频签名叠加到多个正常音频文件中的至少一些正常音频文件上,并且将所得文件保存为包含异常音频签名的异常音频文件,如框610所示。可以使用正常音频文件和异常音频文件来训练音频分类模型,如框612所示。
105.然后,系统100可以进入操作模式,如框614所示。在操作模式时,可以从多个麦克风中的每个麦克风捕获实时音频,如框616所示。可以将实时音频分为多个可操作音频文件,如框618所示。然后可以经由处理器使用音频分类模型来处理可操作音频文件,以识别特定环境中的一个或多个异常音频签名,如框620所示。这可以使用本文所述的任何技术来完成。可以确定特定环境中的异常音频签名中的一个异常音频签名的位置,如框622所示。如上所述,麦克风106的物理位置和/或麦克风106的定向取向可以用于存储在电子数据库中,并且可以至少部分地用于确定异常音频事件的位置。然后可以检索来自具有包括该位置的视场的摄像机的视频流并且将其显示在显示器上,如框624所示。
106.本领域技术人员将认识到,本公开可以以不同于本文描述和设想的特定实施方案的各种形式来表现。因此,在不脱离如所附权利要求中所述的本公开的范围和实质的情况下,可以在形式和细节上作出改变。