声音处理装置、声音处理系统及声音处理方法
【技术领域】
[0001]本发明涉及声音处理装置、声音处理系统及声音处理方法。
【背景技术】
[0002]以往,例如,在特定的室内或远距离地点对工场、店铺、公共的场所的状况进行监视的情况下,利用监视系统。监视系统具备例如拍摄图像的相机、对声音进行收音的麦克风、存储预定数据(例如,拍摄到的图像、收音到的声音)的记录器装置。通过使用监视系统,例如在发生事件或事故的情况下,对记录器装置记录的过去的数据进行重放,记录的图像或声音能够有助于过去的时刻的状况掌握。
[0003]作为以往的监视系统,已知有全方位相机及麦克风阵列用的系统。该系统利用由多个麦克风形成的阵列麦克风,通过滤波仅提取来自特定的方向的声音,而形成波束(例如,参照专利文献I)。
[0004]专利文献I:日本国特开2004-32782号公报
【发明内容】
[0005]使用阵列麦克风收音到的声音数据可能包括各种有益的信息。在专利文献I的监视系统中,声音数据及图像数据的有效利用并不充分,期待提高利用监视系统的利用者的便利性。
[0006]本发明鉴于上述情况而作出,提供能够促进声音数据及图像数据的有效利用并提高便利性的声音处理装置、声音处理系统及声音处理方法。
[0007]本发明的一方式的声音处理装置具备:数据取得部,取得由包括多个麦克风的收音部从预定区域内的声源收音到的声音数据及由拍摄所述预定区域内的至少一部分的图像的拍摄部拍摄到的图像数据;第一指定部,指定与基于上述图像数据而显示的图像上的指定部位对应的以上述收音部为基准的方向;第二指定部,指定与基于上述图像数据而显示的图像上的指定部位对应的上述预定区域内的预定范围;及指向性处理部,在所指定的上述预定范围内,增强所指定的上述方向的上述声音数据中的声音成分。
[0008]而且,本发明的另一方式的声音处理系统具备:收音装置,包括使用多个麦克风从预定区域内的声源对声音数据进行收音的收音部;拍摄装置,包括拍摄上述预定区域内的至少一部分的图像的拍摄部;及声音处理装置,对由上述收音部收音到的声音数据进行处理,上述声音处理装置具备:数据取得部,取得由上述收音部收音到的声音数据及由上述拍摄部拍摄到的图像数据;第一指定部,指定与基于上述图像数据而显示的图像上的指定部位对应的以上述收音部为基准的方向;第二指定部,指定与基于上述图像数据而显示的图像上的指定部位对应的上述预定区域内的预定范围;及指向性处理部,在所指定的上述预定范围内,增强所指定的上述方向的声音数据中的声音成分。
[0009]而且,本发明的又一方式的声音处理方法是声音处理装置的声音处理方法,该声音处理方法包括以下步骤:取得由包括多个麦克风的收音部从预定区域内的声源收音到的声音数据及由拍摄上述预定区域内的至少一部分的图像的拍摄部拍摄到的图像数据;指定与基于上述图像数据而显示的图像上的指定部位对应的以上述收音部为基准的方向;指定与基于上述图像数据而显示的图像上的指定部位对应的上述预定区域内的预定范围;及在所指定的上述预定范围内,增强所指定的上述方向的上述声音数据中的声音成分。
[0010]发明效果
[0011 ]根据本发明,能够促进声音数据及图像数据的有效利用,提高便利性。
【附图说明】
[0012]图1是第一实施方式的监视系统的概要图。
[0013]图2是表示第一实施方式的监视系统的构成例的框图。
[0014]图3是表示第一实施方式的阵列麦克风、相机及各声源的配置状态的一例的俯视图。
[0015]图4是表示第一实施方式的监视控制装置的动作例的流程图。
[0016]图5是第一实施方式的指向性处理的概要图。
[0017]图6是第二实施方式的监视系统的概要图。
[0018]图7是表示第二实施方式的监视系统的构成例的框图。
[0019]图8是表示第二实施方式的监视控制装置的动作例的流程图。
[0020]图9(A)、图9(B)是表示使用了第一实施方式的PC的收音范围的大小的变更例的示意图,图9(C)是表示使用了第一实施方式的平板终端的收音范围的大小的一例的示意图。
[0021]图10(A)、图10(B)是表示第一实施方式的收音范围及收音角度的一例的示意图。
【具体实施方式】
[0022]关于本发明的实施方式,以下使用附图进行说明。
[0023](第一实施方式)
[0024]图1是第一实施方式的监视系统100的概要图。在监视系统100中,阵列麦克风10(Array microphones)、相机20及监视控制装置30经由有线或无线的网络50而连接。
[0025]阵列麦克风10是收音部、收音装置的一例。相机20是拍摄部、拍摄装置的一例。监视控制装置30是声音处理装置的一例。监视系统100是声音处理系统的一例。
[0026]阵列麦克风10包括多个麦克风11(1^、118、11(:、-_),对阵列麦克风10的周围的声音进行收音,即从预定区域内的声源进行收音,得到声音数据。相机20拍摄能够由相机20拍摄的上述预定区域内的至少一部分,得到图像数据。图像数据包括例如活动图像或静止图像。监视控制装置30根据阵列麦克风10的收音结果、相机20的拍摄结果,进行与监视相关的各种处理。
[0027]在监视系统100中,在单元框体91内一体地装入I个相机20和阵列麦克风10所包含的16个麦克风11 (11A、11B、11C、...),从而形成收音单元90。另外,阵列麦克风10中的麦克风的个数可以为15个以下,也可以为17个以上。而且,阵列麦克风10与相机20也可以不形成收音单元90而分体形成。
[0028]相机20例如将拍摄方向的中心(光轴方向)设为铅垂下方向地配置在单元框体91的大致中央部。阵列麦克风10中的多个麦克风11以沿着单元框体91的设置面将相机20的周围包围的方式以一定的间隔配置在I个圆周上。多个麦克风11也可以不配置在圆周上而配置在例如矩形上。另外,这样的相机20及多个麦克风11的配置关系、配置形状是一例,也可以是其他的配置关系、配置形状。
[0029]相机20构成为例如能够同时拍摄大范围(例如全方位)的被摄体。各麦克风11构成为例如能够检测从大范围(例如全方位)到来的声波。
[0030]图2是表示监视系统100的构成例的框图。
[0031 ] 监视系统100具备阵列麦克风10、相机20及监视控制装置30。阵列麦克风10、相机20及监视控制装置30经由网络50连接成相互能够进行数据通信的状态。而且,在监视控制装置30上连接例如监视器61、触摸面板62及扬声器63。
[0032]图2的结构可设想例如在实时地监视图像及声音的情况下监视控制装置30记录图像数据及声音数据的情况。另外,也可以是,相机20记录图像数据,阵列麦克风10记录声音数据,在记录后能够参照图像数据及声音数据。
[0033]另外,以下,主要以阵列麦克风10所包含的多个麦克风11中的3个麦克风11A、11B、IlC为代表进行说明。关于3个麦克风IlA?IlC以外的麦克风,也具有与麦克风IlA?IlC同样的结构及功能。
[0034]阵列麦克风10将多个麦克风11A、11B、11C以相互接近的状态规则地(例如在圆周上)排列、形成。麦克风IIA?IIC是将声音转换成电信号(声音数据)的转换器。在阵列麦克风10中,多个麦克风11A、11B、11C也可以不是规则地配置。在这种情况下,例如,可以将各麦克风IlA?IlC的位置的信息保持于监视系统100,来进行指向性处理。
[0035]在麦克风IlA?IlC的输出上连接有放大器12A?12C、A/D转换器(ADC:Analog toDigital 00鮮61^61')134?13(]及声音编码器144?14(]。而且,在声音编码器144?14(]的输出上连接有网络处理部15。
[0036]麦克风IlA?IlC生成与从各种方向输入的声响的振动对应的声音数据。该声音数据是模拟声音数据。放大器12A?12C对麦克风IIA?IIC输出的声音数据进行放大。A/D转换器(ADC) 13A?13C对放大器12A?12C输出的声音数据周期性地进行采样,将声音数据转换成数字数据。声音编码器14A?14C对A/D转换器13A?13C输出的声音数据(声音数据的波形的时序变化)进行编码,生成适合于传送的预定形式的声音数据。
[0037]另外,本实施方式中的“声音”除了包括由于人类的发声而得到的声音之外,还可以包括例如由于机械性的振动而产生的一般的声响或噪音的成分。而且,“声音”可以包括例如监视对象的声音以外的声音。即,由麦克风IlA?IlC收音到的声响的信号有时不区分声响的种类地记载为“声音”。
[0038]网络处理部15取得声音编码器14A?14C生成的声音数据,并将声音数据向网络50送出。例如,相对于麦克风IlA?IlC收集到的声音,声音编码器14A?14C生成独立的声音数据。由此,网络处理部15将与各麦克风IlA?IlC对应的多个声道的声音数据向网络50送出。
[0039]相机20具备透镜21、传感器22、图像编码器23及网络处理部24。
[0040]透镜21为例如全方位透镜、鱼眼透镜。传感器22是拍摄设备,包括例如CXD(ChargeCoupled Device)影像传感器、CMOS(Complementary Metal Oxide Semiconductor)影像传感器。传感器22根据经由透镜21向传感器22的拍摄面入射的被摄体的光像来生成图像数据。
[0041]图像编码器23对传感器22输出的图像数据依次进行处理,生成适合于预定规格的图像数据。网络处理部24将图像编码器23生成的图像数据向网络50送出。
[0042]监视控制装置30为例如PC(Personal Computer)30a(参照图9(A)、图9(B))、平板终端30β(参照图9(C))。监视控制装置30包括例如CPlKCentral Processing Unit)或DSP(Digital Signal Processor)。监视控制装置30包括例如R0M(Read Only Memory)或RAM(Random Access Memory)。
[0043]监视控制装置30例如通过CPU或DSP执行在ROM或RAM中记录的控制用的程序(例如,应用程序、ActiveX形式的程序),由此实现各种功能。而且,ROM或RAM形成未图示的存储器。
[0044]监视控制装置30具备网络处理部31、图像译码器32、图像输出部33、图像识别部34、收音坐标指定部35、范围指定部44、声音译码器36及指向性处理部37。而且,监视控制装置30具备收音角度运算部38、范围角度运算部45、检测部39、声源推定部40、声音输出部42及数据记录部43。
[0045]网络处理部31经由网络50,与阵列麦克风10及相机20之间进行数据通信。通过数据通信,网络处理部31从阵列麦克风10取得多个声道的声音数据,从相机20取得图像数据。网络处理部31是数据取得部的一例。
[0046]网络处理部31可以从阵列麦克风10及相机20直接取得阵列麦克风10送出的声音数据和相机20送出的图像数据。网络处理部31也可以在任意的时刻从数据记录部43读出并取得数据记录部43所记录的声音数据或图像数据(至少声音数据)。网络处理部31也可以将从阵列麦克风10及相机20直接取得的声音数据或图像数据在任意的时刻记录于数据记录部43。
[0047]图像译码器32对来自网络处理部31的图像数据进行译码,生成能够重放的图像数据。
[0048]图像输出部33将来自图像译码器32的图像数据转换成监视器61能够显示的形式的图像数据,向监视器61送出。而且,图像输出部33也可以控制监视器61的显示。而且,图像输出部33可以将与来自检测部39的检测信息对应的图像数据向监视器61送出。
[0049]监视器61显示各种图像数据。监视器61例如根据来自图像输出部33的图像数据来显示图像。例如,相机20拍摄到的图像显示于监视器61。监视器61是提示部的一例。
[0050]图像识别部34可以对于来自图像输出部33的图像数据执行预定图像处理,并识别与例如未图示的存储器中事先登记的各种图案的图像是否一致。例如,执行图案匹配的处理,从图像所包含的各种物体之中,提取与预定人物或预定人物的脸部类似的图案。也可以提取人物以外的物体的图案。
[0051]而且,图像识别部34例如也可以识别图像数据所包含的物体的种类(例如,人物、男性、女性)。而且,图像识别部34可以具有VMD(Video Mot1n Detector)功能,检测图像数据内的移动的有无。
[0052]收音坐标指定部35例如从触摸面板62或图像识别部34接受输入,并导出与输入位置或输入范围的基准位置(例如中心位置)对应的坐标。例如,在监视器61的画面上显示的图像中,收音坐标指定部35接受操作者60应关注的位置(例如图1的附图标记Pl)的坐标作为收音坐标(x,y)。收音坐标指定部35是第一指定部的一例,指定与基于图像数据而显示的图像上的指定部位(例如收音坐标)对应的以收音部(例如阵列麦克风10)为基准的方向。
[0053]操作者60例如边观察监视器61边操作触摸面板62。由于伴随着触摸面板62上的移动操作(例如拖曳操作)而画面上显示的指示器(未图示)的位置进行移动,因此操作者60能够在画面上的显示范围内变更收音坐标。例如,通过操作