一种自动确定声辐射模式的方法
【专利摘要】一种自动确定声辐射模式的方法,1)视频捕获即采集人脸信号,确定听众的实时分布;2)图像处理模块使用现有的图像人脸、人眼或动作模式的识别技术识别声辐射覆盖范围内的听者,并确定其相对于音频装置的空间位置;3)音频场景处理,音频场景处理模块接收图像处理模块给出的声辐射覆盖范围内的听者分布状态数据;4)音频场景执行模块根据音频场景模式由声辐射目标参数计算确定,声辐射目标参数计算模块根据音频场景模式确定声辐射的模式和目标方向参数;5)出扬声器阵列系统各个通道的参数是信号处理器提供,6)扬声器阵列系统在覆盖区域内各单元辐射形成所需的辐射指向性,达到适应相应场景。
【专利说明】一种自动确定声辐射模式的方法
【技术领域】
[0001]本发明涉及一种音频系统自动按照特定的指向性模式辐射声音的技术与装置,尤其是一种自动控制音频装置声辐射模式的方法。
【背景技术】
[0002]本发明基于如下【背景技术】。现有声场控制技术,如现有的控制音频系统按照特定的指向性模式福射声音:现有音频系统包括在空间中按一定规则排布的多个扬声器组成的扬声器阵列,通过向其中每个扬声器单元馈给一个有变化的音频信号,使扬声器阵列具有可控制的指向特性,在某些方向具有较大的声辐射能量,而某些方向具有较少的声辐射能量。音频信号的变化包括但不限于幅度、相位、延时及滤波等,这些变化或称变换可以由数字信号处理或者模拟电路来实现。参见Gan, W.S.,et al.A digital beamsteererfor difference frequency in a parametric array.1eee Transact1ns on Aud1Speech and Language Processing, 2006.14(3):p.1018-1025。又如 CN2011100994174、CN2006100965236、CN2006100965255 等。
[0003]此外,人脸识别定位技术亦已经有所发展,典型的如一种在图像或视频中识别人脸并确定其空间位置的技术:
[0004]如CN201310098347X人脸识别芯片,包括视频采集单元、人脸检测单元和视频显示单元;述视频采集单元用于采集人脸特征,并发送给人脸检测单元;所述人脸检测单元将接收到的数据与内部存储的人脸特征进行比较,获取人脸识别结果,并发送给视频显示单元。
[0005]CN201410173445X人脸识别方法,包括步骤:S1:生成人脸弹性束图;S2:生成基于外观的人脸识别模型,计算获得基于外观的人脸识别模型与数据库中已有的人脸模型矢量之间的余弦相似度;S3:生成基于几何特征的人脸识别模型,计算获得的基于几何特征的人脸。
[0006]CN2013107515860 一种人脸识别系统-依次包括人脸检测与定位、规范化、特征提取和人脸识别四个模块。该人脸识别系统的识别精度可达90%以上,基本满足了识别要求。系统实时性好、携带方便,可以通过程序的修改推广到动态图像跟踪、运动检测。
[0007]CN2007100939433人脸识别系统,包括:视频输入接口,与人脸图像数据采集单元连接在一起,用于接收人脸图像数据;人脸识别运算处理器,用于对接收到的人脸图像数据进行处理,完成识别工作;微处理器单元,与所述人脸识别运算处理器连接在一起。
[0008]CN2012104577146人脸识别装置,包括图像获取单元(2),其用于获取人脸图像;识别单元,其用于接收所述人脸图像,并对所接收的人脸图像进行识别;定位单元(3),其具有反射面,使用者根据自身在该反射面中的镜像来调整面部位置以使面部处于人脸图。
[0009]图1是一种典型的通过数字信号处理使用扬声器阵列来实现声束偏转的技术。该技术在应用的实现流程如图2所示。现有技术的不足是,由于该技术的目标声辐射特性是人工设定的,在一些应用场景下使用受限。例如听者在覆盖区域内不可预测的移动时,音频装置难以实现针对听者所在位置的听音优化;又例如当覆盖区域中存在少数听者时,听者获得基于其所在位置听音优化,而当覆盖区域中存在较多听者时,期望向覆盖区域均匀辐射声音。现有技术不能自动在两种或更多种场景下切换。换言之,现有技术无法实现一系列智能化应用。
【发明内容】
[0010]本发明目的是,解决现有技术的不足,在现有相关技术的基础上,本发明解决确定声辐射方式参数的自动化问题。即能够进行声束追踪,与舞台追光灯相似,但是是使用声束来指向目标听者(Listener)。听者在覆盖区域内移动,而期望听者始终获得基于其所在位置听音优化;场景切换:当覆盖区域中存在少数听者时,听者获得基于其所在位置听音优化,而当覆盖区域中存在较多听者时,期望向覆盖区域均匀辐射声音。本发明提出一种自动确定声辐射模式的音频装置与系统,起码在两种或更多种场景下可以自动切换。
[0011]本发明的技术方案是,一种自动确定声辐射模式的方法,其特征是步骤如下:
[0012]I)视频捕获即采集人脸信号,确定听众的实时分布;
[0013]通过视频捕获设备采集音频装置声辐射覆盖区域内的包括的人脸或人眼或动作模式的图像或视频信号,并将信号发送给图像处理器进行处理;
[0014]2)图像处理模块使用现有的图像人脸、人眼或动作模式的识别技术识别声辐射覆盖范围内的听者,并确定其相对于音频装置的空间位置;
[0015]3)音频场景处理,音频场景处理模块接收图像处理模块给出的声辐射覆盖范围内的听者分布(状态数据),包括听者数量、位置分布以及被识别的动作指令等信息;根据这些听者分布信息确定音频场景模式:包括但不限于将声束偏转追踪某个听者或全区域均匀覆盖等模式;该模块解析出音频装置声辐射的模式和目标方向参数,并传递给下一模块音频场景执行模块;
[0016]4)音频场景执行模块根据音频场景模式由声辐射目标参数计算确定,声辐射目标参数计算模块根据音频场景模式确定声辐射的模式和目标方向参数,即计算出扬声器阵列系统各个通道的参数,包括但不限于在各个声学通道上对音频信号的幅度、相位、延时及滤波等参数;
[0017]5)出扬声器阵列系统各个通道的参数是信号处理器提供,信号处理器提供的包括但不限于幅度、相位、延时及滤波等变换;音频信号经过变换处理后形成多路音频信号,馈给扬声器阵列系统中相应的通道;
[0018]6)扬声器阵列系统中各扬声器单兀分布在相关的空间位置上,各扬声器单兀重放的是同一待重放音频信号的不同变换,在覆盖区域内各单元辐射的声波会相互作用,形成所需的辐射指向性,从而达到适应相应场景的目的。
[0019]视频捕获设备可能是一个或者多个;图像处理模块识别覆盖范围内的听者数量和位置之外,通过较为高级的算法实现对听者动作模式的识别,手势识别;
[0020]音频场景执行模块采用的方法包括但不限于所描述的类似算法,集成多种算法以供多种音频场景调用。本发明起码通过确定2-5个不同的音频场景由音频场景执行模块执行。
[0021]本发明的有益效果:本发明所述的音频装置可以根据覆盖区域内听者的数量和位置状态(分布)智能选择合适的声辐射模式,以提供给听者更优的听觉效果。这种更优可能是优化的音质效果,也可能是最大的声压级,或是其他期望的声学优化;本发明所述的音频装置可提供接收听者手势或动作指令的功能;可能包括切换音频场景或是音量调整等与音频重放相关的多种指令。
【专利附图】
【附图说明】
[0022]图1典型的通过数字信号处理使用扬声器阵列来实现声束偏转的现有技术示意图。
[0023]图2是图1的实现流程。
[0024]图3是本发明整体技术结构示意图。
[0025]图4是本发明的描述了一种音频装置实施方式,包含了若干个扬声器单元和一个内置摄像头。
[0026]图5听者在覆盖区域内的位置。
【具体实施方式】
[0027]本发明在音频装置(系统)中通过使用分析处理视频采集信息的手段,确定声学辐射参数的相关设定的方法,在图3-4音频系统中可以有两种或三种或更多种设定的声辐射覆盖范围:例如一种声辐射均匀覆盖是考虑到全部面积的均匀声辐射的扬声器相位和声强的布置,另一种声辐射覆盖是考虑到特定辐射角度(听者相对于音频装置的角度)的最优化布置;分别对应于全会场和少量听者使用的两种不同的声音系统的辐射要求。
[0028]以确定声学辐射参数的目的,在对视频信号的分析处理中结合使用人脸(眼)识别或手势识别的方法可能以灵活的方式配置于与音频设备相连接的各种智能终端设备中,如部分模块运行于个人电脑、智能电视、平板电脑、手机等。可以在这些设备中完成技术方案中所属的I)?5)中的某些甚至全部处理工作,然后由更为简单基础扬声器阵列系统重放。例如采用CN2007100939433人脸识别系统,当听者状态符合相应条件时,可以进行声音系统的切换。
[0029]如一种是声辐射均匀覆盖是考虑到全部面积的均匀声辐射的扬声器相位和声强的布置,第二种声辐射覆盖是考虑到针对特定角度的声辐射优化。
[0030]I)视频捕获(采集人脸信号),确定听众的实时分布;
[0031]本发明中视频捕获设备可以是音频装置的一部分,也可以是与音频装置相连接的PC或电视机等所配备的视频捕获设备。该视频捕获设备可以采集音频装置声辐射覆盖区域内的视频信号,并将信号发送给图像处理器进行处理。视频捕获设备可能是一个或者多个。
[0032]2)图像处理
[0033]图像处理模块可以是音频装置内的一部分,也可以是运行在与音频装置相连接的PC、智能电视或智能机顶盒等设备上的软件。该模块使用现有的图像人脸识别等技术识别声辐射覆盖范围内的听者,并确定其相对于音频装置的空间位置。图像处理器除了识别覆盖范围内的听者数量和位置之外,也可能通过较为高级的算法实现对听者动作模式的识另IJ,例如手势识别等。
[0034]3)音频场景处理
[0035]音频场景处理模块接收图像处理模块给出的听者状态数据,包括听者数量、位置分布以及被识别的动作指令等信息。该模块根据这些信息确定音频场景模式,如将声束偏转追踪某个听者或全区域均匀覆盖等模式。该模块解析出音频装置声辐射的模式和目标方向参数,并传递给下一模块。
[0036]4)声辐射目标参数计算
[0037]该模块根据声辐射的模式和目标方向参数计算出扬声器阵列系统各个通道的参数,包括在各个通道上对音频信号的幅度、相位、延时及滤波等参数。该模块使用的计算方法可以包括如现有技术I中所描述的类似算法,可以集成多种算法以供多种音频场景调用。
[0038]5)信号处理器
[0039]信号处理器根据前一级给出的参数,对待重放的音频信号进行相应的变换,包括但不限于幅度、相位、延时及滤波等变换。待重放的音频信号经过变换处理后形成多路音频信号,馈给扬声器阵列系统中相应的通道进行重放。
[0040]6)扬声器阵列系统
[0041]由于扬声器阵列系统中各扬声器单兀分布在相关的空间位置上,各扬声器单兀重放的是同一待重放音频信号的不同变换,在覆盖区域内各单元辐射的声波会相互作用,形成所需的辐射指向性,从而达到适应相应场景的目的。
[0042]应用实例1:
[0043]I)听者在覆盖区域内的位置如图5所示。
[0044]2)图像的识别;
[0045]图像处理模块识别出单个听者,相对于音频装置的角度α ;
[0046]3)音频场景的确定;
[0047]音频场景处理模块根据听者所在角度α,确定将声音以相同的角度投射到听者所在的位置;
[0048]4)阵列参数的确定;
[0049]根据 Gan, W.S.,et al.A digital beamsteerer for difference frequency ina parametric array.1eee Transact1ns on Aud1 Speech and Language Processing, 2
006.14(3):p.1018-1025.所述的方法或其他类似方法,可以计算得到各通道信号处理的参数,包括各通道的增益和延时等:
[0050]5)按照该参数组对待重放音频信号进行处理后扬声器阵列进行声重放,此时音频装置的声辐射在听者所在的方向上具有最佳的听觉效果。
[0051]应用实例2:
[0052]I)多个听者分布在覆盖区域内的不同位置;
[0053]2)图像的识别;
[0054]图像处理模块识别出多个听者,相对于音频装置的角度;
[0055]3)音频场景的确定;
[0056]音频场景处理模块根据听者所在角度,通过判定听者位置的离散度高于预定阈值,确定将声音均匀投射到覆盖范围;
[0057]4)阵列参数的确定;
[0058]根据Keele, Jr.,D.B.(Don), Full-Sphere Sound Field of Constant-BeamwidthTransducer (CBT) Loudspeaker Line Arrays, JAES Volume 51 Issue 7/8 pp.611-624 ;July2003.所述的方法或类似方法,可以计算得到各通道信号处理的参数,包括各通道的增益和延时等:
[0059]5)按照该参数组对待重放音频信号进行处理后扬声器阵列进行声重放,此时音频装置的声辐射在覆盖范伟内具有均匀的听觉效果。
[0060]应用实例3:
[0061]I)多个听者分布在覆盖区域内的不同位置;其中一个听者使用了一个预定手势指令,指示对该听者的位置进行声辐射的最优化;
[0062]2)图像的识别;
[0063]图像处理模块识别出该个听者的手势指令,将该听者相对于音频装置的角度和相应指令传递给音频场景确定模块;
[0064]3)音频场景的确定;
[0065]音频场景处理模块根据听者所在角度和相应指令,确定将声音以相同的角度投射到听者所在的位置;
[0066]4)阵列参数的确定同应用场景I ;
[0067]5)按照该参数组对待重放音频信号进行处理后扬声器阵列进行声重放,此时音频装置的声辐射在听者所在的方向上具有最佳的听觉效果。
【权利要求】
1.一种自动确定声辐射模式的方法,其特征是步骤如下: 1)视频捕获即采集人脸信号,确定听众的实时分布; 通过视频捕获设备采集音频装置声辐射覆盖区域内的包括的人脸或人眼或动作模式的图像或视频信号,并将信号发送给图像处理器进行处理; 2)图像处理模块使用现有的图像人脸、人眼或动作模式的识别技术识别声辐射覆盖范围内的听者,并确定其相对于音频装置的空间位置; 3)音频场景处理,音频场景处理模块接收图像处理模块给出的声辐射覆盖范围内的听者分布状态,包括听者数量、位置分布以及被识别的动作指令等信息;根据这些听者分布信息确定音频场景模式:包括但不限于将声束偏转追踪某个听者或全区域均匀覆盖模式;该模块解析出音频装置声辐射的模式和目标方向参数,并传递给下一模块音频场景执行模块; 4)音频场景执行模块根据音频场景模式由声辐射目标参数计算确定,声辐射目标参数计算模块根据音频场景模式确定声辐射的模式和目标方向参数,即计算出扬声器阵列系统各个通道的参数,包括但不限于在各个声学通道上对音频信号的幅度、相位、延时及滤波等参数; 5)出扬声器阵列系统各个通道的参数是信号处理器提供,信号处理器提供的包括但不限于幅度、相位、延时及滤波等变换;音频信号经过变换处理后形成多路音频信号,馈给扬声器阵列系统中相应的通道; 6)扬声器阵列系统中各扬声器单兀分布在相关的空间位置上,各扬声器单兀重放的是同一待重放音频信号的不同变换,在覆盖区域内各单元辐射的声波会相互作用,形成所需的辐射指向性,从而达到适应相应场景的目的。
2.根据权利要求1所述的自动确定声辐射模式的方法,其特征是视频捕获设备是一个或者多个。
3.根据权利要求1所述的自动确定声辐射模式的方法,其特征是图像处理模块识别覆盖范围内的听者数量和位置之外,通过较为高级的算法实现对听者动作模式的识别,手势识别。
4.根据权利要求1所述的自动确定声辐射模式的方法,其特征是音频场景执行模块采用的方法包括但不限于所描述的类似算法,集成多种算法以供多种音频场景调用。
5.根据权利要求1所述的自动确定声辐射模式的方法,其特征是确定2-5个不同的音频场景由音频场景执行模块执行。
6.根据权利要求5所述的自动确定声辐射模式的方法,其特征是音频系统中设定的声辐射覆盖范围为二种:一种是声辐射均匀覆盖是考虑到全部面积的均匀声辐射的扬声器相位和声强的布置,第二种声辐射覆盖是考虑到针对特定角度的声辐射优化的布置。
【文档编号】H04R1/20GK104185116SQ201410405162
【公开日】2014年12月3日 申请日期:2014年8月15日 优先权日:2014年8月15日
【发明者】孙飞, 刘紫赟 申请人:南京琅声声学科技有限公司