本发明涉及信息技术领域,尤其涉及一种通过两个麦克风获取同一个音源的方法及采集设备。
背景技术:
立体(3dimensional,3d)音频文件包括两种数据,第一种:音频数据;第二种音频录制的方位信息。只有包括这两种数据,才能够在后续输出时,形成3d立体效果。
然和在现有技术中,还未提出如何采集音频,获得3d音频文件
随着信息技术的发展,很多电子设备都能够具有音频采集和/或音频输出的功能。但是为了提升音频输出效果,用户想要听到立体声和/或环绕声等声音效果;然而这种立体生和/或环绕声的声音的输出,是依赖立体(3dimensional,3d)音频文件。但是如何进行3d音频文件的形成,依然是现有技术中亟待解决的问题。
但是目前还没有一种用户级设备,可供简便获得音源的方位信息。故提出一种体积小、造价成本低的可用普通用户使用的3d录音设备,是现有技术亟待解决的问题。
技术实现要素:
有鉴于此,本发明实施例期望提供一种通过两个麦克风获取同一个音源的方法及采集设备,可以至少部分解决上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种通过两个麦克风获取同一个音源的方法,所述方法包括:
通过第一麦克风获得第一音频数据,通过第二麦克风获得第二音频数据,其中,所述第一音频数据与所述第二音频数据对应于同一个音源;
基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有所述两个麦克风的设备的空间位置的空间位置信息。
基于上述方案,所述方法还包括:
对所述第一音频数据、所述第二音频数据及所述空间位置信息,进行音频混合编码,生成三维音频文件。
基于上述方案,所述基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有所述两个麦克风的设备的空间位置的空间位置信息,包括:
确定所述第一麦克风采集到所述第一音频数据的音波参数的第一信息;
确定所述第一麦克风采集到所述第二音频数据的所述音波参数的第二信息;
确定所述第一信息和第二信息之间的差异信息;
根据所述差异信息,第一麦克风及第二麦克风之间的位置关系,确定出所述空间位置信息。
基于上述方案,所述确定所述第一麦克风采集到所述第一音频数据的音波参数的第一信息,包括:
确定所述第一麦克风采集到所述第一音频数据的第一相位信息;
所述确定所述第一麦克风采集到所述第二音频数据的所述音波参数的第二信息,包括:
确定所述第一麦克风采集到所述第二音频数据的第二相位信息;
所述确定所述第一信息和第二信息之间的差异信息,包括:
依据所述第一相位信息和所述第二相位信息,确定相位差异信息;
所述根据所述差异信息,第一麦克风及第二麦克风之间的位置关系,确定出所述空间位置信息,包括:
结合所述相位差异信息,所述第一麦克风和所述第二麦克风的相对位置,计算出空间位置信息。
基于上述方案,所述确定所述第一麦克风采集到所述第一音频数据的音波参数的第一信息,包括:
确定所述第一麦克风采集到所述第一音频数据的第一幅度信息;
所述确定所述第一麦克风采集到所述第二音频数据的所述音波参数的第二信息,包括:
确定所述第一麦克风采集到所述第二音频数据的第二幅度信息;
所述确定所述第一信息和第二信息之间的差异信息,包括:
依据所述第一幅度信息和所述第二幅度信息,确定音强差异信息;
所述根据所述差异信息,第一麦克风及第二麦克风之间的位置关系,确定出所述空间位置信息,包括:
结合所述幅度差异信息,所述第一麦克风和所述第二麦克风的相对位置,计算出空间位置信息。
基于上述方案,所述基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有所述两个麦克风的设备的空间位置的空间位置信息,包括:
获取所述第一音频数据和所述第一音频数据的差异信息,其中,所述差异信息包括幅度差异信息和/或相位差异信息;
根据所述差异信息及所述第一麦克风和所述第二麦克风之间的相对位置,确定出所述音源的空间范围;
根据所述第一音频数据和第二音频数据的频谱差异信息,在所述空间范围内搜索所述音源的具体方位,确定所述空间位置信息。
基于上述方案,所述空间位置信息,至少包括:第一空间位置信息、第二空间位置信息、第三空间位置信息及第四空间位置信息的至少之一;
所述第一空间位置信息,用于指示所述音源位于第一空间位置,所述第一空间位置为所述第一麦克风和所述第二麦克风的采集面所朝向的方向,且位于所述第一麦克风和所述第二麦克风连线的上方;
所述第二空间位置信息,用于指示所述音源位于第二空间位置,所述第二空间位置为所述第一麦克风和所述第二麦克风的采集面所朝向的方向,且位于所述第一麦克风和所述第二麦克风连线的下方;
所述第三空间位置信息,用于指示所述音源位于第三空间位置,所述第三空间位置为所述第一麦克风和所述第二麦克风的采集面所背向的方向,且位于所述第一麦克风和所述第二麦克风连线的上方;
所述第四空间位置信息,用于指示所述音源位于第三空间位置,所述第三空间位置为所述第一麦克风和所述第二麦克风的采集面所背向的方向,且位于所述第一麦克风和所述第二麦克风连线的下方。
本发明实施例第二方面提供一种采集设备,所述采集设备包括:
设备本体,所述设备本体上具有相互对称设置的第一凸起和第二凸起,所述设备本体的外表面设置有吸音区域,所述吸音区域至少位于所述第一凸起和所述第二凸起之间且位于所述第一凸起和所述第二凸起的后侧;
第一麦克风,设置在所述设备本体内,所述第一麦克风在所述设备本体上对应有第一开孔,所述第一开孔位于所述第一凸起之前;
第二麦克风,设置在所述设备本体内,所述第二麦克风在所述设备本体上对应有第二开孔,所述第二开孔位于所述第二凸起之前。
基于上述方案,所述设备主体为轴对称结构;
所述第一凸起和所述第二凸起对称分布在所述轴对称结构的对称轴两侧;
所述第一凸起和所述第二凸起,与所述设备主体的第一端部的距离为第一距离;所述第一凸起和所述第二凸起,与所述设备主体的第二端部的距离为第二距离;所述第一距离不等于所述第二距离。
基于上述方案,所述第一凸起和所述第二凸起之间的第一吸音区域,采用第一声波特性的第一材料制成;
所述第一凸起和所述第二凸起后侧的第二吸音区域,采用第二声波特性的第二材料制成;
所述第一声波特性与人体面部的声波特性的差异在第一预设范围内;
所述第二声波特征与人体头发的声波特征的差异在第二预设范围内。
基于上述方案,所述第一麦克风,用于采集第一音频数据;
所述第二麦克风,用于采集第二音频数据,其中,所述第一音频数据与所述第二音频数据对应于同一个音源;
所述采集设备还包括:
处理模组,用于基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有两个所述麦克风的设备的空间位置的空间位置信息。
基于上述方案,所述处理模组,还用于对所述第一音频数据、所述第二音频数据及所述空间位置信息,进行音频混合编码,生成三维音频文件。
基于上述方案,所述处理模组,具体用于获取所述第一音频数据和所述第一音频数据的差异信息,其中,所述差异信息包括幅度差异信息和/或相位差异信息;
根据所述差异信息及所述第一麦克风和所述第二麦克风之间的相对位置,确定出所述音源的空间范围;
根据所述第一音频数据和第二音频数据的频谱差异信息,在所述空间范围内搜索所述音源的具体方位,确定所述空间位置信息。本发明实施例提供的通过两个麦克风获取同一个音源的方法及采集设备,通过第一麦克风和第二麦克风分别采集同一个音源,然后基于采集得到的第一音频数据和第二音频数据的差异,可以定位出该音源相对于包括这两个麦克风的设备的空间位置,从而得到该空间位置的空间位置信息,该空间位置信息及第一音频数据和第二音频数据,共同可作为编码成3d音频文件的信息内容,从而实现了通过数据采集及处理,简便生成3d音频文件的目的。
附图说明
图1为本发明实施例提供的第一种通过两个麦克风获取同一个音源的方法的流程示意图;
图2为本发明实施例提供的第二种通过两个麦克风获取同一个音源的方法的流程示意图;
图3为本发明实施例基于采集的音频数据,获得空间位置信息的流程示意图;
图4为本发明实施例提供的一种定位空间位置信息的坐标系;
图5为本发明实施例提供的第一种采集设备的结构示意图;
图6为本发明实施例提供的第二种采集设备的结构示意图;
图7为本发明实施例提供的第三种采集设备的结构示意图;
图8为本发明实施例提供的第三种通过两个麦克风获取同一个音源的方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种通过两个麦克风获取同一个音源的方法,所述方法,包括:
步骤s110:通过第一麦克风获得第一音频数据,且通过第二麦克风获得第二音频数据,所述第一音频数据与所述第二音频数据对应于同一个音源;
步骤s120:基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有所述两个麦克风的设备的空间位置的空间位置信息。
本实施例提供的所述方法,可为应用于各种电子设备中的信息处理方法。所述电子设备可为包括分离设置的两个麦克风的电子设备,具体可包括手机、平板电脑、可穿戴式设备、笔记本电脑或专用的音频采集设备等。所述第一麦克风和所述第二麦克风,位于电子设备的不同位置。
在本实施例中所述音源为同一个声音来源或同一个发声源。由于第一麦克风和第二麦克风位于电子设备的不同位置,显然会相对于音源的位置是不同的,这种不同将会导致所述第一麦克风采集的第一音频数据,和第二麦克风采集的第二音频数据会细微的差异。该细微的差异可以用于定位出该音源相对于两个麦克风的空间位置,从而获得对应的空间位置信息。在本实施例中,为了不干扰所述空间位置信息的定位,在本实施例中通常电子设备自身不会播放声音,避免干扰采集,同时不会开启所述第一麦克风和所述第二麦克风以外的其他麦克风,以免其他麦克风采集的音频数据,对所述空间位置的定位干扰,以获得精确的所述空间位置信息。总之,在采集第一音频数据、第二音频数据及确定空间位置信息时,优选电子设备中的音频模组,除了所述第一麦克风和第二麦克风处于采集状态,其他音频输出模块或音频采集模块都处于静默状态,以获得优质的第一音频数据和第二音频数据的同时,获得精确的空间位置信息,方便后续利用该空间位置信息,播放出优质的立体声或环绕声等三维立体生效。
如图2所示,本实施例所述方法还包括:
步骤s130:对所述第一音频数据、所述第二音频数据及所述空间位置信息,进行音频混合编码,生成三维音频文件。
所述第一音频数据和第二音频数据为音频格式的数据,所述空间位置信息可为文本格式的信息。在本实施例中将所述第一音频数据、第二音频数据及空间位置信息通过混合编码,形成包括这种类型数据的音频文件。这种音频文件为三维(3dimensional,3d)相对于二维音频文件,包括了空间位置信息,这样的话,对3维音频文件进行解码播放时,就可以结合空间位置信息,产生立体声及环绕声的声音播放效果。
在本实施例的步骤s130所述的混合编码,可包括:将所述第一音频数据、第二音频数据及空间位置信息,采用mpeg-h或dolbyac-4编码标准或编码协议进行混合编码,形成mpeg-h或dolbyac-4音频文件。所述mpeg-h或dolbyac-4的音频文件,在播放时支持多扬声器的播放,从而提供立体音或环绕音的三维音频播放效果。
如图3所示,所述步骤s120可包括:
步骤s121:确定所述第一麦克风采集到所述第一音频数据的音波参数的第一信息;
步骤s122:确定所述第一麦克风采集到所述第二音频数据的所述音波参数的第二信息;
步骤s123:确定所述第一信息和第二信息之间的差异信息;
步骤s124:根据所述差异信息,第一麦克风及第二麦克风之间的位置关系,确定出所述空间位置信息。
所述音源产生的声音,以声波的方式在传输介质中传播,例如,所述音源产生声音在空间中传播。由于第一麦克风和第二麦克风的分离设置,同一个音源产生的声音达到第一麦克风和第二麦克风的达到时间可能不同,经过的传输介质的传输性能不同等。总之,所述第一麦克风和第二麦克风采集的同一个音源的声波参数会产生差异。例如,在同一个时刻点,第一麦克风和第二麦克风采集的同一个音源的相位不同和/或采集到的幅度不同等。
在本实施例中所述步骤s121和步骤s122可为同步执行的步骤,没有一定的先后顺序。
在所述步骤s121和步骤s122中提取出第一信息和第二信息之后,将通过比对或做差值运算等,确定出所述第一信息和第二信息之间的差异信息。这里的差异信息为所述音波参数的差异信息。例如,相位差异和/或幅度差异等信息。
在步骤s124中将结合第一麦克风和第二麦克风之间的相对位置,再结合同一个音源产生的声音达到第一麦克风和第二麦克风的差异信息,就可以通过仿真或函数计算等方式,确定出所述音源相对于第一麦克风和第二麦克风的空间位置,从而定位出所述音源的空间位置信息。
本实施例提供一种具体如何定位所述音源的方法,具有实现简便的特点。
利用两个麦克风对同一个音波参数采集的差异,来定位音源的空间位置的方式有多种,以下分别提供利用相位和/或幅度进行音源的空间定位的具体实现方式。
可选方式一:
所述步骤s121可包括:确定所述第一麦克风采集到所述第一音频数据的第一相位信息;
所述步骤s122可包括:确定所述第一麦克风采集到所述第二音频数据的第二相位信息;
所述步骤s123可包括:依据所述第一相位信息和所述第二相位信息,确定相位差异信息;
所述步骤s124可包括:结合所述相位差异信息,所述第一麦克风和所述第二麦克风的相对位置,计算出空间位置信息。
由于第一麦克风和第二麦克风的分离设置,同一个音源产生的声音,达到第一麦克风和第二麦克风经过的路径的长度不同,这就可能导致同一个时刻达到第一麦克风和第二麦克风的音波是以不同相位达到的。在本实施例中通过步骤s121和步骤s122可以提取出在时间维度上的相位变化,然后可以通过比对的方式,第一麦克风和第二麦克风发采集的同一个音源发送的声音产生的相位差异,得到所述相位差异信息。
在步骤s124中,可以根据相位差异信息,与第一麦克风和第二麦克风之间相对位置,至少可以定位出音源相对于所述第一麦克风和第二麦克风的大致角度信息等,进而可以定位出所述空间位置,得到所述空间位置信息。
可选方式二:
所述步骤s121包括:确定所述第一麦克风采集到所述第一音频数据的第一幅度信息;
所述步骤s122可包括:确定所述第一麦克风采集到所述第二音频数据的第二幅度信息;
所述步骤s123,包括:依据所述第一幅度信息和所述第二幅度信息,确定音强差异信息;
所述步骤s124,包括:结合所述幅度差异信息,所述第一麦克风和所述第二麦克风的相对位置,计算出空间位置信息。
在本实施例中同样由于第一麦克风和第二麦克风的分离设置,同一个音源的声音达到第一麦克风和第二麦克风位置的时间会出现差异,这种时间上的差异,会导致第一麦克风和第二麦克风在同一个时间采集的相位不同或不同相位的对应的幅度不同,则会导致第一麦克风和第二麦克风在同一个时刻采集的同一个音源发出的同一个音波的幅度不同。故在本实施中的步骤s121可以提取第一音频数据的幅度变化信息,在步骤s122可以提取第二音频数据的幅度变化信息。在步骤s123中通过两个幅度变化信息的比较,就可以得到所述第二幅度信息。最后在步骤s124中结合第一麦克风和第二麦克风自身的相对位置,就可以通过三维建模或空间仿真或函数关系等方式,确定出所述音源的空间位置,进而得到所述空间位置信息。
在本实施例中上述相位变化信息及所述幅度变化信息,可为模拟的连续信号,也可以是通过采样获得的离散信号。
在具体实施中,为了提升定位所述空间位置的精度,可以结合可选方式一和可选方式二,共同来定位所述空间位置,得到所述空间位置信息。例如,利用可选方式一得到一个所述空间位置的对应的第一空间范围,利用可选方式二得到另一个所述空间位置对应的第二空间范围。在这种情况下,可以取所述第一空间范围和所述第二空间范围的交集,得到第三空间范围;所述空间位置信息为指示所述第三空间范围的信息。这样的话,显然相对于单独利用相位差异信息或幅度差异信息,可以获得更加精确的空间位置定位。
作为本实施例提供的方法的进一步改进,所述步骤s120可包括:
获取所述第一音频数据和所述第一音频数据的差异信息,其中,所述差异信息包括幅度差异信息和/或相位差异信息;
根据所述差异信息及所述第一麦克风和所述第二麦克风之间的相对位置,确定出所述音源的空间范围;
根据所述第一音频数据和第二音频数据的频谱差异信息,在所述空间范围内搜索所述音源的具体方位,确定所述空间位置信息。
在本实施例中首先利用音波参数的差异信息,例如,所述相位差异信息或所述幅度差异信息,定位出所述音源相对于第一麦克风和第二麦克风的所在的空间范围。相当于圈定出所述音源所在的空间边界。
在确定所述空间范围之后,再结合第一音频数据和第二音频数据的频谱差异信息,在对应的空间范围内搜索音源的具体方位,进而可以确定空间位置信息。
在音波的传输过程中,可能会遇到障碍物出现音波的衍射和/或反射,同时可能出现音波的相互叠加和/或抵消等现象,或经过不同传输媒介出现音波的折射等现象。源自同一个音源的声音可能经过不同传输途径的传播之后,产生印谱差异,这种频谱差异可以用于精确定位声音的传播方向等信息,从而可以方便精确定位所述空间位置。
例如,利用头部相关传输函数(headrelatedtransferfunction,hrtf)等,在所述空间范围内进行具体方位的搜索,进而精确定位出所述空间位置,得到所述空间位置信息。
所述根据所述差异信息及所述第一麦克风和所述第二麦克风之间的相对位置,确定出所述音源的空间范围,具体可包括:
确定采集的第一音频数据大和第二音频数据的频率;
确定所述频率所在的频谱范围;
选择与所述频率所在的频谱范围具有映射关系的音波参数,提取所述差异信息;再结合提取的差异信息定位出所述空间范围。
例如,在所述频率小于第一频率阈值时,提取相位差异信息;当所述频率小于第二频率阈值,且大于所述第一频率阈值时,分别提取所述相位差异信息和所述幅度差异信息,;当所述频率大于所述第二频率阈值或第三频率阈值时,提取幅度差异信息。这里的第三频率阈值高于所述第二频率阈值。
在本实施例中,所述空间位置信息至少包括4种,这4种空间位置信息,可以指示出音源相对于第一麦克风和第二麦克风的大致位置。
所述空间位置信息,至少包括:第一空间位置信息、第二空间位置信息、第三空间位置信息及第四空间位置信息的至少之一;
所述第一空间位置信息,用于指示所述音源位于第一空间位置,所述第一空间位置为所述第一麦克风和所述第二麦克风的采集面所朝向的方向,且位于所述第一麦克风和所述第二麦克风连线的上方;
所述第二空间位置信息,用于指示所述音源位于第二空间位置,所述第二空间位置为所述第一麦克风和所述第二麦克风的采集面所朝向的方向,且位于所述第一麦克风和所述第二麦克风连线的下方;
所述第三空间位置信息,用于指示所述音源位于第三空间位置,所述第三空间位置为所述第一麦克风和所述第二麦克风的采集面所背向的方向,且位于所述第一麦克风和所述第二麦克风连线的上方;
所述第四空间位置信息,用于指示所述音源位于第三空间位置,所述第三空间位置为所述第一麦克风和所述第二麦克风的采集面所背向的方向,且位于所述第一麦克风和所述第二麦克风连线的下方。
如图4所示,以所述第一麦克风和第二麦克风之间的连线的中点,视为三维直角坐标系的原点。这样的话,该三维直角坐标系,将整个空间氛围16个象限。该三维直角坐标系,包括:水平内的x轴和y轴,以及位于竖直平面内的z轴。若所述第一麦克风和第二麦克风的采集面朝向x轴的正方向,则所述第一空间位置信息,指示的第一空间位置包括:x轴、y轴及z轴正半轴所构成的两个象限。所述第二空间位置信息,指示的第二空间位置包括:z轴及y轴的负半轴及x轴的正半轴所构成的两个象限。所述第三空间位置信息,指示的第三空间位置包括:z轴、y轴的正半轴及x轴负半轴所构成的两个象限。所述第四空间位置信息,指示的第四空间位置包括:z轴、y轴及x轴负半轴所构成的两个象限。在图4中,x轴、y轴及z轴的正半轴,为原点为起点指向箭头方向的轴,为正半轴,与正半轴方向相反的轴为负半轴。
在另一个实施例中,所述空间位置信息,可以指示图4所示的三维直角坐标系中的每一个象限的信息。
在还有一些实施例中,可以以所述第一麦克风和第二麦克风的中点作为球坐标系的原点,所述空间位置信息可包括半径范围和方位角范围,这两个参数。所述半径范围,可用于指示所述音源相对于球坐标系的原点的距离范围,包括最大距离和最小距离。所述方位角方位,可用于指示所述音源相对于球坐标系的原点的角度范围,可以包括最大角度和最小角度。所述半径范围和方位角范围,可均为连续分布的连续范围,也可以为多个离散的子范围形成的范围集合。
在上述实施例中均以所述第一麦克风和第二麦克风连线的中点,作为三维直角坐标系或球坐标系的原点,在具体实现时,还可以以包括所述第一麦克风和所述第二麦克风的采集设备的中心点为所述原点。所述空间位置信息可以直接包括在三维直角坐标系或球坐标系中的坐标。
总之,所述空间位置信息,指示所述音源相对于第一麦克风和第二麦克风的相对位置的方式很多种,不局限于上述任意一种。
如图5所示,本实施例提供一种采集设备,所述采集设备包括:
设备本体110,所述设备本体110上具有相互对称设置的第一凸起111和第二凸起112,所述设备本体110的外表面设置有吸音区域,所述吸音区域至少位于所述第一凸起111和所述第二凸起112之间且位于所述第一凸起111和所述第二凸起112的后侧;
第一麦克风121,设置在所述设备本体110内,所述第一麦克风121在所述设备本体110上对应有第一开孔,所述第一开孔位于所述第一凸起111之前;
第二麦克风122,设置在所述设备本体110内,所述第二麦克风122在所述设备本体110上对应有第二开孔,所述第二开孔位于所述第二凸起112之前。
本实施例提供的一种采集设备,该采集设备包括一个本体,该本体的外表面通常可包括一个壳体,该壳体构成了所述设备本体的外表面。所述外表面上设置有第一凸起111和第二凸起112,在本实施例中所述第一凸起111和第二凸起112可为板状凸起,也可以为块状凸起。所述第一凸起111和第二凸起112可以为安装在所述设备本体110的外表面的结构,也可以为所述设备本体110的壳体一体成型的连体结构。
在所述设备本体110上还设置有第一开孔和第二开孔,所述第一开孔和第二开孔,可以用于作为所述第一麦克风121和第二麦克风122的采集孔,该采集孔可用于供音波传入到所述第一麦克风121和第二麦克风122的采集面上,使得所述第一麦克风121和第二麦克风122采集到音频数据。具体如,所述第一麦克风121的采集面朝向所述第一开孔,所述第二麦克风122的采集面朝向所述第二开孔。所述第一开孔可为单一开孔,也可以为多个细孔组成的开孔阵列等。同样的,所述第二开孔可为单一开孔,也可以为多个细孔该的开孔阵列。
在本实施例中所述第一开孔邻近所述第一凸起111设置,所述第二开孔邻近所述第二凸起112设置。
本实施例中所述采集设备,可以通过同时开启第一麦克风121和第二麦克风122采集同一个音源,可以定位出该音源相对于该采集设备的空间位置,从而获得空间位置信息,可以方便结合空间位置信息,和两个麦克风采集的音频数据得到3d音频文件。
本实施例所述采集设备,可为设置有多个麦克风的手机、平板电脑或可穿戴式设备,或者专用的音频采集设备。
可选地,所述设备主体为轴对称结构。这里的轴对称结构可为各种类型的结构,例如,圆形球体、椭圆球体、长方体或正方体等结构。所述轴对称结构都包括对称轴。在本实施例中所述第一凸起111和第二凸起112分布在所述轴对称结构的对称轴两侧,且相对于所述对称轴对称分布。
第一凸起111和第二凸起112设置在轴对称结构上,且以对称轴对称分布,一方面第一凸起111和第二凸起112的这种对称分布,会使得所述第一麦克风121及所述第二麦克风122也呈现轴对称分布,可以减少在定位空间位置信息的计算量,于此同时可以仿真人耳在人体头部的分布,从而这样采集的空间位置信息及音频数据,生成的3d音频文件,可以获得更加优质的音效。
进一步地,所述第一凸起111和所述第二凸起112,与所述设备主体110的第一端部的距离为第一距离;所述第一凸起111和所述第二凸起112,与所述设备主体110的第二端部的距离为第二距离;所述第一距离不等于所述第二距离。
第一距离不等于第二距离,第一凸起111和第二凸起112并为分布在轴堆成结构的中线位置。通常情况下若所述第一端部为顶端,所述第二端部为低端,则所述第一距离小于所述第二距离。这样的话,所述第一凸起111和第二凸起112的位置设置,更加逼近人耳在人头部的分布,这样采集的3d音频文件,播出时可获得更加优质的立体声或环绕声效果。
在一些实施例中,所述第一凸起111和第二凸起112的形状可为半圆板或半椭圆板,这样的话,可以更加逼真的模拟人耳的耳廓的声音反射、衍射等传导现象,从而方便更加精确定位空间位置。当然,在具体实现时,所述第一凸起111和所述第二凸起112不局限于半圆板或半椭圆板,还可以是方形板,或圆弧曲面板。若所述第一凸起111和所述第二凸起112为圆弧曲面板的话,所述圆弧全面背离所述第一开孔和所述第二开孔。
可选地,所述第一凸起111和所述第二凸起112之间的第一吸音区域,采用第一声波特性的第一材料制成;
所述第一凸起111和所述第二凸起112后侧的第二吸音区域,采用第二声波特性的第二材料制成;
所述第一声波特性与人体面部的声波特性的差异在第一预设范围内;
所述第二声波特征与人体头发的声波特征的差异在第二预设范围内。
在本实施例中所述第一吸音区域和第二吸音区域。这里的第一吸音区域为所述第一开孔和所述第二开孔所在的区域;所述第二吸音区域为可为不包括所述第一开孔和第二开孔的区域。
在本实施例中所述第一吸音区域和第二吸音区域,为采用不同的声波特性的材质构成的。这种材质的选择,参照音波特征与人体面部和人体头发的声波特征进行选择。
在本实施例中所述声波特性为对声音处理的特性,例如,对声音频段的波的折射率等参数。再例如,所述声波特性可体现为声音阻抗。
在本实施例中所述第一预设范围和所述第二预设范围可相同,也可以不同。在本实施例中所述第一预设范围和所述第二预设范围都为预先设定的范围。例如,所述第一预设范围为所述人体面部的声波特性与指定比值的乘积;所述第二预设范围可为人体头发的声波特性与指定比值的乘积。
当然,所述第一预设范围和所述第二预设范围的取值方法,还可以是其他方式,不局限于上述方式。
将所述第一吸音区域和第二吸音区域的声波特征的限定,可以更好的仿真人耳对声音的处理,从而可以更加精确的定位音源相对于第一麦克风121及第二麦克风122的空间位置,从而获得更加精确的空间位置信息。
可选地,如图5或6所示,所述第一麦克风121,用于采集第一音频数据;
所述第二麦克风122,用于采集第二音频数据,其中,所述第一音频数据与所述第二音频数据对应于同一个音源;
所述采集设备还包括:
处理模组130,用于基于所述第一音频数据与所述第二音频数据之间相同的至少一个参数的差异,确定所述同一个音源相对于具有两个所述麦克风的设备的空间位置的空间位置信息。
在本实施例中所述采集设备还包括处理模组130,所述采集模组130可包括各种类型的处理器或处理电路,位于所述设备主体110的内部,分别与所述第一麦克风121及所述第二麦克风122连接。所述处理器可包括中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。所述处理电路可包括专用集成电路。
在本实施例中,所述第一麦克风121和所述第二麦克风122会将分别采集的第一音频数据和第二音频数据发送给处理模组130,处理模组会提取出第一音频数据和第二音频数据的至少一个参数的差异,利用给该差异结合两个麦克风之间的相对位置,定位出所述音源相对于采集设备的空间位置,从而得到形成3d音频文件的空间位置信息。
在本实施例中所述参数可为相位和/或幅度。在本实施例中所述处理模组,可以提取所述第一音频数据和第二音频数据的相位差异信息和/或幅度差异信息,基于相位差异信息及幅度差异信息中的至少一个,确定出音源相对于两个麦克风或采集设备的空间位置,从而精确定位出所述空间位置信息。
进一步地,所述处理模组130,还用于对所述第一音频数据、所述第二音频数据及所述空间位置信息,进行音频混合编码,生成三维音频文件。
在本实施例中所述处理模组130,会对第一音频数据、第二音频数据及空间位置信息,进行混合编码,例如,采用mpeg-h或dolby-ac-4标准或编码方式,进行这两种信息的混合编码,生成所述三维音频文件。这样的三维音频文件在播出的时候,能够获得立体声或环绕声的三维立体音效。
作为本实施例的进一步改进,所述处理模组130,具体用于获取所述第一音频数据和所述第一音频数据的差异信息,其中,所述差异信息包括幅度差异信息和/或相位差异信息;
根据所述差异信息及所述第一麦克风和所述第二麦克风之间的相对位置,确定出所述音源的空间范围;根据所述第一音频数据和第二音频数据的频谱差异信息,在所述空间范围内搜索所述音源的具体方位,确定所述空间位置信息。
在本实施例中所述处理模组130,首先根据相位差异信息和/或幅度差异信息,确定出音源相对于采集设备或第一麦克风和第二麦克风的大致位置,该大致位置即所述空间范围。接着,所述处理模组130,会提取第一音频数据和第二音频数据的频谱差异信息,基于该频谱差异信息,在确定出的空间范围内搜索出所述音源的具体方位,从而获得精确的所述空间位置信息,采用这种方式定位的空间位置信息,具有精确度高的特点。
在具体的实施过程中,所述第一凸起111和第二凸起112相对于设备本体110的体积比,可以人体头部与耳朵之间的体积比相似或相近,例如,两个体积比的差值在第三预设范围内。这样可以进一步的采集设备对空间位置信息的精确确定。
在一些实施例中,所述设备主体可分为两个部分,第一部分设置有所述第一凸起111和第二凸起112,第一部分安装在第二部分之上,所述第一部分可以相对第二部分旋转,这里的可旋转角度可为360度、180或90度等。
以下结合上述任意实施例提供几个具体示例:
整体3d录音及定位方案,主要涉及三个部分:结构设计、双麦克风(mic)布防和拾取声信号处理算法。下面逐一说明。
图7所示为主体结构的一种示意图。所述柱体结构仿照人头外形为椭球形,为了体现小型化应用,直径可以稍小于人头;直径直接影响到低频声信号的定位精度,这一点与人头的声学特性相似。在定位精度要求不高的情况下,椭球也可以简化为圆柱。
在椭球体两侧设有小障板,模拟人耳廓的效应。这里的小障板可为前述第一凸起和第二凸起的一个具体示例。小障板可以设计成尺寸与耳廓向仿的椭球半球壳,也可以设计为半圆形障板直径(直径和耳廓最大尺寸相近);同时,要具备和人耳相似的表面声阻抗。小障板的作用是辅助定位高频声音信号的方位,借此实现对人头前后声源的定位;这一点与人耳耳廓在声源定位中的作用相同。
此外,椭球体上划分两个区域,如图7所示;表面特性分别模拟面部的声阻抗的人脸皮肤模拟区和模拟头发的声阻抗特性的头发模拟区。利用两个区域分别仿照人头面部和头发的声学阻抗特性;这一点有利于提高音源定位精度。需要强调的是,头发模拟区的作用,是加强耳廓模拟障板的定位作用,提高本案对声源在中垂面上定位的精度。这就要求头发模拟区的覆盖范围要经过特殊设计,并经测试验证可以遂行这一目的。
最重要一点,椭球体可以固定放置,也可以装于旋转机构上,实现微小转动(例如,±5°)。在本示例中,椭球体可以转动的设计,也是模拟人头微小转动对音源定位的辅助作用,提高定位精度,可转到的角度不局限于±5°,还可以是±10°。
双mic布防:将mic放置于半圆形小障板的圆心处,垂直嵌入椭球体的外表面。这一部分,需要模拟人耳的在人头上的相对位置。
拾取声信号处理算法:算法基于仿生椭球的3d声相关函数(类似于头相关函数),主要处理模块包括:噪声及串音消除,双mic信号相关性检验,两声源声信号分离及定位。
利用本示例提供的采集设备,为了便于理解本设计,先简要介绍人头的声学特性和头相关函数的概念,及其声音定位应用。
应用hrtf进行声源定位,考虑了采集设备在进行声音滤波过程中的反射、折射及散射等各种现象,可以对声波进行综合滤波,结合利用不同位置出处的麦克风,对声音滤波的不同,定位出音源相对于采集设备的空间位置。
例如,采集设备的设备主体的外形和尺寸,对声波产生散射作用(尤其是近场的衍射作用),进而得出耳间时间差(itd)和耳间强度差(iid)等声源定位因素。这里的itd可由相位差异信息,后同一个相位达到两个麦克风的达到时间。所述iid可由幅度差异信息来体现。
在进行精确空间定位之前,所述方法还包括,根据采集的到音频的频率,确定出对应的方式定位大致的空间范围;具体如下:声音频率f<1.5khz的低频信号,itd是声源定位的主要因素;声音频率1.5khz<f<4khz的中频信号,itd和iid对声源定位共同起作用;
声音频率f>5khz的高频信号,iid对声源定位起主要作用。值得一提的是,在6khz以上的高频段,耳廓和头发(甚至是发型)对声波的散射和反射作用所引起的声压频谱特征对定位,尤其是区分前后镜像位置的声源和中垂面的定位,有重要作用。此外,头部的微小转动带来的动态因素,对区分前后镜像方向以及中垂面的声源定位有重要作用。
下面具体介绍本方案的实施细节。本案主体结构为一椭球体,在椭球体的短轴方向的两个顶点处放置mic,模拟人头对中、低频信号定位机制,以此来实现左右方向上的定位;小障板模拟耳廓的对高频声信号的滤波作用,以实现前后声音的定位;还有,椭球划分为两个区域,设置不同的表面声阻抗,以模拟面部和头发对声音的吸收、散射和反射作用,进而实现对人头中垂面上的声音方向定位。简而言之,本案的设计模拟人头关键生理结构的结构和声学特性,实现对声源方位的3d定位。
在进行麦克风采集的音频数据进行处理时,还会进行串音消除等处理,声源方向定位和混合声信号分离。现就关键的声源定位算法。
以下结合图8所示,提供本示例中定位音源方法的具体实现流程,包括:
步骤s1:2个麦克风进行信号采集,获得第一音频数据和第二音频数据;
步骤s2:iid和itd估算,得到估算结果;
步骤s3:根据估算结果,进行音源相对于采集设备的左右方位预判;
步骤s4:根据预判的结果,圈定音源的定位范围。在本实施例中通过定位范围的圈定,可以步骤s6中的处理量,可以避免在步骤s6在相对于采集设备的360度范围内搜索定位方位,可以减少计算量,降低消耗的计算资源,提升处理效率。
步骤s5:双麦克风采集的音频数据进行hrtf处理。
步骤s6:神经网络处理。神经网络处理有分为:
6.1:建立hrtf与方位的映射关系;该步骤相当于预处理步骤,可能是相对于步骤s1先执行的;
6.2:映射逼近处理。
步骤s7:根据逼近处理进行方位输出。
步骤s8:对输出的多个方位进行加权估计,得到具体方位。
现有技术中的立体声和环绕声都是在水平面上对声音作处理,音源位置都是等高度的,即在一个水平面上的前后左右的区分,即只是2d声音;本申请所提到3d声音是真正的3d声音,例如,人头后上方,后下方,前上方、前下方等相对于人头的任何一个空间位置(例如,与耳朵不在一个平面上的音源)的任何一个音源。本申请实施例所提供的仿生声音采集装置能够采集以人头为中心的球面上(即相对于人头的任何一个3d空间位置)的任何一个音源。同时通过本申请实施例所提供的仿生声音采集装置录制的音频文件在声音输出时能够使得用户感受到发声源的所在的空间位置。例如,头后上方的音频,或/和,头后下方的音源,或/和,头前上方的音源、,或/和,头前下方的音源等一个或者多个发声。
在声音录制过程中,本申请的实施例提供:“声音+声音的位置信息”混合编码。
本申请实施例所提供的仿生声音采集装置,进行人头仿生和人耳仿生。一方面要模拟出声音的幅度、相位和频谱上的差异;同时要把频谱上的差异放大,更有利于声音的精确定位。具体来说,人类的双耳在接收同一音源发出的声音,是有差异的;集中体现在幅度、相位和频谱上。通过两耳接收声音的幅度和相位差异,可以确定声音位置的大致范围;再通过频谱上的差异,就可以精确定位声音的位置。
本申请的实施例克服了现有技术(立体声或者环绕声)中只能让用户感受到一个水平面的变化而感受不到例如头后上方等与双耳不位于同一个平面内的空间位置上的变化。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。