一种基于hrtf结构化模型与主观反馈的个性化方法
【技术领域】
[0001] 本发明涉及一种基于HRTF结构化模型与主观反馈的个性化方法。
【背景技术】
[0002] 空间某点发出的声音传递到人耳时,会与人的头部、耳廓、肩膀和躯干等发生一 系列的衍射、吸收、反射等相互作用,若将这种作用看作是一滤波过程,其传递函数则称为 头相关传递函数。(Head-RelatedTransferFunction,HRTF),HRTF包含了人耳定位所 需的一些必要信息,如双耳时间差(InterauralTimeDifference,ITD)、双耳声压强度差 (InterauralLevelDiferrence,ILD)、频谱信息(SpectralCues)等,其中ITD和ILD为 水平角度定位提供重要信息,而频谱信息则有助于分辨上下方向和前后方向的声音。显然, HRTF随声源位置而改变,且每个人的HRTF也互不相同。将声源信号与HRTF卷积后播放,可 使听者感觉到声音是从HRTF所对应的空间位置发出的,这是一种虚拟3D立体声合成技术。 若能精确测量每个听者的个性化HRTF,则可以获得很好的3D音效。由于测量环境和设备的 限制,实际中很难直接测量个性HRTF,多以典型的HRTF代替。
[0003] 由于听者的HRTF与典型HRTF常常不匹配,这样往往产生较大的定位误差,并出现 头中定位、前后混淆和仰角误差等现象,从而导致3D声音定位性能下降,这也是3D音频系 统能否得到实际应用的瓶颈之一。
[0004] 现有技术中,Romighm仅使用中垂面若干位置的实测HRTF,通过EM算法获得球面 上某个频点的HRTF球表面谐波分解系数,从而合成个性化HRTF幅度谱,进而用HRTF最小 相位模型合成完整的HRTF。该方法需用已有HRTF数据库训练EM模型,而双耳时间差信息 (ITD)也可用同样的方式得到个性化数据。虽然该技术大大减少所需要测量的HRTF的个 数,减少测量工作量,但依旧需要测量中垂面上的实际HRTF,难以摆脱对测量设备的依赖, 因此总体成本依旧很高,难以得到普及应用。
[0005] ashizu等⑵将头相关单位脉冲响应(Head-RelatedImpulseResponse,HRIR)建 模为自回归滑动平均(AutoRegressiveMovingAverage,ARMA)模型,使一个具有128个 数据的HRIR压缩为47个MA系数和12个AR系数(合计59个数据)进行表示,从而减少 了需要进行调节的参数个数,然后不断向实验者播放经过HRIR滤波的声音,利用实验者所 判定的声源方向等听觉反馈,作为Actor-Critic自适应增强学习系统对ARMA参数进行调 节的依据,进而得到新的HRIR再次进行新一轮调节;实验中,利用相对目标HRIR的频谱失 真来模拟实验者反馈,平均在400次迭代内可以得到较好的个性化效果。该技术使用ARMA 模型对HRIR建模,所得系数个数59个,个数过多,不利于搜索优化过程的快速收敛。从而 搜索迭代次数过多,使得难以利用主观反馈进行个性化工作,可操作性低。
【发明内容】
[0006] 本发明针对现有的HRTF个性化方法对测量设备有依赖性,无需测量设备的个性 化方法对HRTF的建模方法的系数个数过多从而导致搜索空间大难以收敛等问题从而公开 了一种基于HRTF结构化模型与主观反馈的个性化方法,包括以下步骤:
[0007]Sl:实验者选取个性化定制的方向,生成初始种群:使用八个预先选定的由中心 频率、3dB带宽以及频谱峰高度或频谱谷深度所合成的九维滤波器参数矢量作为初始种 群;
[0008]S2:获得种群中个体的适应度及个体区间:播放种群个体所对应的声像,实验者 试听每个种群个体的滤波效果,来确定个体区间及目标声像的相对位置;
[0009]S3:对包含八个个体的种群进行选择操作,使用随机通用采样进行选择操作;
[0010]S4:对包含八个个体的种群进行交叉操作,使用单点交叉方式进行交叉,每个个体 只参与一次交叉操作;
[0011]S5:对包含八个个体的种群进行变异操作;
[0012]S6:步骤S2、S3、S4、S5不断迭代,直到实验者感知的声像与目标声像一致,进行 S7 ;
[0013]S7:垂直方向个性化结束后,进行水平方向个性化:指定垂直角为0°,水平角为 30°,改变头部半径数值,每选择一个头部半径,则通过耳机播放相应的声音序列给实验 者,当声像角度较大时,调小头部半径,声像角度较小时,调大头部半径,直到所获得声像与 目标声像接近设定值,得到个性化的滤波器参数。
[0014]S2中根据HRTF幅度谱的形态特征建立PUNl和N2三个滤波器,所述九维参数矢 量决定滤波器的形态,所述九维参数矢量中的元素从左到右依次为Pl滤波器的中心频率、 Pl滤波器的3dB带宽、Pl滤波器的频谱峰高度、Nl滤波器的中心频率、Nl滤波器的3dB带 宽、Nl滤波器的频谱谷深度、N2滤波器的中心频率、N2滤波器的3dB带宽、N2滤波器的频 谱谷深度;
[0015]S2中播放种群个体所对应的声像具体采用如下方式:
[0016]S21 :200ms白噪声序列经过九维滤波器参数矢量中前3个参数决定的Pl滤波器, 从而融入HRTF的第一个频谱峰信息;所述Pl滤波器的形式采用如下公式(10) (11)、(7)、 (8)、(9)所示:
[0022] 其中:fs为采样频率,fc为频谱峰或频谱谷的中心频率,fB为频谱峰或者频谱谷 的3dB带宽,D为频谱峰的高度或者频谱谷的深度;
[0023] S22:经过由参数矢量中中间3个参数决定的Nl滤波器,融入HRTF的第一个频谱 谷信息,Nl滤波器形式如公式(5)、(6)、(7)、(8)、(9)所示,其中(5)、(6)公式如下所示:
[0027]S23:经过由参数矢量中最后3个参数决定的N2滤波器,融入HRTF的第二个频谱 谷信息,N2滤波器形式如上述公式(5)、(6)、(7)、(8)、(9)所示,此时垂直方位信息融入完 成,接下来融入水平方位信息;
[0028]S24.将融合有垂直方向信息的声音序列,经过头部阴影滤波器,并将声音序列加 入相应的延时,即得到播放所需最终声音序列,并通过耳机播放给实验者:
[0029] 头部阴影滤波器如公式(1)、(3)所示,附加的延时如公式(4)所示:
[0032]其中,c为声速340m/s;a为头部半径,是可调参数;fs为采样频率,参数a由入 射角9来决定,定义如下式,式中〇_和0 _分别取0.1和150°,入射角0为
[0036]S25:通过实验者试听各个个体的滤波效果,来确定个体间及目标声像的相对位 置,从而将个体安排到相应的位置里;
[0037]S26.计算个体所对应声像位置到目标声像位置的距离,并除以距离之和,作为适 应度;
[0038]S27.对第N个个体,计算前N个适应度之和,作为该个体区间下界,前一个个体的 区间下界为该个体区间上界,第一个个体的区间上界为〇。
[0039]S3具体采用如下方式:
[0040]S31:获得一个0到1之间的均匀分布随机数;
[0041] S32 :对该随机数分别累加 0、0? 125、0. 250、0. 375、0. 500、0. 625、0. 750、0. 875 从 而得到八个数字,如果数字大于1的则对该数字减去1 ;
[0042]S33:检查八个随机数落在的具体区间,标记落在的区间,如果某个区间被选择多 次,则复制多次,选择操作后,共存在8个个体。
[0043]S4具体采用如下方式:
[0044]S41:从保留下的个体中随机选择两个个体作为父代;
[0045]S42:随机选择一个位置作为交叉点,交叉点将两个个体矢量分为两部分;
[0046]S43:获得一个随机数决定是否进行交叉,如果是,那么两个父代交换相应部分得 到子代。
[0047]S5具体采用如下方式: