一种基于hrtf结构化模型与主观反馈的个性化方法

文档序号：9251323阅读：478来源：国知局

一种基于hrtf结构化模型与主观反馈的个性化方法
【技术领域】
[0001] 本发明涉及一种基于HRTF结构化模型与主观反馈的个性化方法。
【背景技术】
[0002] 空间某点发出的声音传递到人耳时，会与人的头部、耳廓、肩膀和躯干等发生一系列的衍射、吸收、反射等相互作用，若将这种作用看作是一滤波过程，其传递函数则称为头相关传递函数。（Head-RelatedTransferFunction，HRTF)，HRTF包含了人耳定位所需的一些必要信息，如双耳时间差（InterauralTimeDifference,ITD)、双耳声压强度差 (InterauralLevelDiferrence,ILD)、频谱信息（SpectralCues)等，其中ITD和ILD为水平角度定位提供重要信息，而频谱信息则有助于分辨上下方向和前后方向的声音。显然， HRTF随声源位置而改变，且每个人的HRTF也互不相同。将声源信号与HRTF卷积后播放，可使听者感觉到声音是从HRTF所对应的空间位置发出的，这是一种虚拟3D立体声合成技术。若能精确测量每个听者的个性化HRTF，则可以获得很好的3D音效。由于测量环境和设备的限制，实际中很难直接测量个性HRTF，多以典型的HRTF代替。
[0003] 由于听者的HRTF与典型HRTF常常不匹配，这样往往产生较大的定位误差，并出现头中定位、前后混淆和仰角误差等现象，从而导致3D声音定位性能下降，这也是3D音频系统能否得到实际应用的瓶颈之一。
[0004] 现有技术中，Romighm仅使用中垂面若干位置的实测HRTF，通过EM算法获得球面上某个频点的HRTF球表面谐波分解系数，从而合成个性化HRTF幅度谱，进而用HRTF最小相位模型合成完整的HRTF。该方法需用已有HRTF数据库训练EM模型，而双耳时间差信息 (ITD)也可用同样的方式得到个性化数据。虽然该技术大大减少所需要测量的HRTF的个数，减少测量工作量，但依旧需要测量中垂面上的实际HRTF，难以摆脱对测量设备的依赖，因此总体成本依旧很高，难以得到普及应用。
[0005] ashizu等⑵将头相关单位脉冲响应（Head-RelatedImpulseResponse，HRIR)建模为自回归滑动平均（AutoRegressiveMovingAverage,ARMA)模型，使一个具有128个数据的HRIR压缩为47个MA系数和12个AR系数（合计59个数据）进行表示，从而减少了需要进行调节的参数个数，然后不断向实验者播放经过HRIR滤波的声音，利用实验者所判定的声源方向等听觉反馈，作为Actor-Critic自适应增强学习系统对ARMA参数进行调节的依据，进而得到新的HRIR再次进行新一轮调节；实验中，利用相对目标HRIR的频谱失真来模拟实验者反馈，平均在400次迭代内可以得到较好的个性化效果。该技术使用ARMA 模型对HRIR建模，所得系数个数59个，个数过多，不利于搜索优化过程的快速收敛。从而搜索迭代次数过多，使得难以利用主观反馈进行个性化工作，可操作性低。

【发明内容】

[0006] 本发明针对现有的HRTF个性化方法对测量设备有依赖性，无需测量设备的个性化方法对HRTF的建模方法的系数个数过多从而导致搜索空间大难以收敛等问题从而公开了一种基于HRTF结构化模型与主观反馈的个性化方法，包括以下步骤：
[0007]Sl:实验者选取个性化定制的方向，生成初始种群：使用八个预先选定的由中心频率、3dB带宽以及频谱峰高度或频谱谷深度所合成的九维滤波器参数矢量作为初始种群；
[0008]S2:获得种群中个体的适应度及个体区间：播放种群个体所对应的声像，实验者试听每个种群个体的滤波效果，来确定个体区间及目标声像的相对位置；
[0009]S3:对包含八个个体的种群进行选择操作，使用随机通用采样进行选择操作；
[0010]S4:对包含八个个体的种群进行交叉操作，使用单点交叉方式进行交叉，每个个体只参与一次交叉操作；
[0011]S5:对包含八个个体的种群进行变异操作；
[0012]S6:步骤S2、S3、S4、S5不断迭代，直到实验者感知的声像与目标声像一致，进行 S7 ；
[0013]S7:垂直方向个性化结束后，进行水平方向个性化：指定垂直角为0°，水平角为 30°，改变头部半径数值，每选择一个头部半径，则通过耳机播放相应的声音序列给实验者，当声像角度较大时，调小头部半径，声像角度较小时，调大头部半径，直到所获得声像与目标声像接近设定值，得到个性化的滤波器参数。
[0014]S2中根据HRTF幅度谱的形态特征建立PUNl和N2三个滤波器，所述九维参数矢量决定滤波器的形态，所述九维参数矢量中的元素从左到右依次为Pl滤波器的中心频率、 Pl滤波器的3dB带宽、Pl滤波器的频谱峰高度、Nl滤波器的中心频率、Nl滤波器的3dB带宽、Nl滤波器的频谱谷深度、N2滤波器的中心频率、N2滤波器的3dB带宽、N2滤波器的频谱谷深度；
[0015]S2中播放种群个体所对应的声像具体采用如下方式：
[0016]S21 :200ms白噪声序列经过九维滤波器参数矢量中前3个参数决定的Pl滤波器，从而融入HRTF的第一个频谱峰信息；所述Pl滤波器的形式采用如下公式（10) (11)、（7)、 (8)、（9)所示：
[0022] 其中：fs为采样频率，fc为频谱峰或频谱谷的中心频率，fB为频谱峰或者频谱谷的3dB带宽，D为频谱峰的高度或者频谱谷的深度；
[0023] S22:经过由参数矢量中中间3个参数决定的Nl滤波器，融入HRTF的第一个频谱谷信息，Nl滤波器形式如公式（5)、（6)、（7)、（8)、（9)所示，其中（5)、（6)公式如下所示：
[0027]S23:经过由参数矢量中最后3个参数决定的N2滤波器，融入HRTF的第二个频谱谷信息，N2滤波器形式如上述公式（5)、(6)、（7)、（8)、（9)所示，此时垂直方位信息融入完成，接下来融入水平方位信息；
[0028]S24.将融合有垂直方向信息的声音序列，经过头部阴影滤波器，并将声音序列加入相应的延时，即得到播放所需最终声音序列，并通过耳机播放给实验者：
[0029] 头部阴影滤波器如公式（1)、（3)所示，附加的延时如公式（4)所示：
[0032]其中，c为声速340m/s;a为头部半径，是可调参数；fs为采样频率，参数a由入射角9来决定，定义如下式，式中〇_和0 _分别取0.1和150°，入射角0为
[0036]S25:通过实验者试听各个个体的滤波效果，来确定个体间及目标声像的相对位置，从而将个体安排到相应的位置里；
[0037]S26.计算个体所对应声像位置到目标声像位置的距离，并除以距离之和，作为适应度；
[0038]S27.对第N个个体，计算前N个适应度之和，作为该个体区间下界，前一个个体的区间下界为该个体区间上界，第一个个体的区间上界为〇。
[0039]S3具体采用如下方式：
[0040]S31:获得一个0到1之间的均匀分布随机数；
[0041] S32 :对该随机数分别累加 0、0? 125、0. 250、0. 375、0. 500、0. 625、0. 750、0. 875 从而得到八个数字，如果数字大于1的则对该数字减去1 ;
[0042]S33:检查八个随机数落在的具体区间，标记落在的区间，如果某个区间被选择多次，则复制多次，选择操作后，共存在8个个体。
[0043]S4具体采用如下方式：
[0044]S41:从保留下的个体中随机选择两个个体作为父代；
[0045]S42:随机选择一个位置作为交叉点，交叉点将两个个体矢量分为两部分；
[0046]S43:获得一个随机数决定是否进行交叉，如果是，那么两个父代交换相应部分得到子代。
[0047]S5具体采用如下方式：

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈喆;殷福亮;任鹏飞;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：一种多声道播放方法和系统的制作方法
上一篇：一种降低噪声的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。