一种采用核化听觉模型的单通道声源分离方法

文档序号：30947530发布日期：2022-07-30 05:56阅读：来源：国知局

技术特征：
1.一种采用核化听觉模型的单通道声源分离方法，所述方法包括：将混合声源信号输入编码器，输出隐藏空间矩阵；将隐藏空间矩阵输入声源分离器，输出待分离声源信号的掩蔽矩阵；将隐藏空间矩阵和掩蔽矩阵进行点乘，得到待分离声源信号在隐藏空间的估计值；将估计值输入解码器，输出分离后的目标信号波形；其中，所述编码器和解码器均采用核化听觉模型；所述声源分离器采用基于一维时域卷积的源分离模型，所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。2.根据权利要求1所述的采用核化听觉模型的单通道声源分离方法，其特征在于，所述编码器包括：模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器，且顶部滤波器被调整的耳蜗增益函数加权；则编码器的频率函数w(f)的表达式为：w(f)＝w
tail
(f)+w
lin
·
w
tip
(f)其中，w
tail
(f)和w
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数，w
lin
是顶部滤波器相对于尾部滤波的增益；该增益和基底膜的i/o增益函数相关；i/o增益函数w
db
可以表示为：a＝-0.0894
·
g
max
+10.89b＝1.1789
·
g
max-11.789其中，c表示输入信号强度，g
max
是耳蜗放大器的最大增益，以db为单位；顶部滤波器表示为频率f和三个参数{f
c
，p
l
，p
u
}的函数：w
tip
(f)＝r
x
(f；f
c
，p
l
，p
u
)顶部滤波器的低频边和高频边的表达式为：其中，f
c
为顶部滤波器中心频率，g＝|f-f
c
|/f
c
是一个标准化的频率变量，描述了中心频率f
c
到掩蔽噪声边相对中心频率的距离；d
c
＝[erb
n
(1000)]/[erb
n
(f
c
)]
·
(f
c
/1000)，将到中心频率f
c
的间隔表达为相对中心频率erb
n
的值，d
c
被标准化为在f
c
＝1000hz时等于1；p
l
和p
u
决定了顶部滤波器低频边和高频边的尖锐程度；erb
n
(f)是在频率f处的erb
n
值；erb
n
表示听觉滤波器的等价直角带宽，erb
n
(f)＝6.23
·
f2+93.39
·
f+28.52；尾部滤波器表示为频率f和三个参数{f
c
/f
rat
，t
l
，t
u
}的函数：w
tail
(f)＝r
x
(f；f
c
/f
rat
，t
l
，t
u
)其中，t
l
和t
u
决定了尾部滤波器低频边和高频边的尖锐度；顶部滤波器的中心频率可以根据信号的强度相对尾部滤波器的中心频率进行调整，f
rat
表示这两个滤波器的中心频率之比；{f
rat
，p
l
，p
u
，g
max
}是p
rxp
的线性函数，则它们可以表示为如下形式：
p
l
＝p
l(0)
+p
l(1)-p
rxp
；；其中，p
rxp
表示探测音加掩蔽音在中心频率为探测频率处的尾部滤波器的输出级，以db为单位；以上函数的截距和斜率分别为则编码器的滤波器w(f)由参数θ唯一确定，其中则编码器的滤波器w(f)由参数θ唯一确定，其中3.根据权利要求2所述的采用核化听觉模型的单通道声源分离方法，其特征在于，所述解码器的滤波器的参数和编码器的滤波器的参数相同。4.根据权利要求3所述的采用核化听觉模型的单通道声源分离方法，其特征在于，所述编码器和解码器的训练过程具体包括：生成混合信号其中和均为干净源信号，α和β表示混合系数；l为信号的长度参数；将和输入编码器，输出三个隐藏空间向量输入编码器，输出三个隐藏空间向量和d为维度参数；将通过softmax层，估计出对应的第一掩蔽矩阵和第二掩蔽矩阵和第二掩蔽矩阵和第二掩蔽矩阵和第二掩蔽矩阵和第二掩蔽矩阵计算第一估计第二估计将第一估计和第二估计输入解码器，重建出干净源信号的估计和采用尺度无关信号损失比作为代价函数采用尺度无关信号损失比作为代价函数其中，t表示转置运算；||
·
||表示2-范数运算；矩阵矩阵利用反向传播和upit算法更新编码器和解码器的参数，直至代价函数收敛。5.根据权利要求4所述的采用核化听觉模型的单通道声源分离方法，其特征在于，所述声源分离器的训练过程具体包括：固定训练好的编码器和解码器，混合信号输入到训练好的编码器，输出隐藏空间矩阵将隐藏空间矩阵输入声源分离器；
声源分离器对输入的进行掩蔽估计，得到第三掩蔽矩阵和第四掩蔽矩阵将第三掩蔽矩阵和第四掩蔽矩阵分别与作对应元素点乘
⊙
，得到第三估计和第四估计采用隐藏空间中的代价函数si-sdr：其中，t表示转置运算；是理想掩蔽分离出的源信号在隐藏空间中的表示；矩阵利用反向传播和upit算法更新声源分离器的参数，直至代价函数收敛。

技术总结
本发明公开了一种采用核化听觉模型的单通道声源分离方法，所述方法包括：将混合声源信号输入编码器，输出隐藏空间矩阵；将隐藏空间矩阵输入声源分离器，输出待分离声源信号的掩蔽矩阵；将隐藏空间矩阵和掩蔽矩阵进行点乘，得到待分离声源信号在隐藏空间的估计值；将估计值输入解码器，输出分离后的目标信号波形；其中，所述编码器和解码器均采用核化听觉模型；所述声源分离器采用基于一维时域卷积的源分离模型，所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。本发明的方法在编码器和解码器中引入了模型偏置，有效减少了模型参数，极大降低了模型复杂度。极大降低了模型复杂度。极大降低了模型复杂度。

技术研发人员：胡琦国雁萌颜永红
受保护的技术使用者：中国科学院声学研究所
技术研发日：2021.01.28
技术公布日：2022/7/29

完整全部详细技术资料下载

当前第2页1 2