1.本技术实施例涉及语音分离领域,具体涉及一种多通道双说话人分离方法及系统。
背景技术:2.语音分离的目标是将不同说话人从带有混响和噪声的混合语音音频中分离出来,得到干净的单独说话人的语音。语音分离作为语音识别系统、语音日志等技术的前端,在教学环境、会议环境等多种环境下都有广泛的应用。
3.深度聚类是一种传统的语音分离方法。它通过训练目标说话人在混合语音音频上的理想二值掩蔽,得到目标说话人的分离语音。在训练过程中,需要对每一个时频单元进行向量化,进而将距离相近的时频单元聚类在一起。但对于不同语音环境的影响,深度聚类的性能十分有限。
4.近年来,基于深度神经网络的语音分离模型在语音分离领域迅速发展,性能已远超传统方法。但目前,大多数实验研究的仍然是基于完全重叠的混合语音音频的语音分离,对于会议等单个说话人占主导的语音环境有所忽略。研究显示,在会议环境下,说话人重叠的比例一般不高于20%,因此,对于不同低说话人重叠比例的语音分离,鲁棒性能仍有待提升。另一方面,对于不同说话人重叠比例的混合语音音频,无法预先得知目标说话人在语音中的具体位置,神经网络训练的输入只能是整个语音。这种情况下,如果使用平均池化,干扰说话人语音以及静音帧会严重影响目标说话人位置信息的估计,进而使语音分离的性能降低。
技术实现要素:5.本技术实施例的目的在于对于低说话人重叠比例的混合语音音频减小目标说话人位置估计产生的偏差,提升语音分离的鲁棒性和分离性能。
6.第一方面,本技术实施例提供了一种多通道双说话人分离方法包括:对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱;所述混合语音音频为包括不同说话人重叠比例的混合语音音频;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计,所述目标说话人的笛卡尔坐标估计指示加权的所述目标说话人的声源位置估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到第一目标说话人掩蔽和第一干扰说话人掩蔽;基于所述第一目标说话人掩蔽和第一干扰说话人掩蔽和所述混合语音音频,得到目标说话人语音和干扰说话人语音。
7.在一个可行的实施方式中,所述方法还包括:确定混合语音音频的训练集,基于所述混合语音音频的训练集确定训练语音音频及标签;所述标签包括声源位置向量、第二目
标说话人语音和第二干扰说话人语音;根据所述训练语音音频训练声源位置估计网络;训练说话人掩蔽估计网络;联合训练声源位置估计网络和说话人掩蔽估计网络,获得训练好的声源位置估计网络和说话人掩蔽估计网络。
8.在一个可行的实施方式中,所述标签包括声源位置向量,根据所述训练语音音频训练声源位置估计网络,包括:对所述训练语音音频进行分帧、加窗和傅里叶变换处理,得到所述训练语音音频的频谱;所述训练语音音频的频谱包括实部和虚部;以所述实部和虚部拼接后的数据为所述声源位置估计网络的输入,以声源位置向量估计为输出,计算第一损失函数的值,所述第一损失函数为声源位置的均方误差;以所述第一损失函数的值在第一阈值以内为目标进行训练,得到训练好的所述声源位置估计网络和对应的权重向量;所述声源位置估计网络包括3层卷积模块、2层双向长短时记忆网络和2层全连接层。
9.在一个可行的实施方式中,所述训练说话人掩蔽估计网络,包括:根据所述训练语音音频和所述声源位置向量确定第二角度特征、第二对数能量谱和第二正余弦通道间相位差;以所述第二角度特征、第二对数能量谱和第二正余弦通道间相位差为输入,以第二目标说话人掩蔽和第二干扰说话人掩蔽为输出,计算所述第二目标说话人掩蔽与所述训练语音音频相乘的积,得到估计说话人语音信号;计算所述第二干扰说话人掩蔽与训练语音音频相乘的积,得到估计干扰说话人语音信号;计算第二损失函数的值,所述第二损失函数的值为估计语音信号与目标语音信号损失比值的对数值;所述估计语音信号包括估计说话人语音信号和估计干扰说话人语音信号;所述目标语音信号包括第二目标说话人语音和第二干扰说话人语音;以第二损失函数的值在第二阈值以内为目标进行训练,得到训练好的所述说话人掩蔽估计网络,所述说话人掩蔽估计网络包括3层双向长短时记忆网络和2个单独的全连接层。
10.在一个可行的实施方式中,所述标签包括声源位置向量、第二目标说话人语音和第二干扰说话人语音,所述联合训练声源位置估计网络和说话人掩蔽估计网络,包括:组合声源位置估计网络和说话人掩蔽估计网络,损失函数设定为声源位置估计的均方误差和尺度不变
‑
信损比误差之和,所述尺度不变
‑
信损比为说话人分离结果的尺度不变的比值,对两个网络进行联合训练微调。其中,所述估计语音信号为所述第二目标说话人掩蔽和第二干扰说话人掩蔽与所述训练语音音频相乘的积;所述目标语音信号为所述第二目标说话人语音和第二干扰说话人语音。
11.在一个可行的实施方式中,所述根据估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计,包括:根据所述估计的帧级别笛卡尔坐标和对应权重进行softmax操作,计算加权的声源位置估计,得到所述混合语音音频中目标说话人的笛卡尔坐标。
12.在一个可行的实施方式中,所述根据所述目标说话人笛卡尔坐标得到第一角度特征,包括:根据所述目标说话人笛卡尔坐标与麦克风拓扑结构的笛卡尔坐标的差值确定目标说话人的导向矢量;所述麦克风拓扑结构的笛卡尔坐标基于麦克风阵列的坐标系得到;根据所述目标说话人的导向矢量和m个通道混合语音音频的频谱计算得到角度特征,m取值为自然数。
13.第二方面,本技术实施例提供了一种多通道双说话人分离系统,所述系统包括:信号处理模块,用于对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧的频谱;所
述混合语音音频至少包括两个说话人语音;特征提取模块,用于根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;声源位置加权处理模块,用于根据估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计,所述目标说话人的笛卡尔坐标估计指示加权的所述目标说话人的声源位置估计;角度特征计算模块,用于根据所述目标说话人的笛卡尔坐标得到第一角度特征;说话人分离模块,用于根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到第一目标说话人掩蔽和第一干扰说话人掩蔽;基于所述第一目标说话人掩蔽、第一干扰说话人掩蔽和所述混合语音音频,得到得到目标说话人语音和干扰说话人语音。
14.第三方面,本技术实施例提供了一种电子装置,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行第一方面任意一项所述方法。
15.第四方面,本技术实施例提供了一种存储介质,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现第一方面任意一项所述方法。
附图说明
16.为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
17.图1为本技术实施例实施例提供的一种多通道双说话人分离方法流程图;
18.图2为本技术实施例一种多通道双说话人分离方法中神经网络模块训练流程图。
19.图3为本技术实施例一种多通道双说话人分离系统框图;
20.图4为本技术实施例提供的电子装置示意图。
具体实施方式
21.下面通过附图和实施例,对本技术实施例的技术方案做进一步的详细描述。
22.角度特征对说话人分离系统具有十分重要的作用。提取角度特征的前提是需要知道目标说话人的位置信息,但大多数情况下,这一信息是未知的。因此,对位置信息的有效估计是必要的。
23.基于此本技术实施例实施例提出一种多通道双说话人分离方法,对于低说话人重叠比例的混合语音音频,基于加权声源位置估计识别双说话人语音,该方法包括s11
‑
s17。
24.s11,获得混合语音音频,混合语音音频包括两个说话人语音;对混合语音音频进行分帧、加窗和傅里叶变换处理,得到混合语音音频每帧音频的频谱;该混合语音音频为包括低说话人重叠比例的混合语音音频。
25.s12,根据每帧音频的频谱和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重。
26.s13,根据估计的帧级别笛卡尔坐标和对应权重,加权计算得到所述混合语音音频中目标说话人的笛卡尔坐标估计,所述笛卡尔坐标估计为加权的声源位置估计。
27.s14,根据所述目标说话人笛卡尔坐标提取角度特征,可以将此角度特征记为第一角度特征。
28.s15,根据所述混合语音音频的频谱提取对数能量谱和正余弦通道间相位差。其中,对数能量谱由中心点麦克风的频谱计算得到,代表了语音信号的标准谱特征;通道间相位差能够捕捉声源传递到不同麦克风间的微小变化,是一个有用的空间信息,通道间相位差计算过程为:
[0029][0030]
式(1)中和分别表示混合语音音频在时间t和频率单元f处,麦克风1和麦克风2的傅里叶变换值,φ
t,f
为时间t和频率单元f处麦克风1和麦克风2之间的相位差。
[0031]
可以将该对数能量谱和正余弦通道间相位差分别记为第一对数能量谱和第一正余弦通道间相位差。
[0032]
s16,根据所述角度特征、对数能量谱和正余弦通道间相位差和说话人掩蔽估计网络计算得到目标说话人掩蔽估计和干扰说话人掩蔽估计;可以将该目标说话人掩蔽估计记为第一目标说话人掩蔽,将干扰说话人掩蔽估计记为第一干扰说话人掩蔽。
[0033]
s17,基于目标说话人掩蔽估计、干扰说话人掩蔽估计和混合语音音频进行语音分离,得到目标说话人语音和干扰说话人语音。
[0034]
在本技术实施例提出的一种多通道双说话人语音分离方法中,神经网络模块包括声源位置估计神经网络和说话人掩蔽估计神经网络;对声源位置估计神经网络和说话人掩蔽估计神经网络先分别训练,再进行联合训练,训练的流程包括以下步骤s21
‑
s24。
[0035]
s21,基于混合语音音频训练集确定训练语音音频及标签;获得训练语音频谱。
[0036]
在一个可行的实施方式中,建立混合语音音频训练集,标签用于记录该训练语音音频的声源位置向量、说话人语音和干扰说话人语音;可以将说话人语音和干扰说话人语音记为第二目标说话人语音和第二干扰说话人语音。确定训练语音音频及标签,对训练语音音频进行分帧、加窗和傅里叶变换处理,得到训练语音频谱;训练语音频谱包括实部和虚部。
[0037]
s22,根据训练语音频谱训练声源位置估计网络。
[0038]
在一个可行的实施方式中,以训练语音频谱的实部和虚部拼接后的数据为声源位置估计网络的输入,以声源位置向量估计为输出,计算声源位置的均方误差;以所述均方误差的值在设定的阈值以内为目标进行训练,得到训练好的声源位置估计网络和对应的权重向量。
[0039]
可以将声源位置的均方误差记为第一损失函数。声源位置的均方误差可以根据网络输出的声源位置向量估计与标签记录的声源位置向量的均方误差计算获得。将该设定的阈值记为第一阈值。
[0040]
声源位置估计网络的输入是训练语音音频经傅里叶变换后得到的频谱的实部和虚部的拼接。声源位置估计网络包括3层卷积模块、2层双向长短时记忆网络和2层全连接层。其中每层卷积模块包括二维卷积层、线性整流函数、批归一化处理层和最大值池化层。二维卷积层的输出节点数为64,卷积核大小、步幅和填充分别为(3,3),(1,1)和(1,1)。最大
值池化层的窗口大小分别为(8,1),(4,1)和(4,1)。双向长短时记忆网络的隐藏层节点数为64。全连接层的输出节点数分别为429和4。网络最终的输出数据的维度为b
×
t
×
4,b表示输出数据的大小,t表示输出数据的语音帧数。输出数据为估计的帧级别的声源位置向量和对应的权重向量。
[0041]
s23,训练说话人掩蔽估计网络。
[0042]
在一个可行的实施方式中,可以根据标签记录的声源位置向量确定第二角度特征,根据训练语音频谱得到第二对数能量谱和第二正余弦通道间相位差;以第二角度特征、第二对数能量谱和第二正余弦通道间相位差为输入,以说话人掩蔽估计和干扰说话人掩蔽估计为输出,并计算估计语音信号,该估计语音信号为说话人掩蔽估计和干扰说话人掩蔽估计分别与所述训练语音音频相乘的积。在训练过程中计算尺度不变
‑
信损比误差,通过训练得到训练好的说话人掩蔽估计网络,说话人掩蔽估计网络包括3层双向长短时记忆网络和2个单独的全连接层。
[0043]
尺度不变
‑
信损比为估计语音信号与目标语音信号s损失比值的对数,尺度不变
‑
信损比l为:
[0044][0045]
式(2)中s为目标语音信号,目标语音信号是已知值,是标签记录的组成训练语音音频的两条单独的语音,也是网络的训练目标;表示估计语音信号,估计语音信号由估计的掩蔽与输入的训练语音音频(即网络的输入语音)相乘得到;α为尺度因子,为确保信损比的尺度α不变形,尺度因子α为:
[0046][0047]
loss=
‑
|l
tgt
‑
l
est
|
ꢀꢀꢀ
(4)
[0048]
式(4)中l
tgt
为目标语音信号的尺度不变
‑
信损比,l
est
为估计语音信号的尺度不变
‑
信损比,loss为尺度不变
‑
信损比误差。
[0049]
可以将该说话人掩蔽估计记为第二目标说话人掩蔽,该干扰说话人掩蔽估计记为第二干扰说话人掩蔽,将尺度不变
‑
信损比误差记为第二损失函数。
[0050]
在一个可行的实施方式中,可以计算第二目标说话人掩蔽与训练语音音频相乘的积,得到估计说话人语音信号;计算第二干扰说话人掩蔽与训练语音音频相乘的积,得到估计干扰说话人语音信号;计算尺度不变
‑
信损比误差;其中估计语音信号包括估计说话人语音信号和估计干扰说话人语音信号,目标语音信号包括第二目标说话人语音和第二干扰说话人语音;以第二损失函数的值在第二阈值以内为目标进行训练,得到训练好的说话人掩蔽估计网络。
[0051]
s24,联合训练声源位置估计网络和说话人掩蔽估计网络,对两个网络进行微调,使得损失函数的值最小。
[0052]
在一个可行的实施方式中,组合训练好的声源位置估计网络和训练好的说话人掩蔽估计网络,损失函数设定为声源位置的均方误差和尺度不变
‑
信损比误差之和,对两个网络进行微调,直至损失函数的值最小。可以将该损失函数记为第三损失函数。
[0053]
训练结束后得到理想的声源位置估计网络和说话人掩蔽估计网络可以用于多通
道双说话人语音分离。下面通过一个实施例对本技术实施例提出的一种多通道双说话人语音分离方法进行说明。
[0054]
实施例1
[0055]
基于上述理想的声源位置估计网络和说话人掩蔽估计网络,本技术实施例提供的一种多通道双说话人分离方法,该方法包括:
[0056]
s31,获得包括两个说话人语音的混合语音音频,对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱。
[0057]
在一个可行的实施方式中,包括以下步骤s311
‑
s313:
[0058]
s311,对待分离的混合语音音频进行分帧,每帧25毫秒,帧移6.25毫秒;
[0059]
s312,对每帧进行加窗,窗函数为汉明窗;
[0060]
s313,对每帧音频做512点傅里叶变换,得到每帧音频的频谱。
[0061]
s32,将每帧音频的频谱输入训练好的声源位置估计网络,输出为估计的帧级别笛卡尔坐标和对应权重向量其中为在时间t处音频的笛卡尔坐标,w
t
为对应权重。
[0062]
s33,根据估计的帧级别笛卡尔坐标和对应权重w
t
,得到输入混合语音音频中估计的目标说话人的笛卡尔坐标估计。
[0063]
在一个可行的实施方式中,对估计的帧级别位置信息和对应权重进行softmax操作,计算加权的声源位置估计:
[0064][0065]
式(5)中t为混合语音音频的分帧数量,e表示自然对数的底数,为估计的目标说话人的笛卡尔坐标。
[0066]
s34,根据估计的目标说话人笛卡尔坐标计算角度特征,该角度特征记为第一角度特征。
[0067]
在一个可行的实施方式中,根据估计的目标说话人笛卡尔坐标计算角度特征为:
[0068][0069]
式(6)m为通道数量,表示混合语音音频在时间t和频率单元f处通道m下的频谱;表示频率单元f处通道m下目标说话人的导向矢量,取值为估计的目标说话人笛卡尔坐标与麦克风拓扑结构的笛卡尔坐标的差值;在训练和测试过程中,麦克风阵列是固定不变的,这是一个已知量。可以以0号麦克风为原点,0号和1号麦克风的连线为x轴,即可建立坐标系,进而得到每个麦克风的笛卡尔坐标。
[0070]
示例性地,通道数量m取值为4,包括通道0、通道1、通道2、通道3。
[0071]
s35,根据混合语音频谱计算对数能量谱和正余弦通道间相位差。将该对数能量谱
记为第一对数能量谱,正余弦通道间相位差记为第一正余弦通道间相位差。
[0072]
需要理解的是,傅里叶变换针对的是整条语音,混合语音频谱是连续的每一帧语音音频组成的频谱。
[0073]
在一个可行的实施方式中,根据混合语音频谱计算可以得到257维的对数能量谱和正余弦通道间相位差。
[0074]
示例性地,通道数量为4个,通道0、通道1、通道2、通道3,4个通道间相位差采取的通道对为(0,1)、(0,2)和(0,3)。
[0075]
s36,将第一角度特征、第一对数能量谱和第一正余弦通道间相位差输入训练好的说话人掩蔽估计网络,得到目标说话人掩蔽估计和干扰说话人掩蔽估计。其中,说话人掩蔽估计表示一个与输入混合语音音频维度相同的向量,其中每个元素在0到1之间,表示在每一个时频点上,说话人在输入混合语音音频中占有的成分比例。此处可以得到目标说话人掩蔽估计和干扰说话人掩蔽估计共2个说话人掩蔽估计。
[0076]
在一个可行的实施方式中,将步骤s35、s36得到的角度特征、对数能量谱和正余弦通道间相位差输入训练好的说话人掩蔽估计网络中。该说话人掩蔽估计网络包括3层双向长短时记忆网络和2个单独的全连接层。双向长短时记忆网络的隐藏层节点数为512,dropout比率为0.4。全连接层的输出节点数为256。2个单独的全连接层分别输出目标说话人掩蔽估计和干扰说话人掩蔽估计。
[0077]
s37,基于目标说话人掩蔽估计、干扰说话人掩蔽估计和混合语音音频,得到两个分离语音。
[0078]
在一个可行的实施方式中,根据步骤s37中的目标说话人掩蔽估计和干扰说话人掩蔽估计,与混合语音音频的频谱进行逐元素的乘积,得到两个说话人在频域上的分离信号。对这两个分离信号进行逆傅里叶变换,得到最终估计的两个说话人时域上的分离语音。
[0079]
需要理解的是,实验目标为说话人分离,当混合语音中包含两个说话人如目标说话人和干扰说话人时,需要分别得到这两个说话人语音掩蔽,与原输入混合语音信号相乘,得到估计的两个说话人时域上的分离语音。
[0080]
本技术实施例的系统基于加权声源位置估计,降低了混合语音音频中干扰说话人和静音帧对声源位置估计的影响;基于加权声源位置估计和多通道双说话人分离的联合训练增强了对于不同重叠比例的双说话人语音分离的鲁棒性,提升语音分离系统的性能。
[0081]
本技术实施例中的方法和系统是针对双说话人的,对于更多说话人,具有可扩展性,也依然适用,但需要对神经网络输出节点数进行对应的修改,且性能可能会下降。
[0082]
如图3所示,本技术实施例提出了一种多通道双说话人分离系统,该系统包括:信号处理模块41、特征提取模块42、神经网络模块43、声源位置加权处理模块44、角度特征计算模块45、说话人分离模块46。
[0083]
其中,信号处理模块41获得混合语音音频,该混合语音音频包括两个说话人语音;对该混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱。该混合语音音频为时域信号。
[0084]
特征提取模块42将每帧音频的频谱输入训练好的声源位置估计网络,输出为估计的帧级别笛卡尔坐标和对应权重向量;根据所述混合语音音频的频谱得到第一对数能量谱和第一正余弦通道间相位差。
[0085]
声源位置加权处理模块43将声源位置估计神经网络输出的帧级别的笛卡尔坐标和对应权重进行softmax操作,得到估计目标说话人的笛卡尔坐标;该估计目标说话人的笛卡尔坐标用于指示声源位置信息。
[0086]
角度特征计算模块44将估计目标说话人的笛卡尔坐标转换为第一角度特征。
[0087]
说话人分离模块45根据第一角度特征、第一对数能量谱和第一正余弦通道间相位差和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于目标说话人、第一估计的说话人掩蔽和混合语音音频,得到分离语音。
[0088]
本技术实施例提出的一种多通道双说话人语音分离方法和系统,对于不同低说话人重叠比例的语音分离,具有较好的鲁棒性。本技术的方法采用角度特征对说话人分离,通过获取目标说话人的位置信息提取角度特征,对位置信息进行了有效估计。对于不同说话人重叠比例的混合语音音频,可以预先得知目标说话人在语音中的具体位置,能够有效避免传统神经网络由于使用平均池化,干扰说话人语音以及静音帧对目标说话人位置信息的严重偏差导致的语音分离的性能降低问题。本技术实施例提出的一种多通道双说话人语音分离方法大大提高语音分离的性能。
[0089]
如图4所示,本技术实施例提供一种电子装置1100,包括处理器1101和存储器1102;处理器1101用于执行所述存储器1102所存储的计算机执行指令,处理器1101运行计算机执行指令执行上述任意实施例所述的方法。
[0090]
本技术实施例提供一种存储介质1103,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意实施例所述方法。
[0091]
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0092]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd
‑
rom、或技术领域内所公知的任意其它形式的存储介质中。
[0093]
以上所述的具体实施方式,对本技术实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术实施例的具体实施方式而已,并不用于限定本技术实施例的保护范围,凡在本技术实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术实施例的保护范围之内。