单通道音乐人声分离中的多种特定乐器强化分离方法
【技术领域】
[0001] 本发明涉及单通道音乐的伴奏声和人声分离领域,特别是一种单通道音乐人声分 离中的多种特定乐器强化分离方法。
【背景技术】
[0002] 随着计算机信号处理技术和互联网技术的不断发展,单通道音乐的歌声分离越来 越受人们重视。由于人们在现实中能获得的音乐信号大部分是单通道音乐信号,很难得到 伴奏声和歌声分离的信号。然而拥有纯净的伴奏声和歌声在现实中又有着非常重要的作 用。单通道音乐人声分离技术在很多系统都会用到,如KTV系统中音乐伴奏的获得;音乐检 索系统中根据音乐内容来检索的系统特别是根据歌唱者的声音特质检索音乐、音乐推荐系 统中利用歌唱者声音特质来推荐音乐等等。不管是KTV系统中的伴奏获得、还是基于歌唱 者声音的音乐检索系统、抑或是基于歌唱者声音的音乐推荐系统;为了保证这些系统有较 好的性能,必须得到较为纯净的伴奏声或者歌声。然而,现在针对单通道音乐的歌声分离技 术还远远不能达到人耳系统的性能,因此对于该领域的研究还有很大的步伐要走。
[0003] 由于单通道音乐信号是极度欠定的,所以在对其进行歌声分离时可用的信息非常 少,这使得针对单通道音乐的歌声分离具有很大的挑战性。尽管,针对单通道语音的分离已 经有很大的成功,但由于歌声的特殊性,很多单通道语音分离技术并不能很好的应用到单 通道音乐歌声分离中。目前已经又很多基于歌声和伴奏的自身特征来进行分离。如基于音 高周期检测、低秩稀疏矩阵分解和基于信号重复。基于音高周期检测主要是利用人声的音 高周期来分离人声和伴奏声;而低秩稀疏矩阵则是认为伴奏是低秩的,人声是稀疏的,基于 这一认识提出了基于低秩稀疏矩阵分解的人声分离方法;最后基于信号重复主要利用伴奏 声的重复性来达到分离的目的。
[0004] 尽管已经有那么多的针对单通道音乐人声分离的方法被提出。然而,这些方法并 没有利用不同乐器的自身不同特性来强化分离这些乐器声。而且到目前为止都没有一种能 够对多种特定乐器声进行强化分离的人声分离系统被提出。而这样的一个系统具有很强的 扩展性,同时在理论上有会有很好的分离效果。所以本专利提出了单通道音乐人声分离中 的多种特定乐器强化分离方法,同时也解决了训练数据的来源问题。该系统简单灵活,同时 具有很好的实用性。
【发明内容】
[0005] 本发明的目的在于提供一种单通道音乐人声分离中的多种特定乐器强化分离方 法,以实现针对单通道音乐特性的歌声分离问题。
[0006] 为实现上述目的,本发明的技术方案是:一种单通道音乐人声分离中的多种特定 乐器强化分离方法,该方法对电吉他、单簧管、小提琴、钢琴、木吉他、风琴、长笛和小号共计 8种乐器进行强化分离,该强化分离是通过一层单乐器分离器和三层多乐器组合强化器实 现,其中,第一层多乐器组合强化器能够分离2类乐器声,即2类乐器组合强化器,第二层多 乐器组合强化器能够分离4类乐器声,即4类乐器组合强化器,第三层多乐器组合强化器能 够分离8类乐器声,即8类乐器组合强化器,具体步骤如下: 51 :利用傅里叶变换从待分离的单通道音乐片段获得特征; 52 :将从步骤Sl得到的特征作为已训练得到的多个单乐器分离器的输入,并得到多个 不同乐器分离结果; 53 :将从步骤S2得到的多个不同乐器分离结果进行两两组合得到4个组合结果,分别 作为已训练得到的4个不同的2类乐器组合强化器的输入,并得到4个2类乐器的分离结 果; 54 :将从步骤S3得到的4个2类乐器分离结果进行两两组合得到2个组合结果,分别 作为已训练得到的2个不同的4类乐器组合强化器的输入,并得到2个4类乐器的分离结 果; 55 :将从步骤S4得到的2个4类乐器分离结果进行组合,作为已训练得到的8类乐器 组合强化器的输入,并得到8类乐器的分离结果; 其中,2类乐器表示同时分离2种不同的乐器声,4类乐器表示同时分离4种不同的乐 器声,8类乐器表示同时分离8种不同的乐器声; 由上述步骤获得的伴奏声和歌声的特征得到伴奏声和歌声。
[0007] 在本发明一实施例中,所述步骤Sl中单通道音乐片段的特征的获得方式为:通过 傅里叶变换得到的长度为:『的单通道音乐片段归一化后的幅度谱;设输入为次:,则:?是大小 为:#*_的行向量,其中,Fs是该音乐片段的采样频率,!的取值为16ms至512ms。
[0008] 在本发明一实施例中,所述单乐器分离器由DRNN构成,且DRNN的输入大小为 3*(|*:痛/2+1),输出为"矜*2。
[0009] 在本发明一实施例中,所述多乐器组合强化器由BP神经网络构成,且BP神经网络 的输入大小为1:*叢_算,输出为_1|樣:。
[0010] 在本发明一实施例中,单乐器分离器训练样本的构建:构建训练样本 ,SSPi表示第i个单乐器分离器;对于第i个单乐器分离器的训练样本的构建按照如下方 法:将第i种乐器声与固定的人声混合得到;Twv,而】则包含两种独立的声音分别为第 i种乐器声和固定的人声。
[0011] 在本发明一实施例中,对于电吉他的单乐器分离器的学习,按照以下步骤实现: 步骤S71 :构建电吉他训练样本職; 步骤S72 :利用步骤S71得到的训练DRNN模型,从而得到电吉他的单乐器 分离器; 同理,可得单簧管、小提琴、钢琴、木吉他、风琴、长笛和小号的单乐器分离器。
[0012] 在本发明一实施例中,多乐器组合强化器学习,按照以下步骤实现: 步骤SSi:构建训练样本,週f/A表示该组合强化器能够分离k类乐器,i表 示第i个k类乐器组合强化器,每个k类乐器组合强化器能够分离k种不同的乐器,其中, i=l,. . .,n/k,k为2的指数倍;设一单通道音乐人声分离数据集HD,其中,Y包含独立 的伴奏和歌声,2类乐器组合强化器的训练集由JT分别通过n个单乐器分离器后生成的结 果两两组合后得到%;对于k类乐器组合强化器的训练集由書依次通过n个单乐器分离 器、已训练好的2类乐器组合强化器、已训练好的4类乐器组合强化器,以此类推,直至通过 已训练好的k/2类乐器组合强化器生成的结果两两组合得到寒_ ; 步骤S82 :训练k类乐器组合强化器;利用步骤S81的k类乐器分离器的训练集构建方 法得到的n/k个7 )训练BP模型,从而得到n/k个k类乐器组合强化器。
[0013] 在本发明一实施例中,所述2类乐器组合强化器的组合为:电吉他与单簧管、小提 琴与钢琴、木吉他与风琴、长笛与小号; 所述4类乐器组合强化器的组合为:电吉他、单簧管、小提琴、钢琴和木吉他、风琴、长 笛、小号; 所述8类乐器组合强化器的组合为:电吉他、单簧管、小提琴、钢琴、木吉他、风琴、长 笛、小号。
[0014] 在本发明一实施例中,所述步骤S5后,还包括一步骤,即对所述步骤S5获得的8 类乐器的分离结果去归一化,然后使用重叠相加法得到时域伴奏声和歌声 相较于现有技术,本发明具有以下有益效果:本发明提出了单通道音乐人声分离中的 多种特定乐器强化分离方法,该系统由单乐器分离器和多乐器组合强化器组成,能够实现 对大部分乐器和歌声的分离;考虑到音乐是一种时间序列信号,本发明利用DRNN作为单乐 器分离器的核心,为不同的单乐器分离器建立不同的DRNN模型;同时,由于不同的单乐器 分离器的输出结果不一样,我们用BP网络作为多乐器组合强化器的核心来实现多乐器的 分离;该方法简单,实现灵活,实用性较强。
【附图说明】
[0015] 图1为本发明单通道音乐人声分离中的多种特定乐器强化分离方法的流程图。
【具体实施方式】
[0016] 下面结合附图,对本发明的技术方案进行具体说明。
[0017] 如图1所示,本发明一种单通道音乐人声分离中的多种特定乐器强化分离方法, 该方法对电吉他、单簧管、小提琴、钢琴、木吉他、风琴、长笛和小号共计8种乐器进行强化 分离,该强化分离是通过一层单乐器分离器和三层多乐器组合强化器实现,其中,第一层多 乐器组合强化器能够分离2类乐器声,即2类乐器组合强化器,第二层多乐器组合强化器能 够分离4类乐器声,即4类乐器组合强化器,第三层多乐器组合强化器能够分离8类乐器 声,即8类乐器组合强化器,具体步骤如下(注:2类乐器表示同时分离2种不同的乐器声,4 类乐器表示同时分离4种不同的乐器声,8类乐器表示同时分离8种不同的乐器声): 51 :利用傅里叶变换从待分离的单通道音乐片段获得特征; 52 :将从步骤Sl得到的特征作为已训练得到的多个单乐器分离器的输入,并得到多个 不同乐器分离结果; 53 :将从步骤S2得到的多个不同乐器分离结果进行两两组合得到4个组合结果,分别 作为已训练得到的4个不同的2类乐器组合强化器的输入,并得到4个2类乐器的分离结 果; 54 :将从步骤S3得到的4个2类乐器分离结果进行两两组合得到2个组合结果,分别 作为已训练得到的2个不同的4类乐器组合强化器的输入,并得到2个4类乐器的分离结 果; S5 :将从步骤S4得到的2个4类乐器分离结果进行组合,作为已训练得到的8类乐器