基于乐音音色匹配的正弦模型分离方法
【技术领域】
[0001] 本发明涉及音频信号处理应用领域,具体涉及的是基于乐音音色匹配的正弦模 型分离方法。
【背景技术】
[0002] 现实生活中音频信号混合现象随处可见,混合乐音信号分离有益于更加有效的音 频编码、更为精确的音频信息分析,同时也利于对信号进行更加复杂的操作控制。基于正弦 模型的信号分离算法是发展较为成熟的一种算法,正弦模型技术由于契合了乐音的谐波特 性且各种乐音信号均可借助不同的正弦参数更为简单地实现重构,因此该算法非常有研宄 价值。但该分离方法仍有待进一步完善,诸如对正弦轨迹重组和音色空间构建与音色匹配 等问题都未能理想地解决。
[0003] 音色是一个复杂的多维感知属性,受声音时域、频域结构共同影响。随着研宄的深 入,研宄者发现,一个由物理参数组成的多维尺度空间可以表征音色感知空间。在确保音色 匹配精确度的前提下,如何构建由尽量少的特征参数组成的音色空间,是亟待解决的一个 难题。
[0004] 为克服现有技术不足,提供一种能够提高混合乐音信号分离效果的基于乐音音色 匹配的的正弦模型分离方法。本发明以RWC(Real World Computing)研宄用音乐数据库中 的乐音信号为研宄对象,建立正弦分析模型和音色匹配模型,在设计乐音信号起始端点检 测算法的基础上,研宄基于乐音音色匹配的正弦模型分离方法。
【发明内容】
[0005] 本发明的目的是提供一种能提高混合乐音信号分离效果的基于乐音音色匹配的 正弦模型分析方法。
[0006] 本发明采用的技术方案是,一种基于乐音音色匹配的正弦模型分离方法,包括下 列步骤: (1) 提取乐音数据库中乐音样本的音色特征以构建乐音音色匹配高斯混合模型; (2) 采用正弦分析技术分析混合乐音信号的正弦轨迹曲线; (3) 然后利用起始端点检测算法抽取起点同步的正弦轨迹,实现混合乐音信号中同乐 器正弦轨迹的重组; (4) 经平滑处理和正弦综合重构上一步重组的正弦轨迹曲线对应的乐音信号; (5) 借助乐音音色匹配高斯混合模型对上个阶段重构乐音信号进行乐器识别,以实现 混合乐音信号分离。
[0007] 音色特征包括体现人对声音高低主观感受特性的SC (Spectrum Centroid)和体 现乐器共振体特性的 REMFCC (Resonance Mel Frequency Cepstrum Coefficient)。
[0008] 同乐器正弦轨迹的重组是采用起始端点检测算法。
[0009] 乐音音色匹配高斯混合模型是采用高斯混合模型聚类方法,由音色特征量SC和 REMFCC作为训练数据,以构建完整的乐音音色匹配模型。
[0010] 本发明的有益效果在于:为进一步改善正弦分析模型,参数化乐音信号音色特性, 提高在共享空间的频谱相似模式中乐器的分类鉴别能力和基于正弦模型的混合乐音信号 分离方法性能,实现音乐转录、音乐信息检索、更加有效的音频编码和更为精确的音频信息 分析等提供技术支持。
【附图说明】
[0011] 图1为本发明的流程图。
[0012] 图2为RMFCC特征提取流程图。
[0013] 图3为violin/piano混合信号波形图。
[0014] 图4为分离前后violin波形对比图。
[0015] 图5为分离前后piano波形对比图。
【具体实施方式】
[0016] 下面将结合附图对本发明加以详细说明: 本发明在乐器发生机制与MFCC (Mel Frequency Cepstrum Coefficient)音色属性的 基础上挖掘新的音色特征量REMFCC,构建乐音音色匹配高斯混合模型并结合正弦分析技术 分析乐音信号,达到分离混合乐音信号的效果。
[0017] 如图1所示,对于被分析混合乐音信号分帧且帧与帧之间有一半帧长的重叠,然 后加汉明窗处理以完成信号数据预处理,这样便于音色参数提取。
[0018] 预处理后在正弦分析基础上提取混合乐音信号代表了正弦轨迹信息的时变的幅 度、频率和相位参数。
[0019] 正弦模型分析方法将信号近似为一系列具有时变幅度、频率和相位信息的正弦轨 迹的叠加,各种乐音信号均可借助不同的正弦参数更为简单地实现分组重构。得到正弦轨 迹后,一个关键的问题是如何实现各帧正弦轨迹的分组,本发明中称为音频流分组技术,采 用的是基于起始端点检测的正弦分组方法。
[0020] 考虑到乐音发声机制,在由多种乐器演奏的乐音信号中,同种乐器所产生的音符 其起始时刻(或称为初始相位)是相同的。本发明中采用基于起始端点检测的混合乐音信号 正弦轨迹曲线分组方法,将起始端点一致的正弦轨迹重组,以完成音频流分组。
[0021] 对上述重组后的正弦轨迹曲线,通过正弦综合技术重构乐音信号。为平滑合成后 乐音信号,本发明采用叠接相加的正弦综合技术重构分离后乐音信号。
[0022] 重构后乐音信号还需要进行乐器识别,以实现实质意义上的混合乐音信号分离。 本发明采用高斯混合模型聚类方法,由SC和REMFCC作为音色特征量,构建乐音音色匹配高 斯混合模型,对上个阶段重构乐音信号进行音色聚类乐器识别。乐音音色匹配高斯混合模 型的构建步骤如下: (1) 建立乐音数据库; (2) 提取乐音数据库中各乐音片段音色参量,构建音色模型库作为训练数据; (3) 在音色模型库基础上训练高斯混合模型,确定数据库中所有音乐片段的高斯混合 模型完成乐音音色匹配高斯混合模型的构建。
[0023] 为构建音色模型库,首先建立乐音数据库。本发明试验数据取自RWC研宄用音乐 数据库中11种乐器演奏的493个音乐片段,乐器包括小提琴、大提琴和吉他、单簧管、双簧 管、萨克斯、长笛、小号、长号、大号和钢琴,每种乐器均包括多种演奏风格。
[0024] 提取试验数据集中各音乐片段的音色特征SC和REMFCC,完成音色模型库,然后用 于乐音音色匹配高斯混合模型的训练。其中SC为单维参数,REMFCC选取12维参量,共同 组成13维的特征向量。通过对一组数据的训练,就可以确定一个完整的高斯混合模型。乐 音音色匹配高斯混合模型的训练是在一般意义高斯混合模型基础上加上音色特征向量选 择完成的。
[0025] 通过训练数据,确定数据库中所有音乐片段的高斯混合模型后对上个阶段重构的 乐音信号分别提取音色特征量SC和REMFCC作为待识别向量,然后选取高斯模型中的概率 最大的值所代表的乐器作为其类别,以完成分离后乐音信号乐器识别。
[0026] 下面是本发明采用的音色特征量SC和REMFCC的计算方法: (1) SC描述了人对声音高低的主观感受,反映声音基于能量分布的频率的均值。若信 号频率范围为); · /:,则连续和离散频谱质心计算公式分别如下:
【主权项】
1. 基于乐音音色匹配的正弦模型分离方法,其特征在于,包括如下步骤: (1) 提取乐音数据库中乐音样本的音色特征以构建乐音音色匹配高斯混合模型; (2) 采用正弦分析技术分析混合乐音信号的正弦轨迹曲线; (3) 然后利用起始端点检测算法抽取起点同步的正弦轨迹,实现混合乐音信号中同乐 器正弦轨迹的重组; (4) 经平滑处理和正弦综合重构上一步重组的正弦轨迹曲线对应的乐音信号; (5) 借助乐音音色匹配高斯混合模型对上个阶段重构乐音信号进行乐器识别,以实现 混合乐音信号分离。
2. 根据权利要求1所述的基于乐音音色匹配的正弦模型分离方法,其特征在于,所述 音色特征包括体现人对声音高低主观感受特性的SC (spectrum centroid)和体现乐器共 振体特性的REMFCC (Resonance Mel Frequency Cepstrum Coefficient)。
3. 根据权利要求1所述的基于乐音音色匹配的正弦模型分离方法,其特征在于,所述 同乐器正弦轨迹的重组是采用起始端点检测算法。
4. 根据权利要求1所述的基于乐音音色匹配的正弦模型分离方法,其特征在于,所述 乐音音色匹配高斯混合模型是采用高斯混合模型聚类方法,由音色特征量SC和REMFCC作 为训练数据,以构建完整的乐音音色匹配模型。
【专利摘要】基于乐音音色匹配的正弦模型分离方法。本发明涉及音频信号处理应用领域。本发明的技术方案如下:首先提取乐音数据库中乐音样本的音色特征以构建乐音音色匹配高斯混合模型,然后再分析待分离混合乐音信号,具体步骤如下:采用正弦分析技术分析混合乐音信号的正弦轨迹曲线;然后利用起始端点检测算法抽取起点同步的正弦轨迹,实现混合乐音信号中同乐器正弦轨迹的重组;经平滑处理和正弦综合重构重组后正弦轨迹曲线对应的乐音信号;借助乐音音色匹配高斯混合模型对上个阶段重构乐音信号进行乐器识别,以实现混合乐音信号分离。本发明能够提高混合乐音信号分离效果,有益于更加有效的音频编码、更为精确的音频信息分析,同时也利于对信号进行更加复杂的操作控制。
【IPC分类】G10L21-00
【公开号】CN104766612
【申请号】CN201510169945
【发明人】李素平, 许雪艳
【申请人】李素平, 许雪艳
【公开日】2015年7月8日
【申请日】2015年4月13日