一种弦乐器演奏音质自动判别方法

文档序号：9930285阅读：802来源：国知局

一种弦乐器演奏音质自动判别方法
【技术领域】
[0001] 本发明属于音乐学和信息科学的交叉技术领域，特别设及一种弦乐器演奏音质自动判别方法。
【背景技术】
[0002] 随着物质生活水平的迅速提高，人们对精神生活的需求日益增大。其中，音乐艺术在人们精神生活所占比重也越来越大，而器乐演奏则是音乐艺术表现形式中最重要的部分。演奏者，无论是初学几个月的初学者，还是具备多年演奏经验的演奏家，都会面临的问题是演奏音质的评判。因为演奏音质的好坏，是用于评判演奏者水平高低的最重要依据之 O
[0003] 影响演奏音质的因素主要由弦乐器本身及其配件的质量(材料和结构差异)和演奏者对声音的把控能力所决定。目前，弦乐器演奏音质完全依赖于人工评判，即由专家联听现场演奏或录音，给出评判意见。运种方法会因评审人的审美疲劳、参考标准的波动、主观审美倾向W及现场音响环境的不同等，造成评判的不准确。此外，高昂的人力成本也是人工评判的一个缺点。
[0004] "音质评判"运一行为目前主要被应用于音响技术领域。它是用来衡量音响器材质量的重要手段。其评判方法主要侧重于考察音响设备输出对录音现场的复现能力。其评判参数主要有频率响应曲线是否平直、频率的崎变和相移、输出波形与器乐或人声的音频特征的接近程度等信息学科中的特征。在器乐演奏方面，由于弦乐器演奏的音质设及的因素多而复杂，为了使计算机自动评判结果达到较高的可靠性，需要全面提取能反映器乐音质的多种时频特征，更多地考虑演奏中产生的变量特征，并采用有效的机器学习方法进行音质的识别。

【发明内容】

[0005] 为了克服上述现有技术的缺点，本发明的目的在于提供一种弦乐器演奏音质自动判别方法，基于弦乐器演奏特征、音频信号特征提取W及时间序列特征等要素来实现弦乐演奏过程中音质好坏的自动判定
[0006] 为了实现上述目的，本发明采用的技术方案是：
[0007] -种弦乐器演奏音质自动判别方法，包括如下步骤：
[000引首先，对乐器类型及其演奏模式进行自动识别；
[0009] 其次，针对乐器的类型和演奏模式，提取器乐演奏的动态和静态特征；
[0010] 最后，将提取的特征作为输入，W随机森林模型为分类器，进行训练和分类，并对结果进行连续化处理。
[0011] 所述乐器类型自动识别的方法如下：
[0012] 1)提取用W描述乐器类型的巧巾音频特征 [OOU] a)每一帖的频谱重屯、G
[0014]
[0015] 其中，m为窗宽，fn为声音的n次谐波频率，即音频信号经离散傅立叶变换(DFT)后第n个点处代表的频率，An为fn所对应的振幅，通过滑动窗的滑动得到一系列频谱重屯、，计算其最大值Gm、最小值Gmin、均值Ge和标准差Gs;
[0016] b)上升时间Tr
[0017] Tr = Tstb-To
[001引Tstb为一段音频中时域幅值稳定的时刻，To为演奏发声的起始时间，即音频的开始时刻；
[0019] C)倒谱系数
[0020] 分别对上升时间和稳定时间对应的音频，W窗宽m的滑动窗和Am的重叠率进行分帖，并使用Levinson-Durbin算法，计算每帖音频的11维LPC系数，并将该系数转换为倒谱系数，其中Am选择为0.25或0.5;
[002。 2)乐器类型分类
[0022] 将W上巧中音频特征串联起来形成16维的特征向量，对特征向量进行识别，输出结果为乐器类型，即分为击弦类乐器和拉弦类乐器。
[0023] 所述倒谱系数提取过程中，使用Levinson-Durbin算法，计算每帖音频的11维LPC 系数，并将该系数转换为倒谱系数(LPCC)的过程是：
[0024]
[0025] 式中Clpcc为线性预测倒谱系数，Clpc为线性预测系数，Z为预测系数的序号，k为求和运算中每次迭代所取的点数序号。
[0026] 所述乐器类型分类过程中，采用贝叶斯分类器对特征向量进行识别。
[0027] 所述演奏模式自动识别的方法如下:在频谱重屯、、上升时间和倒谱系数的基础上，加入信噪比SNR;将该组合而得的18维特征作为高斯分类器的输入，进行训练，输出结果为柔和模式、高噪声模式和普通模式。
[002引所述信噪比SNR的获取方法为:使用快速独立成分分析(FastICA)算法提取噪声，对音频信号进行归一化和白化，W下两公式作为核屯、迭代公式进行迭代：
[0029]
[0030]
[0031] 其中，X为原始音频信号，W的初始值为n维随机矩阵，n表示需要分离的独立随机变量个数，E{ ? }为均值运算，g(.)为非线性函数，取，
，将分离所得的信号功率与输入信号功率作商，得到信噪比SNR。
[0032] 所述器乐演奏的动态和静态特征包括音准调节时间Ta、噪音指数Q、MFCC系数、明亮度Bk、线性度W及不和谐度化，通过如下方式提取：
[0033] 1)音准调节时间Ta
[0034] 音准调节时间Ta只用于拉弦类乐器，TA=Tst-To,式中To表示音频的开始时刻，Tst表示基频稳定的开始时刻，计算过程如下：获取音频时间序列后，将其分为长度为Hlf的帖，采用离散傅立叶变换计算每一帖的基频，并得到整段序列的基频-时间坐标对;从第一个采样点到基频稳定的时间差值即音准调节时间；
[0035] 2)噪音指数Q
[0036]
[0037] 式中a为常数阔值；
[003 引 3)MFCC 系数
[0039] 对音频信号进行预加重、分帖、加汉明窗的预处理后，进行快速傅里叶变换;使用 Mel滤波器组进行处理；计算每个滤波器组输出的对数能量;经离散余弦变换(DCT)得到 MFCC系数；
[0040] 4)明亮度化
[0041]
[0042] 令fn为音频信号经离散傅立叶变换(DFT)后第n个点处代表的频率，k为信号基频所对应的DFT点数序号，则式中Bk即基频为fk的音的明亮度，其中，An表示信号经DFT后第n点处的幅值，N表示DFT的总点数；
[0043] 5)线性度
[0044] a)将音频信息划分为多个小段，对每段音频信号x(m)进行线性预测化PC)估计
[0045]
[0046] 其中P为LPC的阶数，ai为每一阶对应的系数，1为当前的阶数，nt为时间的采样序号；
[0047] b)对估计所得的信号进行短时傅立叶变换(STFT)，得频谱包络为 [004引
[0049] 其中O为STFT的窗函数，q为预测信号的时间点数序号，ni为预测点数序号；
[0050] C)计算功率谱的互累计分布函数的（《 )
[0化1 ]
[0052] d)将FcO )映射到log-log域，所得曲线上的点为(巧叫)，叫)，护知2),咕)，（巧山3)，......
[0053]并求该曲线的线性相关度即求向量巧日{?i}的相关性L [0化4]
[0化日]6)不和谐度化
[0056]将分帖的音频信息作傅里叶变换，提取每个谐波的频率fn和其所对应的幅值An,求每两个谐波之间的不和谐度并求和
[0化7]
[0化引
[0059] bi和b2为常数系数，
I Sl和S2为常数系数。
[0060] 所述W随机森林模型是由多个决策树分类模型h(X)组成的分类模型，最终由所有决策树综合决定输入向量X的最终类标签。具体地，给定乐器演奏的训练样本集，构建随机森林模型H(X) =化I(X)，h2(X)，h3(X)，…，hN(X)}，其中包含N个决策树，hi(X)表示第i个决策树;之后进行样本分类，类标签Cp由所有决策树的分类结果使用投票方式决定，对于某个样本X的类标签Cp计算公式如下：
[0061]
[0062] 其中，1(.)是指示函数，是树hi对类C的分类结果，是树hi的叶子节点数。
[0063] 所述对结果进行连续化处理的方法如下：
[0064] 首先，计算出每个样本X属于第i个类别Cl的概率：
[00 化]
[0066] 假设共有C个类别，每个类别Cl按照等级从高到低编号为1，2,3,…，C，在随机森林分

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：管晓宏;杜友田;丁梦莹;雷喆;
技术所有人：西安交通大学;
我是此专利的发明人

上一篇：构音障碍检测方法和系统的制作方法
上一篇：一种基于量化特性的语音篡改定位检测方法