一种基于量子学习优化决策的音频索引方法

文档序号：2819017阅读：386来源：国知局

专利名称：一种基于量子学习优化决策的音频索引方法
技术领域：
本发明属于音频技术领域，涉及对会议场景下的语音数据进行音频索引，具体涉及一种基于量子学习优化决策的音频索引方法。
背景技术：
音频索引是一种从音频中自动提取信息并进行目标内容搜索的技术，其目的是按一定的方式对海量语音信号进行分析和检索，提取特定目标信息。在音频索引中需要获取信息包括说话内容和说话人身份。音频索引一般在时域上对音频信号按来源和分类进行标记索引，其索引内容包括但不限于说话人身份、说话内容、音乐、背景噪声及其他内容。音频索引需要确定出某一说话人与另一说话人之间的切换时刻，并标记出每个语音段对应的说话人身份。音频索引可应用于电话语音、广播新闻和语音会议等场景，能够实现音频数据的结构化分析、理解和管理。会议场景下的音频索引可视为基于说话人的语音信号自动优化和分离方法，上述音频索引通常包括三个部分说话人特征提取、说话人分段、说话人聚类。传统的说话人特征包括MFCC(MelFrequency Cepstral Coefficients)、 LFCC (Linear Frequency Cepstral Coefficients)> PLP (Perceptual Linear Predictive), LPC(Linear Predictive Coding)等感知特征；最近提出的新的说话人特征包括鲁棒性较优的同步掩蔽和前向掩蔽感知特征；基于听神经放电时间信息的子带自相关特征；调频谱特征和频域线性预测特征；还可以利用汉明窗提取语音信号中若干情感特征参数。此外还包括如下提取说话人特征的方法特征弯曲(warping)技术将特征的PDF包络改为高斯包络，可以避免背景噪声和其他干扰的影响；通过在聚类之前先将特征矢量投影到说话人子空间则可以提高说话人特征的鉴别性；将传统短时特征与节律(Prosodic) 和其他长时特征(如基频、能量、共振峰、长时平均谱等)结合；根据给定的训练样本集选择最优小波包基.从被识别或分类的信号中提取具有最大可分性的特征。基于测度的算法是最常用的说话人分段算法，通过计算两个声学段(通常是连续的)之间的距离来决策他们属于同一说话人或不同说话人，如果属于不同说话人，则需要判定是否存在说话人变更点。用于进行变更点判定的距离算法也可应用在说话人聚类方面来比较两个声学段是否属于同一说话人。通常用两类距离来定义一对声学段的距离，一类是不考虑数据的模型，仅利用足够多的统计数据进行计算，称为基于统计的距离，这种方法在声学段足够长的时候快速高效，将数据用一个唯一的均值和方差代表；第二类则评估数据与其模型的相似度，该方法计算较慢，但对复杂数据处理效果较好，称为基于相似度的距离。距离定义包括贝叶斯信息准则、通用相似度评估、Gish距离。所有基于量度的技术都需要计算一个函数，其极值需要与阈值相比来决定每个变更点的合适度。说话人聚类则采用混合高斯模型(feiussian Mixture Model, GMM)或支持向量机 (Support Vector Machine, SVM)来计算，前者需要对说话人模型进行生成训练，如最大似然或最大后验估计，后者需要对说话人模型进行差别训练，目前主流的技术为GMM-SVM，通
4过GMM建立概率密度分布模型并通过Kullhck-Leibler散度上界来测量概率密度分布。虽然GMM-SVM系统性能较好，但仍存在GMM参数过多及通用性较差的问题。对于第一个问题， NAP等技术相继被提出，使得GMM-SVM系统的识别正确率进一步提高，不过在训练NAP模型时仅考虑了同类集合间的度量，未考虑异类集合间的度量；对于第二个问题，可引入量子学习理论进行处理。

发明内容
为了克服上述现有技术的不足，本发明的目的在于提供了一种基于量子学习优化决策的音频索引方法，给定一个联合分布未知的训练集，从训练集中学习并找到一种低误差分类器，对测试集进行分类决策并进行标记，可以解决多类混合状态问题，通过对每个状态进行一定的训练，在测试集上进行测度学习，用其结果来调整测试集的分类测度；这种方法可用于处理多人多方会议中的音频索引问题。为了实现上述目的，本发明采用的技术方案是一种基于量子学习优化决策的音频索引方法，包括以下步骤第一步，采用声传感器进行系统输入信号采集，按说话人身份对数据进行分类；第二步，对所采集信号进行预处理；第三步，提取声学特征作为说话人鉴别信息；第四步，进行量子优化学习以解决两类混合状态问题，基于量子学习的两类说话人分类方法步骤如下Stepl 初始化定义；对于未知状态S1和未知状态&，分别定义Ii1个量子系统和n2个量子系统，并进行初始化定义P(dx, y) = P(dx|y)P(y)状态先验概率为W: = P(Y = y)条件分布定义为状态S1和状态&的密度矩阵，训练集为(Wl，Y1)，K，(wn, Yn)且当 (Yi = 0) and (Wi = S2IYi = 1)时 Wl = S1，其中 Yi e {0,1}为两类数据的类别标签，y = 0, 1为Y的每个可能状态，Wi代表用于分类的数据特征，量度定义为i:= (Pn,I- ib用于进行分类决策，则风险可定义为￡[7>[《\γ- S2^](P-尸*)]最小化风险为去(1_- ^21])对应的错误分类误差为Re(Mn)= ￡[^7>[《(1- Pn)]+ WiS2Pn]]St印2 选择优化测度；如果S1和&的先验概率W1和W2已知，则优化策略为Helstrom测度，即(W1S1-W2S2) and(S1)为正结果，&为负结果;如果S1和&的先验概率W1和W2未知，则建立一种在训练集上建立优化测度的分类策略，该策略的目标是使得过剩风险(Excess Risk)等价于误差概率和已知状态优化测度概率的差值；Mep3:建立量子高斯模型，将传统参数与量子参数分别进行优化，优化估计器
为
权利要求
1. 一种基于量子学习优化决策的音频索引方法，其特征在于包括以下步骤第一步，采用声传感器进行系统输入信号采集，按说话人身份对数据进行分类；第二步，对所采集信号进行预处理；第三步，提取声学特征作为说话人鉴别信息；第四步，进行量子优化学习以解决两类混合状态问题，基于量子学习的两类说话人分类方法步骤如下Stepl 初始化定义；对于未知状态S1和未知状态&，分别定义Ii1个量子系统和n2个量子系统，并进行初始化定义P(dx,y) = P(dx|y)P(y) 状态先验概率为 W: = P (Y = y)条件分布定义为状态S1和状态S2的密度矩阵，训练集为(wi; Y1), K，(wn, Yn)且当(Yi =0)and(wi = S2IYi = 1)时W1 = S1，其中Yi e {0,1}为两类数据的类别标签，y = 0，1为 Y的每个可能状态，Wi代表用于分类的数据特征，量度定义为i:= (ΡηΛ- 用于进行分类决策，则风险可定义为￡[7>[《\γ- S2W1W- P*)] 最小化风险为去(1_ - ^21])对应的错误分类误差为Re(Mn)=Pn)]+ WiS2Pn]]St印2 选择优化测度；如果S1和S2的先验概率W1和W2已知，则优化策略为Helstrom测度，即(W1S1-W2S2) and(S1)为正结果，&为负结果;如果S1和&的先验概率W1和W2未知，则建立一种在训练集上建立优化测度的分类策略，该策略的目标是使得过剩风险(Excess Risk)等价于误差概率和已知状态优化测度概率的差值；Step3 建立量子高斯模型，将传统参数与量子参数分别进行优化，优化估计器为其中I为 := OYm- V^V)- P1^- 嗚)的优化估计器，#为於〕的优化估计器，之尸为基于传统参数的高斯模型，为基于量子参数的高斯模型，(之，之)为联合测度 (Z)^Zit)的优化估计器，则过剩风险表示为A\d0\E[(u,l)M= E[{Zf- Z^)f+E[{Zf- Zff+{Zk-之)2]其中= VWcosa1Xr- ^cosa2Xs，B1和为基于传统参数的高斯模型的分解因子，Xr和\分别代表用于补偿传统有限高斯模型的随机变量； St印4 计算参数优化均方误差；量子参数优化均方误差为驱⑷-^f+(Zk- Z,)2]= \Ysin2a1 + ^sin2a2+l+IlwIIr0IIsina1- \^p0|sina2|St印5 计算系统最小化风险；系统的最小化风险为Γ尺 2)= [2+ 2|\γ『。μηαι- \^。|siim2|- |《|p。|COSaiCos 2]/+0|昧I代表状态S1的Bloch向量范数，I民I代表状态&的Bloch向量范数，|i||为昧I和I民I的相关向量范数；第五步，分类器设计根据上述基于量子学习的两类说话人分类方法建立一种包括两个连续变量的均值未知的量子高斯模型分类器，通过量子估计实现对Helstrom测度进行逼近；第六步，分类决策给出分类结果；第七步，系统输出分类结果，包括全部的语音频段及其相应的分类信息。
2.根据权利要求1所述的基于量子学习优化决策的音频索引方法，其特征在于所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。
3.根据权利要求1所述的基于量子学习优化决策的音频索引方法，其特征在于所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。
4.根据权利要求1所述的基于量子学习优化决策的音频索引方法，其特征在于所述第三步中的声学特征为Mel频率倒谱系数或/和线性预测倒谱系数。
5.根据权利要求1所述的基于量子学习优化决策的音频索引方法，其特征在于所述第六步中，分类决策由多个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出，决策级融合后的分类决策即为分类结果。
全文摘要
本发明为一种针对会议场景下的语音数据进行音频索引的方法，将输入的语音信号进行预处理和初始化后进行声学特征提取，然后进行量子学习，设计一种包括两个连续变量的均值未知的量子高斯模型，将传统参数与量子参数分别进行优化，然后基于分类决策给出分类结果，最终由系统输出全部的语音频段及其相应的说话人身份信息，本发明的量子学习方法是通过量子估计实现对Helstrom测度进行逼近，通过通用量子分类学习方法的扩展，可有效地解决会议场景下多个说话人混合的通用说话人分类问题。
文档编号G10L15/08GK102419976SQ201110394718
公开日2012年4月18日申请日期2011年12月2日优先权日2011年12月2日
发明者杨毅, 王胜开, 陈国顺申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨毅;陈国顺;王胜开
技术所有人：清华大学
我是此专利的发明人

上一篇：分离式多通道反馈有源噪声控制系统的设计方法
上一篇：基于倒谱和差分方差的音频隐写分析算法的制作方法