感知语音特征话语识别系统及方法

文档序号：2837162阅读：662来源：国知局

专利名称：感知语音特征话语识别系统及方法
技术领域：
本发明总地涉及自动语音识别系统，及更具体地涉及一感知语音的处理及不变化的以元音为基础的语音特征方式(regime)，以实现精确及强健(robust)的自动话语识别。
背景技术：
现代自动话语识别(ASR)系统已发展30年以上且已有可观的进步。然而，仍存在两个显著的问题强健度问题通常涉及在说话环境中的不利条件，例如背景噪音、语音失真、及个人的发音强健度的影响，及精确度问题，涉及输入语音的误认。解决这些问题一般需要非常昂贵的硬体花费及空间，且因此一般通常是不可实行的。
对于强健度的问题，已有许多尝试方法利用电子及机械装置以滤除噪音，改良信噪比及提高信号增益，但是这些系统具有计算复杂度(例如增加噪音的复合模型频谱)及检测器设置的不灵活性(例如消去噪音的麦克风)的问题。相对于单纯机械定向的噪音感知，通过人类的话语感知是相对清晰的，在不佳的环境中可实现高识别精确度。例如，对于低于20 dB的输入SNR，常规的ASR系统的识别精确度被显著地降低，但是人类可容易地识别信号性质低达0 dB SNR的话语。当吵杂时，信号失真有时造成人类的严重话语误辨(除非信号本身的振幅太低)，及个人发声强健度特性(至少对说母语者而言)一般不会造成显著的感知问题。因此，已进行许多尝试以发展话语识别系统来模仿主要为两种形式的人类的话语感知。第一种是仿制人类听觉系统的功能性(例如电子耳蜗的基底膜及发育)，但此系统因为来自神经系统及未知的听神经核之间的交互作用的多个反馈路径而被复杂化，使得这些尝试理论上是无瑕的但实践中是受到限制的。第二种尝试利用人工神经网络(ANN)以抽取话语特征、处理动态非线形话语信号，或与统计识别器组合。但是ANN系统具有庞大运算要求的缺点，使得大的词汇系统不实用。
所有ASR皆要求使用频谱分析模型以使声音信号参数收化，以致于与参考频谱信号的比较可用于进行话语识别。线形预测编码(LPC)在具有所谓的全极(all-pole)模型化约束的话语结构上进行频谱分析。此为一般以Xn(eiω)表示的频谱表示法，其是约束成σ/A(eiω)形式，其中A(eiωU)为如下所述的具有z-变换的pth次多项式A(z)＝1+a1z-1+a2z-2+...+apz-pLPC频谱分析单元的输出为系数(LPC参数)的矢量，其参数地界定全极模型的频谱，此模型在话语取样帧的时间周期上与信号频谱最匹配。现有的话语识别系统一般是利用具有全极模型约束的LPC。然而，在全极频谱的极位置通常通过在波谷区段的噪音的出现受到影响，此噪音的出现若显著的话，可显著地使信号劣化。
普通话涵盖数万个各别的字符，其各自发音为一单音节词，从而提供ASR系统的独特基础。然而，普通话(及实际上中文的其他方言)为一种具有以四种词汇音调之一或一自然音调发音的各别字音节的音调语言。存在408个基本音节及考虑到音调变化，总共有1345个不同的音调音节。因此，独特字符的数目约为发音的数十倍，使得发生许多仅可依据话语内容解析的同音字。基本的音节各自包含一辅音(起始音)音素(总共21个)及元音(vowel)(末尾音)音素(总共37个)。常规的ASR系统首先利用不同的处理技术检测辅音音素、元音音素及音调。接着，为了增进识别精确度，选择一组较高可能性的候选音节，及将此组候选音节与最后选择的内容核对。现有技术中已知大部分的话语识别系统主要是依赖元音识别，因为已发现元音比辅音的差异性大。因此，精确的元音识别最能精确进行话语识别。

发明内容
本发明为一种用于精确及强健的话语识别的完整系统及方法，它们以将三种感知处理技术应用至话语的傅里叶频谱为基础，以通过将感知频谱投射至一组参考的元音频谱矢量以供输入至话语识别器来实现清晰的感知频谱及该感知频谱的精确识别。本发明包含一感知话语处理器，用于感知地处理输入的话语频谱矢量以供产生一感知频谱；一存储装置，用于存储多个参考频谱矢量；及一语音特征映射器，其与该感知话语处理器及该存储装置耦合，用于将该感知频谱映射至该多个参考频谱矢量。
附图简要说明

图1为显示根据本发明的话语识别系统的各个步骤及元件的方框图；图2为说明遮蔽音调及通过遮蔽音调产生的遮蔽器的时域图；图3为最低可听见区域(MAF)及等响度曲线的频域图；图4为显示频率标度及美-标度之间关系图；图5为显示根据本发明的感知特性的序列及处理以产生感知频谱的流程图；图6(a)为根据本发明的普通话元音″i″的傅里叶频谱，(b)显示遮蔽效应的结果，(c)显示MAF处理的结果，以及(d)显示美-标度再取样的结果；图7为根据本发明测量识别率对信噪比(SNR)的实验图；图8为说明根据本发明的遮蔽胜利者全取(Winner-Take-All)电路800的实施例的示意图；图9为说明根据本发明的用于产生相对于不同电压的电流的分段线形电阻器PWLn；图10为说明根据本发明的遮蔽器的电流输出的图形；图11为说明根据本发明的通过画出对应至不同PWLs的节点电压的包络(envelope)抽取的图形；图12为根据本发明的一具体实施例的单一遮蔽WTA单元的整体结构概要图；
图13为根据本发明的说明差异的静态(stationary)元音″i″及非静态元音″ai″的频谱图；图14为根据本发明的非静态元音″ai″的美-标度频率表示的频谱；图15(a)显示投射类似性与沿著具有预定加权数的参考矢量c(k)的方向的输入矢量x的投射成正比；以及图15(b)显示在频谱上类似的参考元音″i″及″iu″的情况；图16(a)为说明投射类似性的矢量图，及图16(b)及图16(c)说明根据本发明的相对投射类似性；图17为根据本发明的普通话元音″ai″的语音特征轮廓图；图18(a)显示相对于元音″i″(深色点)及元音″iu″(浅色点)的a(8)(纵轴)及对a(6)(横轴)的投射类似性；图18(b)显示投射类似性(无相对投射类似性)及对于相同元音的参考频谱的本发明语音特征方案的可辨别性的比较；图19为根据本发明具有λ作为一参数的″iu″语音特征相对于″i″语音特征的图；图20为根据本发明的对于添加白噪声至输入的话语信号而非添加至任何训练组的实验的识别率相对于SNR的图；图21为根据本发明的利用九个普通话元音及投射类似性作为输入的三个噪音话语测试的实验的识别率相对于SNR结果的图；图22为根据本发明的外部识别率(％)(使用不同的说话者)相对于内部识别率(％)(使用单一说话者)的图；以及图23为根据本发明的噪音话语识别率(％)(环境噪音)相对于内部识别率(％)(其中具有较理想的收听条件)的图。
具体实现方式本发明的基本观念出自人类话语及感知作用的心理学及生理学。更明确地，噪音及声音的人类感知作用及其差异性至少部分是人类话语的人类生理学感知作用的函数。本发明利用话语识别的心理学方面的感知频谱及生理学方面的语音特征状况。这些因素组合成可同时实现强健性及精确性的自动话语识别系统。图1为本发明的较佳具体实施例的方框图，显示话语识别系统的各个步骤及元件。取样话语101被输入快速傅立叶变换(FFT)分析仪111，其输出取样话语的傅立叶频谱，此傅立叶频谱接着输入至感知话语处理器112，其输出一感知频谱103，此感知频谱接着输入至语音特征映射器113，其可输出一语音特征，此语音特征接着输入至连续HMM识别器114。感知话语处理器包含遮蔽操纵装置121、最大可听见的区域(MAF)曲线仪122，以及美-标度再取样器123。语音特征映射器113包含投射类似性发生器131及相对投射类似性发生器132，其接着输入至选择器133，其在各个对应至输入频谱矢量(是否具有带有超过一个的参考频谱矢量的高投射类似性，在下文中更完整地描述)的频谱字符的输出之间选择。
自动话语识别系统取样话语信号的分量波的振幅的离散傅立叶变换运算的话语频谱的取样点。通过扩音器产生的话语波形的参数化是以任何波可通过简单的正弦及余弦波的组合所代表的事实为基础；波的组合最佳是由反傅立叶变换获得g(t)=&Integral;-∞∞G(t)ei2πftdf]]>其中傅立叶系数是通过傅立叶变换获得G(f)=&Integral;-∞∞g(t)e-i2πftdt]]>其给出在频率f下，波的分量(振幅)的相对强度，在频率空间中的波频谱。因为矢量亦具有分量，其可通过正弦及余弦函数代表，话语信号亦可通过频谱矢量描述。对实际计算而言，使用离散傅立叶变换G(nτN)=Σk=0N-1[τ·g(kτ)e-i2πknN]]]>其中k为各个取样值的放置次序，τ为读取值之间的间隔，以及N是读取值的总数(取样大小)。取样话语101是通过″取样″话语波形所产生，该“取样”是通过在波频谱上取出足量的点以便利用FFT进行足够精确的振幅计算。快速傅立叶变换(FFT)分析仪111通过使用离散傅立叶变换及有效地采取一是列的捷径以产生波的傅立叶频谱102，该捷径是自三角函数的循环性导出的递归量的观测值为基础，其容许一计算的结果可用于另一计算，从而降低所需计算的总数。
利用于遮蔽操纵装置121的遮蔽效应为观察到的现象，该现象为某些声音当有其他暂时且频谱上相近的较大声音时变成无法听见。遮蔽效应可通过人类主观的反应来测量。图2为频域图，显示通过1kHz、80 dB纯音调(小圆200)产生的遮蔽音调的振幅(实线201)。任何低于实线101的信号将为无法听见的且若频率接近遮蔽音调，将更严重地受到限制，限制作用朝向高频率较大。图3为最小可听见区域(MAF)的频率域图，低于该最小可听见区域则声音信号太弱而无法被人感知(虚线300)及相等的响度曲线301、302、303、304及305。为了将客观的声音信号振幅转译成人类主观的响度，信号的特定频率分量的振幅必须被重正规化成如下述的MAF曲线L(dB)＝M(dB)-MAF其中L和M分别为声音信号的频率分量的响度及振幅，以及MAF为MAF在该频率下的值。在本发明的另一具体实施例中，一给定频率分量的振幅被经重正规化成所有相等的响度曲线301等。为了描述人类主观的音高感觉，频率标度被调整成感知频率标度，称为美-标度。在美-标度中，低频率频谱带比高频率频谱带显著。图4为显示由下式表示的赫兹(或频率)标度及美-标度之间关系的图美＝2595×log(1+f/700)其中f为信号频率。
在本发明的一具体实施例中，上述感知特征的序列及处理以产生感知频谱被显示于图5的流程图中。步骤501为输入至步骤502的FFT产生结果，其去除声音信号的所有频率分量，该声音信号是根据声音信号的先前及目前帧中最后的遮蔽器通过较响的邻近声音所掩盖。步骤503为根据MAF曲线的声音信号的各个频率分量的振幅的重正规化及步骤504为频率分量通过再取样转换成美-标度。步骤的顺序是为了计算效率而设计且对听觉通路而言不需要是相同顺序。熟悉这项技术人员应可了解步骤501、502、503，及504的任何次序是涵盖在本发明的预期范围内。步骤501、502、503，及504的结果如图6所示，其中(a)为普通话元音“i“的傅立叶频谱，(b)为步骤502遮蔽效应的结果，(c)为步骤503的MAF处理的结果，及(d)为美-标度再取样的结果。图6(b)显示遮蔽效应去除位于400Hz至2kHz之间的大多数频率分量，大幅度地减少待处理的信息量及去除显著量的背景噪音。图6(c)显示低及高频率分量被显著地衰减及图6(d)显示根据本发明的较佳具体实施例的例示元音″i″的感知频谱。在另一具体实施例中，低频分量，其带有最多的元音信息，比其他频率更精细地被取样。最终的感知频谱仅保留频谱的包络，以致于单独传送关于发音部位的形状的重要信息。音高信息亦有利地去除，因为其对于元音识别并非必要。步骤502，遮蔽效应，不同于现有的全极(all-pole)频谱模型。全极(all-pole)模型在频谱中产生凹面平滑的谷形，而本发明则产生尖锐的边缘。当频谱由噪音所污染时，在全极频谱中的极的位置一般透过谷区域中噪音的出现而被影响。在本发明中，大部分谷形区域的噪音是通过遮蔽器去除，因此实现较清楚的信号。
图7为测量识别率对信噪比(SNR)的实验图。与FFT频谱包络曲线(SE)比较，感知频谱曲线(PS)造成显著较低的SNR及较高的识别率。遮蔽效应(遮蔽)及MAF重正规化及遮蔽本身亦显著地增进识别率及与SE相比减少噪音。
噪音遮蔽为一现象，从而当有一暂时的及频谱上邻近较响度的音调出现时，较弱的音调变成不可听见的。已知听觉神经原是以各自的共鸣频率的次序(嗜张力(tonotopic)组织)设置，以致能抑制对应于侧边听神经原的抑制作用的邻近频率分量的感知作用。神经原的活性依赖于神经原的输入以及邻近神经原的抑制作用及刺激作用。具有较强输出的神经原将经由突触连接作用而抑制侧边的邻近神经原。假设神经原i具有最强的输入刺激，神经原i将接着抑制其邻近神经原最多以及刺激其本身最多。因为在此区域中的其他神经原与神经原i是非竞争性的(″哑的″)，仅有神经原i产生输出。此生存下来的神经原i在所谓的胜利者全取(Winner-Take-All(WTA))的神经网络称为″胜利者″，此神经网络合理地仅延伸至定域化区域，因为对更远的神经原而言，交互作用变得较弱。WTA网络的“总体”模型为一电路，具有n个神经原，各自由两个nMOS晶体管代表，所有的都耦合在一节点处。当输入刺激利用至晶体管的电流以平行的方式刺激时，节点的电压电平依据于具有最高电流输入的晶体管(神经原)而定。在平衡中，偏压电流流经有效地抑制所有其他神经原的输出电流的胜利者神经原。通过分离具有串联的电阻器的晶体管，及偏压各个晶体管，电流可被定域化。
图8说明根据本发明的胜利者全取电路800的一具体实施例。电流源Ik输入电流至nMOS晶体管对T1k、T2k，产生晶体管电压Vk，及节点电压VCk。成片段的线性晶体管PWLn被串联耦合于节点801、802、803之间，这些节点被耦合至连接至二极管的nMOS晶体管T3k。成片段的线性晶体管PWLn产生如图9所示的电流相对于不同电压图，且产生所观察到的遮蔽效应的非对称抑制特性(参见图1)。所进行的实验利用一256单元(神经原/晶体管对)SPICE刺激。图10为根据本发明的遮蔽器的电流输出图，该电流输出是通过简单的音调输入至700nA的神经原编号30及100nA至其他单元而生成的，其中可实现所观察到的遮蔽效应的不对称性。输入至本发明的元音频谱产生胜利频谱分量(最高输出电流)，其并非仅抑制邻近频谱分量，亦吸收邻近的偏压电流，因此增加“胜利者”拥有的输出电流及增加共振峰抽取的有效性。“共振峰″是定义特征(在声音频谱中的波峰)并因此愈显著者，话语识别愈佳。再者，分量被清楚地量化，各自为基频的谐波。用于分辨不同音素的信息被携载在话语频谱的包络中。本发明的遮蔽WTA系统进一步自输入的话语中抽取频谱包络。图8中的节点电压VCk呈现输入电流Ik的平滑频谱包络。若所讨论的神经原对应至频谱谷形，接着神经原的电流输出将通过其邻近波峰所抑制，但节点电压将也增加(如上述)，因此可实现对应于输入频谱的包络的以平滑节点电压。图11显示包络抽取。实线的曲线为对应至不同PWL的节点电压及虚线曲线为无阻抗处。
图12为根据本发明的一具体实施例的单一遮蔽WTA单元的概念示意点。三个nMOS晶体管M1、M2及M3，一PWL R电阻器，一电压缓冲器，MOS电容器MS及两电流镜MI1及MI2。在一编程阶段中，输入电压被存储在MOS电容器M5；M4转换电压成电流，以供经由电流镜MI1输入。在操作中，电压输出通过单位增益缓冲器缓冲，并接着耦合至输出总线。输出电流通过电流镜MI2被复制并传送至电流输出总线。输出电流接着通过线形接地电阻器PWL R转换成电压。PWL R具有对电流方向改变敏感的电阻(图9)，感知遮蔽曲线(图2)，以及向左电阻相对于向右电阻的比率可达100。两个nMOS晶体管M1及M2作为用于两电流方向的无源电阻器，具有一比较器COMP在M1及M2之间切换，依电压降的符号而定(通过栅压调整这些电阻)。本发明的该具体实施例是利用支持电路(为了稳定性、信号增益，及避免泄流)，在UMCTM0.5微米双-多双-金属(ouble-poly double-metal)CMOS过程中实现的。电压输出产生频谱包络及电流输出产生频谱共振峰。利用本发明的遮蔽WTA电路，元音″ai″的共振峰可清楚地由频谱中看出，甚至是在输入信号中具有增添的噪音情况下。
在本发明的遮蔽WTA网络的较佳具体实施例中，以模拟平行处理系统被较有利地利用以与其他ASR系统的其他元件整合。例如，带通滤波器层被耦合至上游以致能提供输入至遮蔽WTA网络。
语音特征映射器113(图1)包含投射类似性发生器131及相对投射类似性发生器132，它们馈给语音特征发生器133，后者产生用于根据本发明的较佳具体实施例的话语识别抽取的语音特征。语音特征抽取是基于人类话语的生理学(相对于基于人类话语的心理学方面的上述感知频谱)。当人类说话时，空气是由肺部推出以刺激声带。发音部位接着根据所欲发出的声音形成压力波。对于一些元音而言，发音部位的形状在整个清晰发音过程中保持未改变，以致于频谱形状及时呈现静态。对其他元音而言，清晰发音由发音部位的形状开始，其逐渐地改变，且接着定位至另一形状。对于静态元音而言，频谱形状确定音素的识别及这些形状被用作为语音特征映射中的参考频谱。然而，非静态元音，一般具有两或三个参考元音区段及在这些元音之间的过渡区段。图13为静态元音″i″及非静态元音″ai″的频谱，说明差异。图14为非静态元音″ai″的频谱及美-标度频率表示，显示具有类似于元音″a″的频谱的初始相，位移至类似于元音″e″的频谱及最后定位在类似元音″i″的频谱。本发明的较佳具体实施例利用9个静态元音以作为参考元音，以形成所有37个普通话元音的基础。表1显示37个普通话元音音素及9个参考音素。9个参考音素的频谱是由c(i)代表，其中i＝1、2、...9及各自为通过平均一训练组的特定参考元音的所有帧而计算的64-维量矢量(或在反傅立叶变换中的波分量)。
为了减少馈给CHMM识别器114的数据维量，在本发明的一具体实施例中，语音特征映射器113自64-维量的频谱矢量产生9个特征。语音特征映射器113首先计算输入频谱对9个参考频谱矢量的类似性，接着计算另一组介于输入频谱与72对参考频谱矢量之间的72个相对类似性。通过组合这些类似性可实现最后一组的9个语音特征。不同于常规的分类方案，其将输入频谱分类成参考频谱中的一者，本发明定量地规格化相对于9个参考频谱的输入频谱的形状(亦规格化发音部位的形状)。本发明的语音特征映射为经由类似性测量的特征抽取(或维量降低)的方法。本发明的较佳具体实施例利用基于投射的两种形式的类似性测量；投射类似性及相对投射类似性。
图15(a)显示投射类似性，与沿著具有预定加权数的参考矢量c(k)方向的输入矢量x的投射成正比，可由下式表示a(k)=Σwi(k)·xi·ci(k)||c(k)||]]>其中k＝1、...、9以及||c(k)||=(Σi=164(ci(k))2]]>及加权因子是由下式表示wi(k)=ci(k)/σi(k)Σi=164ci(k)/σi(k)]]>其中i＝1、2、...、64及k＝1、2、...、9以及σi(k)为对应于kth参考元音的总体中维量i的标准偏差。在加权因子wi(k)中，σi(k)用作为常数，其使得在所有9个参考矢量中的所有维量具有相同方差。在加权因子的ci(k)项强调具有较大振幅的频谱分量。此组对应至每一参考矢量的加权数被正规化。
对许多情况而言，上述的投射类似性是足以用于精确的话语识别。但图15(b)显示频谱上相似的参考元音″i″及″iu″的情况，其中在这些类似参考元音上的输入矢量的投射类似性将都为大及话语输入将为频谱上相似于类似的音素，从而需要进一步的区分以实现精确的话语识别。“相对投射类似性″仅抽取决定性的频谱分量，从而实现较佳的区分作用。为了解说容易，图16为一矢量图，说明用于二维矢量的相对投射类似性。当然，所有多维矢量是在本发明的预期范围内。输入矢量x接近两类似的参考矢量c(k)及c(l)，稍微较接近c(k)，但在投射上的差异不大，如图16(a)所示。通过c(k)-c(l)表示的界于c(k)及c(l)之间的差异对于输入话语矢量x的分类具有决定性。图16(b)及16(c)显示x-c(l)在c(k)-c(l)上的投射是大于x-c(k)在c(l)-c(k)上的投射，以及其等的差异是较x单独在c(k)及在c(l)上的投射之间的差异显著。利用此观察，相对于c(l)的输入矢量x在c(k)的统计上加权投射为q(k,l)=Σi=164vi(k,l)·(xi-ci(l))·(ci(k)-ci(l))||c(k)-c(l)||]]>其中k＝1、...、9，1≠k，以及||c(k)-c(l)||=Σi=164(ci(k)-ci(l))2.]]>正规化加权数因子由下式表示vi(k,l)=|ci(k)-ci(l)|/(σi(k))2+(σi(l))2Σi=164|ci(k)-ci(l)|/(σi(k))2+(σi(l))2]]>其中i＝1、...、64；k＝1、...、9，1≠k。加权因子用于强调此具有大差异的两参考矢量的这些分量及用于使差异在所有维量中相等。在q(k，l)为负数的情况中，为了控制动态范围及为了维持识别输入矢量所需的线索，负的q(k，l)被设定为一小正值以及正值的q(k，l)不改变(单极倾斜函数)。相对于c(l)的x在c(k)上的相对投射类似性被定义为r(k,l)=q(k,l)q(k,l)+q(l,k)]]>其中k＝1、...、9，1≠k。因此，总共有8×9＝72个相对的投射类似性，其与9个投射类似性一起界定本发明的较佳具体实施例的语音特征。
在本发明的一较佳具体实施例中，投射类似性及相对投射类似性的整合以辨认话语是利用一谱系分类，其中投射类似性通过选择具有较大的x在c(k)上的投射值，换言之，对a(k)而言为大值的的候选对象来确定第一粗略分类。候选对象被进一步使用成对的相对投射类似性进行筛选。然而，若第一粗略分类未适当地调整，可能未选择到良好的候选对象。
在本发明的较佳具体实施例中，投射类似性及相对投射类似性是通过语音特征映射而被积分，其利用方案(a)相对投射类似性被利用用于任何两具有大投射类似性的参考矢量；以及(b)否则，投射类似性可单独使用。此将不仅产生更精确的话语识别，亦可更有效率地计算。语音特征被定义为p(k)=1λa(k)+1λΣl=1,l=k9(r(k,l)p(l)-r(l,k)p(k))]]>其中k＝1、2、...、9及λ为定标因子，用于控制交叉耦合或横向抑制的程度。对上述两参考矢量的方程式的解法(为了说明的简化性)由下式所示p(k)p(l)=λa(k)+(a(k)+a(l))r(k,l)λa(l)+(a(k)+a(l))r(l,k).]]>对于a(k)及a(l)二者皆大且具有可比较的振幅的情况下，假设x较接近欧几里得范数感觉中的c(k)，x与c(k)之间的距离较小，所以r(k，l)大于r(l，k)。若λ相对地小，接着p(k)/p(l)接近r(k，l)/r(l，k)，其是通过r(k，l)及r(l，k)，相对投射类似性而被确定。对于a(k)及a(l)中只有一者为大时，假设a(k)为大，则r(k，l)及r(l，k)分别接近于1及0以及p(k)/p(l)≈(λ+1)a(k)+a(l)λa(l),]]>其通过a(k)及a(l)被确定。对于第三及最后一种可能情况，其中a(k)及a(l)皆小，p(k)∝λa(k)+(a(k)+a(l))r(k，l)以及p(l)∝λa(l)+(a(k)+a(l))r(l，k).因为a(k)及a(l)皆小，以及r(k，l)及r(l，k)小于1，因此p(k)及p(l)亦小且可忽略。定义r(k,k)=λ+Σl=1,l=k9r(l,k)]]>其中k＝1、2、...、9，接着上述p(k)的方程式可写成矩阵形式对于k＝1、2、...、9的语音特征p(k)通过在两侧乘上上述矩阵的倒数而解出。
图17为普通话元音″ai″的语音特征轮廓图，开始时最大的语音特征为″a″，接着转移成元音″e″及最后″i″变成最大的语音特征。在450ms后，语音特征″u″变成可见，虽然相当短且不显著。本发明经由解体成基本的9个元音实现显著的识别力。通过利用相对投射类似性以增进类似参考元音之间的识别力，甚至可实现更高的话语识别精确性。图18(a)显示对元音″i″(深色点)及元音″iu″(浅色点)的a(8)(″iu″，纵轴)及a(6)(″i″，横轴)的投射类似性。对投射类似性单独而言，识别力不大因为不同元音非常接近在一起，如图18(a)所示。然而，当本发明的语音特征图被利用用于″i″(p(6)，深色阴影)及″iu″(p(8)，浅色阴影)时，识别力被大大地提高，如由图18(b)所示的元音的显著分离可看出。
人类通过数种谱系部分识别来感知话语。本发明包含部分识别，因为如上文中方才述及，元音被解体成9个参考元音的区段。再者，当聆听时，人类忽略许多无关的信息。本发明的9个参考元音用于摒弃许多无关的信息。因此，本发明具体化人类话语感知的特征以实现较高的话语识别。
本发明中的语音特征p(k)的识别力是通过标度因子λ的给定值来控制。如上述p(k)的方程式所示，若λ大时，相对投射类似性r(k，l)的总和被λ压倒。图19为″iu″语音特征(p(8))相对于″i″语音特征(p(6))的图，以λ作为参数，该参数随著灰度的增加具有较大值。λ的较小值使分布分散远离对角线(其代表无识别力)，使得两元音更能识别，从而改良识别精确性。然而，对λ而言，太小值将造成散乱，其难以通过多维量高斯函数在连续HMM(CHMM)识别器114(图1)中形成模型，造成不良的识别精确性。因此，本发明有利地利用标度因子λ的值以最优化识别力，同时限制散乱。
连续的隐藏马尔可夫模型识别器114(图1)利用特征化话语图形帧的频谱特性的统计方法，前提为话语信号可被特征化为参数的随机过程且推测过程的参数可以精确的方式测定。可观察到的马尔可夫模型为其中各状态是对应至确定性可观察到的事件(例如，是否为雨天或晴天)，以及模型的输出为在每一瞬间下的状态组(例如，当下雨的天数)，其中各个状态是对应至可观察到的事件。隐藏马尔可夫模型，另一方面，为双重嵌入的推测过程(例如在窗帘后掷超过一个铜板)，具有基础的推测过程，其并非直接可观察到(隐藏在窗帘后)，但可仅通过另一组推理过程(铜板投掷)观察到，其产生观察的序列。因此，对于离散的符号的观察，HMM的特征在于(a)在模型中状态的数目，(b)每一状态的不同观察符号的数目(例如字母大小)，(c)状态-过渡机率分布，(d)观察符号机率分布，以及(e)初始状态分布。本发明利用隔离的字识别器，用于V个隔离的待识别的字的系统中(每一字通过不同的HMM被模型化)，具有每个字的训练组的K发声(通过一或多者说话者说出)，其中每一发声构成此字的特征的某些代表的一观察序列。对字汇中的每一字v而言，对上述(c)、(d)及(e)的HMM参数必须估计成最优化对用于vth字的训练组值的匹配。本发明通过经由话语的感知频谱及语音特征分析的观察序列的测量来识别每个未知的字。后面接着通过所有可能模型的模型似然性的机率计算，且最后选择具有最高模型似然性的字。机率计算一般是利用最大似然性路径(韦特比算法)而被执行。对HMM的详细说明，参考Rabiner &Juang，Fundamentals of Speech Recognition，第321-389页，Prentice-Hall Signal Processing Series，1993。
由于本发明的感知话语处理器112及语音特征映射器113，输入至连续HMM识别器114的语音特征104优于常规的ASR系统，从而产生更强健及精确的话语识别。图20为添加白噪音至输入话语信号而未在任何训练组中的实验的识别率相对于SNR的图。图20(a)显示辨认列于顶部(top)候选对象以符合话语输入的结果，以及图20(b)是用于顶部三个候选对象(因为许多同音字，一些话语必须根据内容进一步区分)。图的左手侧上方为最佳话语识别表现的区域。标示PF(PS)的曲线代表语音特征加上感知频谱处理结果(换言之，本发明)及最远至左上方。PF(SE)代表语音特征(FFT频谱包络)(亦即，利用感知频谱但无感知频谱处理的话语处理)且是下一个最佳者。MCEP代表现有话语频谱的参数化方法，已知为美-标度逆谱(cepstral)系数及相对于本发明的系统较不能不受噪音影响。CEP代表单独的逆谱系数，无美-标度转换，且至证实美-标度的有效性的MCEP的右方更大。REF(反射系数)及LPC(线性预测编码)为其他现有的话语识别方法，所得结果较不理想。因此，可看出本发明实现话语识别的精确性及强健度。图21为识别率相对于SNR的图，为三噪音话语测试的另一实验的结果，利用9个普通话元音及投射类似性作为连续HMM114的输入，导致增进的识别精确性。PF(PS)代表本发明再次产生最佳的结果。PRJS(PS)代表感知频谱的投射类似性(亦即，无语音特征处理的本发明)，以及PS为单独的感知频谱(亦即，无语音特征处理的投射类似性计算)。本发明不仅实现较强健及精确的话语识别，亦比传统方法可实现较高的计算效率，因为话语频谱参数化被从典型的64降至9。语音特征映射亦较不受噪音影响，部分是因为其重点在决定性的频谱分量且忽略由噪音造成的失真。
为了证明本发明可有效地改良话语识别，图22为外部识别率(％)(使用不同的说话者)相对于内部识别率(％)(使用单一说话者)的图。朝向右手边上方角落的点证实最佳的强健度及精确性。再者，与所有其他者相较，PF(PS)显示最佳的结果。图23为噪音话语识别率(％)(环境噪音)相对于内部识别率(％)(其中具有较理想的聆听条件)的图。朝向右手边上方角落的点证实最佳的强健度及精确性。与其他现有话语识别方法相较，PF(PS)再次显示出最佳的结果。
虽然上文中已完整说明特定的具体实施例，可使用不同的改良、替代性结构及等效物。例如，虽然在本文中的例子显示的是普通话中文，本发明的技术思想是适用于任何具有音节的语言。再者，任何技术，无论是模拟的、数字的、数值的或硬件处理器皆可有利地使用。因此，上述的描述及说明不应对通过后附权利要求定义的本发明的范围造成限制。
权利要求
1.一种用于处理输入话语频谱矢量的话语处理系统，其包含感知话语处理器，用于感知地处理输入话语频谱矢量以产生感知频谱；存储装置，用于存储多个参考频谱矢量；以及语音特征映射器，其与该感知话语处理器及该存储装置耦合，用于将该感知的频谱映射至该多个参考频谱矢量上。
2.根据权利要求1的话语处理系统，其中该感知话语处理器包含遮蔽操纵装置，用于噪音遮蔽输入话语频谱矢量以产生经遮蔽的输入话语频谱矢量；最小可听见的区域曲线重正规化器，耦合至该遮蔽操纵装置，用于将对应至最小可听见的区域的该经遮蔽的输入话语频谱矢量重正规化，以产生重正规化的经遮蔽的输入话语频谱矢量，以及美-标度再取样器，耦合至该最小可听见的区域曲线重正规化器，用于转换该重正规化的经遮蔽的输入话语频谱矢量成美-标度。
3.根据权利要求1的话语处理系统，其中该语音特征映射器包含投射类似性发生器，耦合至该存储装置，用于产生该输入频谱矢量到该多个参考频谱矢量上的多个投射类似性计算；相对投射类似性发生器，耦合至该存储装置，用于产生该输入频谱矢量到该多个参考频谱矢量上的多个相对投射类似性计算；以及选择器，耦合至该投射类似性发生器及该相对投射类似性发生器，用于自对应至该输入话语频谱矢量在该多个参考频谱矢量上的投射类似性及相对投射类似性的相对值的该投射类似性发生器计算及该相对投射类似性发生器计算之间选择一投射类似性。
4.根据权利要求3的话语处理系统，其中该多个参考频谱矢量是由多个静态元音组成。
5.根据权利要求4的话语处理系统，其中该多个静态元音是由9个静态的普通话元音组成。
6.一种用于识别一经取样的话语频谱矢量的话语识别系统，其包含快速傅立叶变换分析仪，用于产生经取样的话语频谱矢量的傅立叶变换，感知话语处理器，耦合至该快速傅立叶变换分析仪，用于处理该傅立叶变换以产生感知频谱；存储装置，用于存储多个参考频谱矢量；以及语音特征映射器，其与该感知话语处理器及该存储装置耦合，用于将该感知频谱映射至该多个参考频谱矢量，从而选择至少一与该感知频谱有最大类似性的参考矢量；以及连续HMM识别器，耦合至该语音特征映射器，用于识别该至少一个参考矢量。
7.根据权利要求6的话语识别系统，其中该多个参考频谱矢量是由多个静态元音组成。
8.根据权利要求7的话语识别系统，其中该多个静态元音是由9个静态的普通话元音组成。
9.一种用于处理一输入话语频谱矢量的话语处理方法，包含下述步骤感知地处理输入话语频谱矢量以产生感知频谱；存储多个参考频谱矢量；以及将该感知频谱映射至该多个参考频谱矢量上。
10.根据权利要求9的话语处理方法，其中该感知地处理步骤进一步包含下述步骤噪音遮蔽输入话语频谱矢量以产生经遮蔽的输入话语频谱矢量；将对应至最小可听见的区域的该经遮蔽的输入话语频谱矢量重正规化，以产生重正规化的经遮蔽的输入话语频谱矢量，以及转换该重正规化的经遮蔽的输入话语频谱矢量成美-标度。
11.根据权利要求9的话语处理方法，其中该映射步骤进一步包含下述步骤产生该输入频谱矢量到该多个参考频谱矢量上的多个投射类似性计算；产生该输入频谱矢量到该多个参考频谱矢量上的多个相对投射类似性计算；以及自对应至该输入话语频谱矢量在该多个参考频谱矢量上的投射类似性及相对投射类似性的相对值的该投射类似性发生器计算及该相对投射类似性发生器计算之间选择一投射类似性。
12.根据权利要求11的话语处理方法，其中该多个参考频谱矢量由多个静态元音组成。
13.根据权利要求12的话语处理方法，其中该多个静态元音由9个静态的普通话元音组成。
14.一种经取样的输入话语频谱矢量的话语识别方法，其包含有步骤利用快速傅立叶变换分析仪，产生该经取样的输入话语频谱矢量的傅立叶变换；通过处理该傅立叶变换以产生感知频谱；存储多个参考频谱矢量；将该感知频谱映射至该多个参考频谱矢量上；选择至少一个与该感知频谱有最大类似性的参考矢量；以及利用一连续HMM识别器识别该至少一个参考矢量。
15.根据权利要求14的话语识别方法，其中该多个参考频谱矢量由多个静态元音组成。
16.根据权利要求15的话语识别方法，其中该多个静态元音由9个静态的普通话元音组成。
全文摘要
一种用于精确及强健的话语识别的完整系统及方法，其以将三种感知处理技术应用至话语傅里叶频谱为基础，以通过将感知频谱投射至一组参考元音频谱矢量上以供输入至话语识别器以实现清晰的感知频谱及该感知频谱的精确识别。本发明包含一感知话语处理器，用于感知地处理输入的话语频谱矢量以产生一感知频谱；一存储装置，用于存储多个参考频谱矢量；及一语音特征映射器，其与该感知话语处理器及该存储装置耦合，用于将该感知的频谱映射至该多个参考频谱矢量上。
文档编号G10L15/00GK1400583SQ0112405
公开日2003年3月5日申请日期2001年8月8日优先权日2001年8月8日
发明者卜令楷, 阙志达申请人:韦尔博泰克公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卜令楷;阙志达
技术所有人：韦尔博泰克公司
我是此专利的发明人