一种语音辨识定点化处理方法

文档序号：2837555阅读：595来源：国知局

专利名称：：一种语音辨识定点化处理方法
技术领域：
：本发明涉及一种语音辨识定点化处理方法，尤其是关于以整数算法来实现语音辨识定点化处理的方法。技术背景随着科技的进步，各式各项的电子产品推陈出新，然而对于多数不熟悉电子产品的使用者而言，使用接口仍是使用电子产品的最大障碍。不友善的使用界面不仅让使用者感到挫折，甚至让有些使用者对使用电子产品觉得反感与恐惧。因此，「口语对话」这种最方便、自然、不需要特别学习就能使用的沟通媒介，长久以来就被高度地期待。随着行动通讯的发展，这样的需求也愈来愈迫切。在可预见的未来，手持的行动装置将不仅是人们沟通的工具，更将会是人们获取信息的重要工具。而手持设备走向轻、薄、短、小的趋势，使得语音对话技术在下一代行动通讯系统中变得不可或缺，在硬件技术的进步，语音辨识已能应用于手机、PDA、玩具等小型装置上，但仅能做到简单的拨号或命令控制功能，还未能够支持自然的口语对话功能。而此些小型装置的体积越做越小功能却越做越强，几乎各种多媒体应用都被希望能放入这些产品中，使得此类消费产品更具市场吸引力；语音辨识便是其中一项，在小型化的产品上提供最直接及方便的输入方式，例如声控自动拨号。然而在有限资源的硬件及软件上，处理单元执行速度慢，内存小，许多在计算机平台上开发的技术及算法都必须做大幅修正才能放进这类平台内，以提升辨识速度，减少内存使用量以符合硬件规格，同时还需确保辨识效能不因此而变差。
发明内容本发明为解决
背景技术：
中存在的上述技术问题，而提供一种减少硬件资源的使用量的语音辨识定点化处理方法。本发明的技术解决方案是本发明为一种语音辨识定点化处理方法，其特殊之处在于该方法包括以下步骤11)提供语音讯号；12)利用整数算法求取语音讯号的倒频谱系数；13)建立语音讯号的长整数型态的声学模型；14)利用倒频谱系数与声学模型进行维特比算法，得到辨识比对值。上述步骤12)中利用整数算法求取语音讯号的倒频谱系数的具体步骤如下21)获取语音讯号形成音框；22)集中音框中的语音讯号的能量；23)转换音框中的语音讯号，形成频谱频域中的频谱讯号；24)取得频谱讯号的平方后，输入三角滤波器；25)将经过滤波的数值取自然数对数，得到对数值，自然数对数的求取为利用其运算特性，在乘上一常数后，所建对数表求取；26)经由离散余弦变换后，得到梅尔倒频谱系数。本发明的语音辨识定点化处理方法，利用整数算法求取语音讯号的倒频谱系数，并建立语音讯号的一长整数型态的声学模型，最后利用倒频谱系数与声学模型进行维特比算法，得到辨识比对值。通过整数算法及长整数型态的声学模型，来实现语音辨识定点化处理，可减少硬件资源的使用量。图l是本发明的方法流程图；图2是本发明的求取梅尔倒频谱系数流程图；图3是本发明的求取梅尔倒频谱系数的具体实施例流程图。具体实施方式参见图l，本发明的语音辨识定点化处理方法如下Sll:提供语音讯号；S12:利用整数算法求取语音讯号的倒频谱系数；S13:建立语音讯号的一长整数型态的声学模型；S14:利用倒频谱系数与声学模型进行维特比算法，得到辨识比对值。上述的倒频谱系数包括为一梅尔倒频谱系数(Mel-FrequencyCepstrumCoefficients,MFCC)，长整数型态的声学模型所存的数值可表示为Mean*32768*2048、Variable*32768*2048、(TransitionProbability)*32768及Gconst*32768，于求取辨识比对值时，Mean与Variable与梅尔倒频谱系数CV作运算，其结果再与Gconst及TransitionProbability作运算，经由前述定点方式求得的Cm僮已scale32768*2048，因此将Mean与Variablescale32768*2048后与C^值运算，再将运算结果值向右移llbits，再与scale为32768之Gconst及TransitionProbability作运算。参见图2，梅尔倒频谱系数的求取步骤如下S21:获取语音讯号形成复数个音框；S22:集中音框中的语音讯号的能量；S23:转换音框中的语音讯号，形成一频谱频域中的一频谱讯号；S24:取得频谱讯号的平方后，输入至少一三角滤波器；S25:将经过滤波的数值取自然数对数，得到复数个对数值，自然数对数的求取为利用其运算特性，在乘上一常数后，所建对数表求取；S26:经由离散余弦变换后，得到梅尔倒频谱系数。上述的音框获取是将语音讯号复数个取样点，选取一固定数量的取样点集合成一个音框(Frame)，此固定数量较佳可为256点，其涵盖时间约32ms，并正规化所取得的音框，以放大其值，前述的音框间的取样点一般可为部份相互涵盖；所获取音框中的语音讯号是以少[/H^']-(15564x力'-l])》14，0S/^Framesize，作为加强中高频部位的演算式；音框中的语音讯号更以W]=(40x//W)15，0^'^Framesize,作为集中能量的演算式，//[/]的演算式为//[/]=16384-16384xcostable[/]l，0〇/当Framesize，其是将值为画11的cos乘上如32768之值，使范围变成-3276832768;之后，是以7[d=(;c[/]xCOstable[/xA/])15，0〇/〇Framesize，0§1，进行快速傅利叶转换(FastFourierTransform),将语音讯号转换为频谱讯号；将24个三角滤波器中01的值乘上32768，使范围变成032768，放到滤波器中，其演算式如所示，其/=1，2,...，24，F阅为快速傅利叶转换的输出结果，71/]为第/个滤波器的输出，这些三角滤波器系与使用者感知度相关；取对数的演算式如logtable[/]=ln(/+l)x2048，0SK1024;进行离散余弦变换的演算、《w式系为CM=J][yt。][M]x参见图3，梅尔倒频谱系数的求取具体实施例的流程步骤如下S301:接收频率8KHz，16bits的语音讯号；S302:切出涵盖32ms的音框；S303:加强中高频；S304:汉宁窗化处理；S305:进行快速傅利叶转换处理；S306:输出频谱；S307:将输出频谱取平方；S308:以三角滤波器滤波；S309:输出梅尔加权频谱；S310:对梅尔加权频谱取对数；S311:进行离散余弦转换；S312:输出12阶梅尔倒频谱系数；S313:进行数值微分；以及S314:输出24元声学向量。上述24元声学向量包含有12阶梅尔倒频谱系数及12个一阶导数。权利要求1、一种语音辨识定点化处理方法，其特征在于该方法包括以下步骤11)提供语音讯号；12)利用整数算法求取语音讯号的倒频谱系数；13)建立语音讯号的长整数型态的声学模型；14)利用倒频谱系数与声学模型进行维特比算法，得到辨识比对值。2、根据权利要求1所述的一种语音辨识定点化处理方法，其特征在于:所述步骤12)中利用整数算法求取语音讯号的倒频谱系数的具体步骤如下-21)获取语音讯号形成音框；22)集中音框中的语音讯号的能量；23)转换音框中的语音讯号，形成频谱频域中的频谱讯号；24)取得频谱讯号的平方后，输入三角滤波器；25)将经过滤波的数值取自然数对数，得到对数值，自然数对数的求取为利用其运算特性，在乘上一常数后，所建对数表求取；26)经由离散余弦变换后，得到梅尔倒频谱系数。全文摘要本发明涉及一种语音辨识定点化处理方法，本发明所提供的语音辨识定点化处理方法包括以下步骤11)提供语音讯号；12)利用整数算法求取语音讯号的倒频谱系数；13)建立语音讯号的长整数型态的声学模型；14)利用倒频谱系数与声学模型进行维特比算法，得到辨识比对值。本发明提供了一种减少硬件资源使用量的语音辨识定点化处理方法。文档编号G10L15/00GK101217034SQ20071030652公开日2008年7月9日申请日期2007年12月28日优先权日2007年12月28日发明者赵仁宏,陈淮琰申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵仁宏;陈淮琰
技术所有人：无敌科技(西安)有限公司
我是此专利的发明人

上一篇：一种数字音乐作品的无损数字水印嵌入与提取方法
上一篇：一种活动语音端点的侦测方法