一种应用于英语口语网络机考系统的语音识别装置的制作方法

文档序号:2819033阅读:576来源:国知局
专利名称:一种应用于英语口语网络机考系统的语音识别装置的制作方法
技术领域
一种应用于英语口语网络机考系统的语音识别装置
技术领域
本实用新型涉及一种语音识别装置。特别涉及一种用于英语口语网络机考的语音识别装置。
背景技术
我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目,并于2008年12月20日在全国53所高校实施大学英语网考点考试。随着我国四、六级网考点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端,无论对考生还是大学英语老师都是一个巨大的挑战,是英语教学理念中的一场革命。在大学英语网考的口语测试系统中,语音识别装置居于核心地位。在传统的语音识别装置的基础上,应用于英语口语网络机考的语音识别装置需要具有以下特性.首先,英语口语网络机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的,因此对语音识别装置的一般要求是面对非特定人的。其次,语音识别装置需要对由终端机、传输网络和背景噪声所带来的不利影响具有较强的鲁棒性。此外,要求其具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销。因此,在这种情况下,传统的基于隐马尔科夫模型(HMM)的语音识别方法由于需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间,并且对于噪声的鲁棒性较差,因此无法应用于面向英语口语网络机考的语音识别装置。

发明内容为了解决上述的缺陷和不足,本实用新型提供了一种智能电视终端。本实用新型所采用的技术方案是一种用于英语口语网络机考的语音识别装置,包括输入接口模块、模数转换器、数字信号处理器模块、存放提示语音的程序存储器、存放所有的码本及采样的语音数据的数据存储器和输出接口模块;语音信号依次经输入接口模块和模数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端。所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重,再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法, 生成后续识别时需要用到的码本;对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。所述改进的矢量量化的训练算法,步骤包括首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集; 在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定(这些语音类别是根据网考的实际情况来,M = 2 10,换算成类别的话数目是 4 IOM这样一个范围,这个类别范围内都可以用本方法。至于具体网考中有多少类别需要识别,直接用类别数求以2为底的对数,就可以得到M的取值了。),取值范围为M = 2 10。特征提取子模块对输入语音信号提取其相关的特征参数,过程为将语音信号经过采样,Ι-aZ—1的预加重,并且通过加窗将其分为一帧一帧的语音;对每一帧语音sn,首先进行线性预测分析,通过Levinson-Durbin算法求出其ρ阶的线性预测系数LPC El1,El2,...,Elp ;接着,由LPC通过递推,获得倒谱系数Cl,C2, ... , cp,递推公式如下C1 = Ei权利要求1. 一种用于英语口语网络机考的语音识别装置,其特征在于,包括输入接口模块、模数转换器、数字信号处理器模块、存放提示语音的程序存储器、存放所有的码本及采样的语音数据的数据存储器和输出接口模块;语音信号依次经输入接口模块和模数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端。
专利摘要本实用新型公开了一种用于英语口语网络机考的语音识别装置,属于语音识别的应用领域。该装置由输入I/O、模数转换器、数字信号处理器模块、分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器、输出I/O组成。其中数字信号处理器模块包括特征提取子模块、训练子模块和识别子模块,完成对输入语音的训练和识别过程。该装置结构简单,具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销,语音识别率高,识别效果好,可以很好地应用于英语口语网络机考中。
文档编号G10L15/06GK202307118SQ20112034099
公开日2012年7月4日 申请日期2011年9月13日 优先权日2011年9月13日
发明者储琢佳, 刘健刚, 唐加能, 张萍, 李霄翔, 李鲁, 董静, 赵力, 魏昕 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1