语音识别方法和装置的制造方法

文档序号：9922692阅读：680来源：国知局

语音识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音信息处理和软件领域，特别涉及一种语音识别方法和装置。
【背景技术】
[0002]随着语音交互技术不断的发展，语音识别技术已经较为成熟完善。但受限于用户群体和语料的采集难度，儿童语音识别效率一直没有很好的提升手段。
[0003]在现有技术中，一种针对儿童的语音识别方法在提取语料声学特征的过程中加入声道长度归一化技术，以此来提升儿童语音的识别效率，并通过叠加多个模型的方式来训练声学模型。然而，现有主流的语音识别交互技术中，受限于语料的采集渠道和采集成本，目前成熟的语料库都只针对于成人的语音识别，鲜有儿童语料。同成年人的发音相比，儿童的发音发声速度变化迅速，咬字不准导致发音不清晰等问题，导致现有的语音识别徐婷对儿童的语音识别准确率极低。并且现有的声学模型构建多是采用高斯混合模型与隐马尔科夫模型相结合的方式，依据现有的特征提取方式，提取出的特征维度较少，不能很好的描述语音本身。

【发明内容】

[0004]基于此，需要提供一种能更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术。
[0005]为实现上述目的，发明人提供了一种语音识别方法，包括如下步骤:
[0006]以预设采样参数以及预设格式存储儿童语音信息；
[0007]从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；
[0008]训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型；
[0009]以gmm-hmm模型为基础初始化一深度信念网络；
[0010]以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；
[0011]利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
[0012]进一步地，所述的语音识别方法中，步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括:
[0013]提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型；
[0014]训练所述输入信息的第一层受限玻尔兹曼机；
[0015]以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机；
[0016]对顶层受限玻尔兹曼机，结合带分类标签的训练数据进行训练，并得到初始化的深度信念网络
[0017]进一步地，所述的语音识别方法中，所述“每帧音频及其前后若干帧音频”具体包括:
[0018]每帧音频及其前4帧和后4帧音频；
[0019]每帧音频及其前5帧和后5帧音频；
[0020]每帧音频及其前4帧和后5帧音频;或
[0021]每帧音频及其前5帧和后4帧音频。
[0022]进一步地，所述的语音识别方法中，步骤“训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机”具体包括:
[0023]使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
[0024]进一步地，所述的语音识别方法中，所述“预设采样参数以及预设格式”具体包括:
[0025]采样率为8000、16000或22050Hz;
[0026]采样位数为8位、16位或24位；
[0027]单声道的wav格式或mp3格式。
[0028]进一步地，所述的语音识别方法中，所述“预设采样参数以及预设格式”具体为:
[0029]采样率为16000Hz、采样位数为16位、单声道的wiv格式。
[0030]进一步地，所述的语音识别方法中，步骤“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:
[0031]训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率。
[0032]进一步地，所述的语音识别方法中，所述步骤“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型”具体包括:
[0033]经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐，改变原gmm-hmm模型的状态输出概率，得到基于深度信念网络的dnn-hmm模型。
[0034]发明人同时还提供了一种语音识别装置，包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元；
[0035]所述存储单元用于以预设采样参数以及预设格式存储儿童语音信息；
[0036]所述参数提取单元用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数，并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数；
[0037]所述第一建模单元用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫丰旲型;
[0038]所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络，并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型；
[0039]所述识别单元用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
[0040]进一步地，所述的语音识别装置中，第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括:
[0041]提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型；
[0042]训练所述输入信息的第一层受限玻尔兹曼机；
[0043]以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机；
[0044]对顶层受限玻尔兹曼机，结合带分类标签的训练数据进行训练，并得到初始化的深度信念网络
[0045]进一步地，所述的语音识别装置中，所述“每帧音频及其前后若干帧音频”具体包括:
[0046]每帧音频及其前4帧和后4帧音频；
[0047]每帧音频及其前5帧和后5帧音频；
[0048]每帧音频及其前4帧和后5帧音频;或
[0049]每帧音频及其前5帧和后4帧音频。
[0050]进一步地，所述的语音识别装置中，第二建模单元训练第二层受限玻尔兹曼机，直至顶层受限玻尔兹曼机具体包括:
[0051]使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
[0052]进一步地，所述的语音识别装置中，所述“预设采样参数以及预设格式”具体包括:
[0053]采样率为8000、16000或22050Hz;
[0054]采样位数为8位、16位或24位；
[0055]单声道的wav格式或mp3格式。
[0056]进一步地，所述的语音识别装置中，所述“预设采样参数以及预设格式”具体为:
[0057]采样率为16000Hz、采样位数为16位、单声道的wiv格式。
[0058]进一步地，所述的语音识别装置中，第一建模单元训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型具体包括:
[0059]训练各状态的高斯混合模型，每一状态由若干帧构成；以各状态为基础构建隐马尔科夫模型，确定每个状态之间的状态转移概率。
[0060]进一步地，所述的语音识别装置中，第二建模单元以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整，得到基于深度信念网络的dnn-hmm模型具体包括:
[0061]经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐，改变原gmm-hmm模型的状态输出概率，得到基于深度信念网络的dnn-hmm模型。
[0062]区别于现有技术，上述技术方案通过采集儿童发音语料，利用深度学习的方法提取儿童语料中的特征参数，利用特征参数对现有的hmm声学模型进行修改，以适应儿童的发音;构建深度神经网络提取音频特征，相比普通的特征提取方式，以更丰富的帧数据作为输入，大大丰富了语音特征的参数个数，提取的特征更能全面、具体的刻画每帧音频，并且利用深度神经网络提升现有的gmm-hmm模型，形成dnn-hmm模型，而不是将多个声学模型进行简单的叠加，由此可大大拓展对儿童的语音识别能力。
【附图说明】
[0063]图1为本发明一实施方式所述的语音识别方法的流程图；
[0064]图2为本发明一实施方式所述的语音识别装置的结构示意图。
[0065]附图标记说明:
[0066]1-存储单元
[0067]2-参数提取单元
[0068]3-第一建模单元
[0069]4-第二建模单元
[0070]5-识别单元
【具体实施方式】
[0071]为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
[0072]请参阅图1，为本发明一实施方式所述的语音识别方法的流程图；所述方法包括如下步骤:
[0073]S1、以预设采样参数以及预

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范思楠;齐昕;关胤;王维兰;吴拥民;陈宏展;刘德建;
技术所有人：福建天晴数码有限公司;
我是此专利的发明人

上一篇：基于Top-k加强音频词袋模型的语音情感识别方法
上一篇：自动选择伴奏的方法和装置的制造方法