语音识别模型训练方法、系统、移动终端及存储介质与流程

文档序号：20788659发布日期：2020-05-19 21:57阅读：来源：国知局

技术特征：

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

根据所述训练集中的声学特征训练单音素声学模型，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。

2.如权利要求1所述的语音识别模型训练方法，其特征在于，所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前，所述方法还包括：

获取数据集，并对所述数据集进行划分，以得到所述训练集、所述测试集和验证集；

对所述文本语料进行语音过滤，并对所述转写文本进行文本优化。

3.如权利要求2所述的语音识别模型训练方法，其特征在于，所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后，所述方法还包括：

控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码，以得到验证解码结果；

根据所述验证解码结果查询模型调整参数，并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。

4.如权利要求1所述的语音识别模型训练方法，其特征在于，所述方法还包括：

获取待识别语音，并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码，以得到识别词格，所述识别词格中存储有多个候选序列；

根据所述语言模型对所述识别词格进行重打分，以得到识别得分，并将所述识别得分中最大值对应的所述候选序列进行输出，以得到语音识别结果。

5.如权利要求1所述的语音识别模型训练方法，其特征在于，所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括：

获取所述声学特征的使用频率，并根据所述使用频率对所述声学特征进行排序；

获取本地预存储的特征数量值，并根据所述特征数量值对排序后的所述声学特征进行获取；

根据获取到的所述声学特征进行所述单音素声学模型的训练。

6.如权利要求4所述的语音识别模型训练方法，其特征在于，所述根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的步骤之后，所述方法还包括：

根据所述单音素声学模型对音素进行对齐。

7.一种语音识别模型训练系统，其特征在于，所述系统包括：

语言模型训练模块，用于获取文本语料及训练集中所述文本语料对应的转写文本，并分别对所述文本语料和所述转写文本进行语言模型训练；

声学模型训练模块，用于根据所述训练集中的声学特征训练单音素声学模型，对所述声学特征进行差分处理，以得到差分特征，并根据所述差分特征对所述训练集进行三音素模型训练，得到三音素声学模型；

向量变换模块，用于根据三音素声学模型对音素进行对齐，并对所述声学特征进行向量变换，得到特征向量；

链模型训练模块，用于根据所述特征向量训练所述三音素声学模型，并根据所述三音素声学模型训练链模型；

模型测试模块，用于控制所述链模型、所述语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。

8.如权利要求7所述的语音识别模型训练系统，其特征在于，所述语音识别模型训练系统还包括：

数据集划分模块，用于获取数据集，并对所述数据集进行划分，以得到所述训练集、所述测试集和验证集；

对所述文本语料进行语音过滤，并对所述转写文本进行文本优化。

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别模型训练方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别模型训练方法的步骤。

技术总结
本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质，该方法包括：获取文本语料及转写文本进行语言模型训练；根据训练集中的声学特征训练单音素声学模型，对声学特征进行差分处理，得到差分特征，根据差分特征对训练集进行三音素模型训练；根据三音素声学模型对音素进行对齐，对声学特征进行向量变换，得到特征向量；根据特征向量训练三音素声学模型，根据三音素声学模型训练链模型；控制链模型、语言模型和发音词典对测试集进行解码，当测试解码结果满足合格条件时，判定语音识别模型训练合格。本发明通过训练链模型的设计，提高了语音识别模型整体的识别效果，防止了由于采用生成式的声学模型所导致的识别效果低的现象。

技术研发人员：徐敏;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤
受保护的技术使用者：厦门快商通科技股份有限公司
技术研发日：2020.01.17
技术公布日：2020.05.19

完整全部详细技术资料下载

当前第2页1 2