语音识别的方法、装置及存储介质与流程

文档序号：23007841发布日期：2020-11-20 12:02阅读：来源：国知局

技术特征：

1.一种语音识别的方法，其特征在于，所述方法包括：

当接收到语音信息时，将所述语音信息输入到生成的语音识别模型；

通过所述语音识别模型输出识别结果；

其中，生成所述语音识别模型，包括：对超网络进行训练，其中，所述超网络包括多层网络层，每一所述网络层包括m个子结构，所述m个子结构中的至少一个所述子结构包括时序卷积网络模块，m为大于或等于2的正整数；

根据训练结果，分别从每一所述网络层的m个子结构中确定与所述网络层对应的目标子结构；

根据每一所述网络层对应的所述目标子结构，生成所述语音识别模型。

2.根据权利要求1所述的方法，其特征在于，每一所述网络层的多个子结构中各自包括的所述时序卷积网络模块是根据预设的至少一个卷积核大小确定的，其中，每一所述卷积核大小对应的时序卷积网络模块包括包含压缩激励模块的时序卷积网络模块和不包含所述压缩激励模块的时序卷积网络模块。

3.根据权利要求1所述的方法，其特征在于，所述多个网络层中包括普通网络层和下采样网络层，所述普通网络层的子结构中包括普通时序卷积网络模块，所述下采样网络层的子结构中包括下采样时序卷积网络模块。

4.根据权利要求1所述的方法，其特征在于，每一所述网络层包括m个结构参数，所述m个结构参数与所述m个子结构一一对应，所述时序卷积网络模块包括网络参数；

所述对超网络进行训练，包括：

遍历训练样本，并将当前遍历到的所述训练样本作为目标训练样本；

根据所述目标训练样本，对每一所述网络层的所述m个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新，其中，在对所述结构参数进行更新时，所述网络参数保持不变，在对所述网络参数进行更新时，所述结构参数保持不变；

在全部所述训练样本遍历完成的情况下，确定所述超网络是否符合收敛条件；

在所述超网络符合所述收敛条件的情况下，停止训练，并获得所述训练结果；

在所述超网络不符合所述收敛条件的情况下，重新执行所述遍历训练样本，并将当前遍历到的所述训练样本作为目标训练样本的步骤至所述根据所述目标训练样本，对每一所述网络层的所述m个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新的步骤。

5.根据权利要求4所述的方法，其特征在于，每一所述网络层中包括归一化函数；所述根据训练结果，分别从每一所述网络层的m个子结构中确定与所述网络层对应的目标子结构，包括：

针对每一所述网络层，根据所述训练结果，确定所述网络层的m个结构参数中使得所述归一化函数最大的目标结构参数，并将所述目标结构参数对应的子结构，作为所述目标子结构。

6.根据权利要求1所述的方法，其特征在于，所述m个子结构中至少一个子结构为跳跃连接。

7.根据权利要求1所述的方法，其特征在于，所述根据每一所述网络层对应的所述目标子结构，生成所述语音识别模型，包括：

将每一所述网络层对应的所述目标子结构依次连接，得到子网络；

根据训练样本对所述子网络进行训练，得到所述语音识别模型。

8.根据权利要求1所述的方法，其特征在于，所述通过所述语音识别模型输出识别结果，包括：

对所述语音信息进行预处理，得到所述语音信息对应的频谱信息；

通过所述语音识别模型对所述频谱信息进行处理，以得到所述语音信息对应的识别结果。

9.一种语音识别的装置，其特征在于，所述装置包括：

输入模块，被配置成用于当接收到语音信息时，将所述语音信息输入到生成的语音识别模型；

识别模块，被配置成用于通过所述语音识别模型输出识别结果；

其中，生成所述语音识别模型的生成装置，包括：超网络训练模块，被配置成用于对超网络进行训练，其中，所述超网络包括多层网络层，每一所述网络层包括m个子结构，所述m个子结构中的至少一个所述子结构包括时序卷积网络模块，m为大于或等于2的正整数；

目标子结构确定模块，被配置成用于根据训练结果，分别从每一所述网络层的m个子结构中确定与所述网络层对应的目标子结构；

模型生成模块，被配置成用于根据每一所述网络层对应的所述目标子结构，生成所述语音识别模型。

10.一种语音识别的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

当接收到语音信息时，将所述语音信息输入到生成的语音识别模型；

通过所述语音识别模型输出识别结果；

根据训练结果，分别从每一所述网络层的m个子结构中确定与所述网络层对应的目标子结构；

根据每一所述网络层对应的所述目标子结构，生成所述语音识别模型。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～8中任一项所述方法的步骤。

技术总结
本公开涉及一种语音识别的方法、装置及存储介质。该方法包括：当接收到语音信息时，将语音信息输入到生成的语音识别模型；通过语音识别模型输出识别结果；其中，生成语音识别模型，包括：对超网络进行训练，其中，所述超网络包括多层网络层，每一所述网络层包括M个子结构，所述M个子结构中的至少一个所述子结构包括时序卷积网络模块，M为大于或等于2的正整数；根据训练结果，分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构；根据每一所述网络层对应的所述目标子结构，生成所述语音识别模型。通过上述技术方案，提高语音识别模型的性能，保证语音识别的准确性，并且提高对语音信息的识别速度和响应速度。

技术研发人员：张勃;初祥祥;李庆源
受保护的技术使用者：北京小米松果电子有限公司
技术研发日：2020.08.07
技术公布日：2020.11.20

完整全部详细技术资料下载

当前第2页1 2