语音识别方法、装置、电子设备和存储介质与流程

文档序号：34811746发布日期：2023-07-19 13:34阅读：55来源：国知局

本发明涉及语音识别，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术：

1、语音识别(automatic speech recognition,asr)是将人类语音内容转换为计算机可读的输入，通常是可理解的文本内容，也就是语音转文本。

2、目前，多通过端到端的语音识别模型进行语音识别，该模型通常包括前端特征提取器，ctc分支和attention分支。其中，在对模型进行训练时，为了屏蔽掉每个字符对于未来所有字符的关联，需要在attention分支中的注意力矩阵(attention matrix)上添加下三角矩阵的屏蔽，得到下三角注意力矩阵，并将下三角注意力矩阵与价值矩阵相乘。由于下三角注意力矩阵中参与计算的对角线右上部分值为零，从而这部分计算对结果的贡献为零，进而不仅增加了计算量，而且降低了语音识别模型的训练效率。

技术实现思路

1、本发明提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中语音识别模型计算量较大且模型训练效率较低的缺陷。

2、本发明提供一种语音识别方法，包括：

3、确定待识别语音；

4、将所述待识别语音输入至语音识别模型，得到所述语音识别模型输出的语音识别结果；

5、其中，所述语音识别模型是基于样本语音及其对应的样本语音识别结果训练得到；所述语音识别模型的注意力层用于将各分块注意力矩阵与价值矩阵做矩阵乘；各分块注意力矩阵是对所述注意力层的下三角注意力矩阵依次进行纵向切分和横向截断，或对所述下三角注意力矩阵依次进行横向切分和纵向截断后，去除零矩阵得到的。

6、根据本发明提供的一种语音识别方法，各分块注意力矩阵基于如下步骤确定：

7、对所述下三角注意力矩阵进行纵向切分后，得到多个纵切矩阵；

8、以各纵切矩阵第一列的第一个非零元素作为起点，向上偏移第一元素间隔，对各纵切矩阵进行横向截断后，去除零矩阵，得到对应的分块注意力矩阵；

9、或，

10、对所述下三角注意力矩阵进行横向切分后，得到多个横切矩阵；

11、以各横切矩阵最下行的最后一个非零元素作为起点，向右偏移第二元素间隔，对各横切矩阵进行纵向截断后，去除零矩阵，得到对应的分块注意力矩阵。

12、根据本发明提供的一种语音识别方法，各纵切矩阵的宽度相同，各横切矩阵的高度相同。

13、根据本发明提供的一种语音识别方法，各纵切矩阵的宽度大于等于64，各横切矩阵的高度大于等于64。

14、根据本发明提供的一种语音识别方法，所述第一元素间隔为零，所述第二元素间隔为零。

15、根据本发明提供的一种语音识别方法，还包括：

16、注意力矩阵是对所述注意力层的下三角注意力矩阵依次进行纵向切分和横向截断的情况下，所述注意力层用于将各分块注意力矩阵与价值矩阵做矩阵乘结果进行叠加。

17、根据本发明提供的一种语音识别方法，还包括：

18、在各分块注意力矩阵是对所述下三角注意力矩阵依次进行横向切分和纵向截断得到的情况下，所述注意力层用于将各分块注意力矩阵与价值矩阵做矩阵乘结果进行垒叠。

19、本发明还提供一种语音识别装置，包括：

20、确定单元，用于确定待识别语音；

21、识别单元，用于将所述待识别语音输入至语音识别模型，得到所述语音识别模型输出的语音识别结果；

22、其中，所述语音识别模型是基于样本语音及其对应的样本语音识别结果训练得到；所述语音识别模型的注意力层用于将各分块注意力矩阵与价值矩阵做矩阵乘；各分块注意力矩阵是对所述注意力层的下三角注意力矩阵依次进行纵向切分和横向截断，或对所述下三角注意力矩阵依次进行横向切分和纵向截断后，去除零矩阵得到的。

23、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

24、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

25、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

26、本发明提供的语音识别方法、装置、电子设备和存储介质，对注意力层的下三角注意力矩阵依次进行纵向切分和横向截断，或对下三角注意力矩阵依次进行横向切分和纵向截断后，去除零矩阵得到多个分块注意力矩阵。由于分块注意力矩阵中不存在零矩阵，进而零矩阵也不会参与矩阵乘的运算，减少了不必要的运算代价，相比于传统方法中将整个下三角注意力矩阵与价值矩阵做完整的矩阵乘运算，减少了零元素部分的乘法运算，加快了整体的运算速度，提高了模型的训练效率。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，各分块注意力矩阵基于如下步骤确定：

3.根据权利要求2所述的语音识别方法，其特征在于，各纵切矩阵的宽度相同，各横切矩阵的高度相同。

4.根据权利要求3所述的语音识别方法，其特征在于，各纵切矩阵的宽度大于等于64，各横切矩阵的高度大于等于64。

5.根据权利要求2所述的语音识别方法，其特征在于，所述第一元素间隔为零，所述第二元素间隔为零。

6.根据权利要求1所述的语音识别方法，其特征在于，还包括：

7.根据权利要求1所述的语音识别方法，其特征在于，还包括：

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。

技术总结
本发明提供一种语音识别方法、装置、电子设备和存储介质，该方法包括将待识别语音输入至语音识别模型，得到语音识别模型输出的语音识别结果；其中，语音识别模型的注意力层用于将各分块注意力矩阵与价值矩阵做矩阵乘；各分块注意力矩阵是对注意力层的下三角注意力矩阵依次进行纵向切分和横向截断，或对下三角注意力矩阵依次进行横向切分和纵向截断后，去除零矩阵得到的。由于分块注意力矩阵中不存在零矩阵，进而零矩阵也不会参与矩阵乘的运算，减少了不必要的运算代价，相比于传统方法中将整个下三角注意力矩阵与价值矩阵做完整的矩阵乘运算，减少了零元素部分的乘法运算，加快了整体的运算速度，提高了模型的训练效率。

技术研发人员：请求不公布姓名
受保护的技术使用者：上海壁仞智能科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名
技术所有人：上海壁仞智能科技有限公司
我是此专利的发明人