一种语音识别方法、声学模型的训练方法、装置及设备与流程

文档序号：34816077发布日期：2023-07-19 18:58阅读：73来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音处理技术，尤其涉及一种语音识别方法、声学模型的训练方法、装置及设备。

背景技术：

1、语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。现今，语音识别技术已获得长足的进展，在一些主要语种如汉语、英语、法语等语言上已经达到了不错的效果。

2、目前，语音识别的一种方式是通过人工标定的语音样本和对应的语种的字符对神经网络进行训练，得到声学模型，再通过声学模型对待识别语音进行语音识别。

3、然而实际中，一些小语种的字符的语音样本的数量较少，如泰语等，使得声学模型的识别准确度较低，进而导致语音识别的准确度低。

技术实现思路

1、本申请提供一种语音识别方法、声学模型的训练方法、装置及设备，用以解决一些小语种的字符的语音样本的数量较少，使得声学模型的识别准确度较低，进而导致语音识别的准确度低的问题。

2、第一方面，本申请提供一种语音识别方法，包括：接收语音识别请求，所述语音识别请求包括目标语种的待识别语音；对所述待识别语音进行特征提取，得到语音特征；将所述语音特征输入第一声学模型，得到声学特征，所述声学特征中包括所述待识别语音的可能性字符，所述第一声学模型是根据第一语音样本和第二语音样本，基于神经网络进行训练得到的用于识别语音数据中所述目标语种的可能性字符的模型，所述第一语音样本包括人工标定的多个语音样本和对应的所述目标语种的字符，所述第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的所述目标语种的字符；根据所述声学特征，确定所述目标语种语音的语音识别结果；输出所述目标语种语音的语音识别结果。

3、第二方面，本申请提供一种声学模型的训练方法，包括：获取第一语音样本和第二语音样本，所述第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符，所述第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的所述目标语种的字符；根据所述第一语音样本和所述第二语音样本对神经网络进行训练，得到第一声学模型。

4、第三方面，本申请提供一种语音识别装置，包括：接收模块，用于接收语音识别请求，所述语音识别请求包括目标语种的待识别语音；特征提取模块，用于对所述待识别语音进行特征提取，得到语音特征；输入模块，用于将所述语音特征输入第一声学模型，得到声学特征，所述声学特征中包括所述待识别语音的可能性字符，所述第一声学模型是根据第一语音样本和第二语音样本，基于神经网络进行训练得到的用于识别语音数据中所述目标语种的可能性字符的模型，所述第一语音样本包括人工标定的多个语音样本和对应的所述目标语种的字符，所述第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的所述目标语种的字符；确定模块，用于根据所述声学特征，确定所述目标语种语音的语音识别结果；输出模块，用于输出所述目标语种语音的语音识别结果。

5、第四方面，本申请提供一种声学模型的训练装置，包括：获取模块，用于获取第一语音样本和第二语音样本，所述第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符，所述第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的所述目标语种的字符；训练模块，用于根据所述第一语音样本和所述第二语音样本对神经网络进行训练，得到第一声学模型。

6、第五方面，本申请提供一种电子设备，包括：存储器，处理器；存储器，用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为实现如第一方面所述的方法。

7、第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

8、第七方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法。

9、本申请提供的语音识别方法、声学模型的训练方法、装置及设备，接收语音识别请求，该语音识别请求包括目标语种待识别语音数据，对待识别语音进行语音特征提取，得到语音特征，以及将语音特征输入第一声学模型，得到声学特征，声学特征中包括待识别语音的可能性字符，第一声学模型是根据第一语音样本和第二语音样本，基于神经网络进行训练得到的用于识别语音数据中目标语种的可能性字符的模型，第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符，第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的目标语种的字符，根据声学特征，确定目标语种语音的语音识别结果，并输出语音识别结果。由于第二语音样本中包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的目标语种的字符，因此，能够实现获得未人工标定的语音样本对应的目标语种的字符，根据未人工标定的语音样本进行模型训练，从而提高深度学习模型对小语种这类低资源语言进行字符识别的准确度，进而提高语音识别的准确度。

技术特征：

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述语音特征输入所述第一声学模型，得到声学特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述待识别语音包括多个语音帧，所述语音特征包括每个语音帧对应的语音特征；

4.根据权利要求3所述的方法，其特征在于，所述根据所述声学特征，确定所述目标语种语音的语音识别结果，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述每个语音帧对应的语音特征，根据如下方法确定：

6.一种声学模型的训练方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二语音样本中的多个语音样本和所述第二声学模型，确定所述语音样本对应的所述目标语种的字符，包括：

9.根据权利要求6所述的方法，其特征在于，所述根据所述第一语音样本和所述第二语音样本对神经网络进行训练，得到第一声学模型，包括：

10.一种语音识别装置，其特征在于，包括：

11.一种声学模型的训练装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器，处理器；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。

技术总结
本申请提供一种语音识别方法、声学模型的训练方法、装置及设备。该语音识别方法包括：接收语音识别请求，语音识别请求包括目标语种的待识别语音；对待识别语音提取语音特征并输入第一声学模型，得到声学特征，声学特征包括待识别语音的可能性字符，第一声学模型是根据第一语音样本和第二语音样本，基于神经网络进行训练得到的用于识别语音数据中目标语种的可能性字符的模型，第一语音样本包括人工标定的多个语音样本和对应的目标语种的字符，第二语音样本包括采用第一语音样本训练的第二声学模型标定的多个语音样本和对应的目标语种的字符；根据声学特征确定目标语种的语音识别结果并输出。本申请的方法提高了目标语种的语音识别准确度。

技术研发人员：李思琪,付立
受保护的技术使用者：京东科技信息技术有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李思琪付立
技术所有人：京东科技信息技术有限公司
我是此专利的发明人

上一篇：基于改进deeplabv3+模型的番茄叶片虫害区域分割方法
上一篇：一种PGA封装的开封工具的制作方法