一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质与流程

文档序号：33885191发布日期：2023-04-20 23:11阅读：96来源：国知局

本发明涉及语音识别，尤其涉及一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质。

背景技术：

1、语音是人类相互交流和通信最方便快捷的手段。如何高效地实现语音传输、存储和通过语音实现人机交互，是语音信号处理领域中的重要研究课题。有关语音识别技术的国外研究起始于上个世纪50年代，而在这一时期的研究内容主要只是关于语音学的一些基本概念和原理。90年代，语音识别的实用化研究却取得了很大进展，很多很有影响力的公司针对语音识别都推出了自己的语音助手系统。

2、随着人工智能领域的发展，语音交互系统逐渐被应用于各个领域。语音交互系统能够极大地方便用户操作，简化操作过程，提升操作效率。基于深度学习模型(dnn)的技术思路被提出来，将神经网络技术引入到语音识别问题中，这就改变了原来基于标准模板匹配的思路。极大的提高识别准确率。

技术实现思路

1、针对上述技术问题，本发明提供了一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质。

2、本发明实施例提供一种基于kaldi的在线语音对话方法，所述方法包括如下步骤：利用kaldi识别语音；利用深度学习模型对目标语音进行解码，获取解码文本；对解码文本进行文本意图提取；根据文本意图，使用应答策略在线应答并给出相应文本答案；将文本答案转换成语音信号。

3、可选地，所述方法还包括：对目标语音提取高维度语音特征；使用声学模型将高维度语音特征转换为声学模型得分。

4、可选地，所述利用深度学习模型对目标语音进行解码，获取解码文本的步骤包括：利用深度学习模型对声学模型得分序列进行维特比解码，使得声学模型得分和语言模型得分的加权和为最大，得到解码文本。

5、可选地，所述对解码文本进行文本意图提取的步骤包括：对解码文本进行意图提取，并提取文本的关键词。

6、可选地，所述将文本答案转换成语音信号的步骤包括：通过深度学习模型将文本答案转换为梅尔倒频谱；通过声码器将梅尔倒频谱转换为语音信号。

7、优选的，所述方法还包括：通过da转换将语音信号转换为模拟信号，并进行播放。

8、本发明还提供了一种基于kaldi的在线语音对话系统，所述系统包括，

9、语音识别模块，利用深度学习模型对目标语音进行解码，获取解码文本；意图识别模块，对解码文本进行文本意图提取；

10、语音合成模块，根据文本意图，使用应答策略在线应答并给出相应文本答案，将文本答案转换成语音信号。

11、优选的，所述语音识别模块还用于，

12、对目标语音提取高维度语音特征；

13、使用声学模型将高维度语音特征转换为声学模型得分。

14、本发明还提供了一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述方法的步骤。

15、本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述任一项所述方法的步骤。

16、本发明实施例提供的技术方案中，利用深度学习模型对目标语音进行解码，获取解码文本；对解码文本进行文本意图提取；根据文本意图，使用应答策略在线应答并给出相应文本答案；将文本答案转换成语音信号，相比于现有技术，本发明将神经网络技术引入到语音识别问题中，极大的提高识别准确率，并通过应答策略进行文本应答并转换语音，实现了自动应答。

技术特征：

1.一种基于kaldi的在线语音对话方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于kaldi的在线语音对话方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于kaldi的在线语音对话方法，其特征在于，所述利用深度学习模型对目标语音进行解码，获取解码文本的步骤包括：

4.根据权利要求2所述的基于kaldi的在线语音对话方法，其特征在于，所述对解码文本进行文本意图提取的步骤包括：

5.根据权利要求1所述的基于kaldi的在线语音对话方法，其特征在于，所述将文本答案转换成语音信号的步骤包括：

6.根据权利要求1所述的基于kaldi的在线语音对话方法，其特征在于，所述方法还包括：

7.一种基于kaldi的在线语音对话系统，其特征在于，所述系统包括，

8.根据权利要求7所述的基于kaldi的在线语音对话系统，其特征在于，所述语音识别模块还用于，

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结
本发明公开了一种基于kaldi的在线语音对话方法、系统、电子设备及计算机可读存储介质，所述方法包括：利用Kaldi识别语音；利用深度学习模型对目标语音进行解码，获取解码文本；对解码文本进行文本意图提取；根据文本意图，使用应答策略在线应答并给出相应文本答案；将文本答案转换成语音信号，本发明将神经网络技术引入到语音识别问题中，极大的提高识别准确率，并通过应答策略进行文本应答并转换语音，实现了自动应答。

技术研发人员：韩平军,肖炜,潘成华
受保护的技术使用者：江苏网进科技股份有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩平军肖炜潘成华
技术所有人：江苏网进科技股份有限公司
我是此专利的发明人