语音交互方法、装置、设备、介质及程序产品与流程

文档序号：35974004发布日期：2023-11-09 15:46阅读：34来源：国知局

本申请属于信息处理，尤其涉及一种语音交互方法、装置、设备、介质及程序产品。

背景技术：

1、随着科技的发展，智能对话机器人开始出现在各种服务场所，多轮对话模型也随之得到了广泛应用。

2、目前，相关技术中通常采用自然语言处理(natural language processing，简称nlp)模型实现多轮对话。在nlp领域，随着大模型预训练数据的不断增加，模型参数量不断提升，模型的能力也越来越强大，基本上具备了从简单的文本问答、文本创作甚至数学推理等能力。然而自然语言处理模型的通用知识表达能力较弱，导致整个对话系统的可移植性较差。因此，现有的多轮对话，语音交互的准确性较低。

技术实现思路

1、本申请实施例提供一种语音交互方法、装置、设备、介质及程序产品，能够提高语音交互的准确性。

2、一方面，本申请实施例提供一种语音交互方法，方法包括：

3、获取本轮语音数据对应的第一语音文本；

4、在确定所述本轮语音数据对应的输入回合次数大于预设值的情况下，获取预设时间段内的历史对话文本，所述输入回合次数表示用户在多轮语音交互中的语音输入次数；

5、对所述第一语音文本和所述历史对话文本进行语义推理，得到推理结果；

6、对所述推理结果进行自然语言处理，得到所述推理结果的目标回复。

7、在一些实施例中，所述对所述第一语音文本和所述历史对话文本进行推理，得到推理结果，包括：

8、将所述第一语音文本和所述历史对话文本输入至推理模型，得到所述推理结果，所述推理模型为生成式预训练模型。

9、在一些实施例中，所述对所述推理结果进行自然语言处理，得到所述推理结果的目标回复，包括：

10、将所述推理结果输入至问答模型，得到所述推理结果的目标回复，所述问答模型为自然语言处理模型。

11、在一些实施例中，所述对所述推理结果进行自然语言处理，得到所述推理结果对应的目标回复之后，还包括：

12、对所述推理结果和所述目标回复进行压缩处理，得到本轮对话文本；

13、缓存所述本轮语音对话文本。

14、在一些实施例中，所述获取本轮语音数据对应的第一语音文本，包括：

15、对所述本轮语音数据进行语音识别处理，得到初始语音文本；

16、将所述初始语音文本输入至校正模型对所述初始语音文本进行校正，得到所述第一语音文本，所述校正模型为生成式预训练模型。

17、在一些实施例中，所述获取本轮语音数据对应的第一语音文本之后，还包括：

18、在确定所述本轮语音数据对应的输入回合次数不大于预设值的情况下，对所述第一语音文本进行自然语言处理，得到所述第一语音文本对应的目标回复。

19、另一方面，本申请实施例提供了一种语音交互装置，装置包括：

20、第一获取模块，用于获取本轮语音数据对应的第一语音文本；

21、第二获取模块，用于在确定所述本轮语音数据对应的输入回合次数大于预设值的情况下，获取预设时间段内的历史对话文本，所述输入回合次数表示用户在多轮语音交互中的语音输入次数；

22、推理模块，用于对所述第一语音文本和所述历史对话文本进行推理，得到推理结果；

23、第一答复模块，用于对所述推理结果进行自然语言处理，得到所述推理结果对应的目标回复。

24、再一方面，本申请实施例提供了一种语音交互设备，设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如上述语音交互方法。

25、再一方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上述所述的语音交互方法。

26、再一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如上述语音交互方法。

27、本申请实施例的语音交互方法、装置、设备及计算机存储介质，能够获取本轮语音数据对应的第一语音文本；在确定本轮语音数据对应的输入回合次数大于预设值的情况下，获取预设时间段内的历史对话文本；对第一语音文本和历史对话文本进行语义推理，得到推理结果；对推理结果进行自然语言处理，得到推理结果的目标回复。由此，可以先将本轮语音数据的语音文本与历史对话文本进行推理确定语音文本的真实意图，得到推理结果，然后再对推理结果进行自然语言处理，得到目标答复，从而可以在多轮对话中，准确理解语音数据的意图并得到对应的答复，提高了语音交互的准确性。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音文本和所述历史对话文本进行推理，得到推理结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述推理结果进行自然语言处理，得到所述推理结果的目标回复，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述推理结果进行自然语言处理，得到所述推理结果对应的目标回复之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述获取本轮语音数据对应的第一语音文本，包括：

6.根据权利要求2所述的方法，其特征在于，所述获取本轮语音数据对应的第一语音文本之后，还包括：

7.一种语音交互装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的语音交互方法的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-6任意一项所述的语音交互方法的步骤。

技术总结
本申请公开了一种语音交互方法、装置、设备、介质及程序产品，该方法包括：能够获取本轮语音数据对应的第一语音文本；在确定本轮语音数据的输入回合次数大于预设值的情况下，获取预设时间段内的历史对话文本；对第一语音文本和历史对话文本进行语义推理，得到推理结果；对推理结果进行自然语言处理，得到推理结果的目标回复。由此，可以先将本轮语音数据的语音文本与历史对话文本进行推理确定语音文本的真实意图，得到推理结果，然后再对推理结果进行自然语言处理，得到目标答复，从而可以在多轮对话中，准确理解语音数据的意图并得到对应的答复，提高了语音交互的准确性。

技术研发人员：炊向军,曾少铭,范会善,王炼,罗贤桂,赵新阳,董劲麟
受保护的技术使用者：中国建设银行股份有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：炊向军曾少铭范会善王炼罗贤桂赵新阳董劲麟
技术所有人：建信金融科技有限责任公司
我是此专利的发明人

上一篇：一种定位控制方法、装置、设备及存储介质与流程
上一篇：一种低成本耐高温3D打印线材组合树脂的制备方法与流程