一种语音处理方法、装置、电子设备及存储介质与流程

文档序号：33946310发布日期：2023-04-26 08:12阅读：60来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及计算机，具体涉及语音技术、人工智能、自动驾驶、云计算等，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能技术的发展，人机语音交互的应用越来越广泛，在人机语音交互的过程中，终端接收语音数据，将所接收的语音数据发送给云端，云端对语音数据进行识别，并将识别结果反馈给终端，进而终端对识别结果的反馈信息进行响应。

技术实现思路

1、本公开提供了一种用于语音处理的方法、装置、设备以及存储介质。

2、根据本公开的一方面，提供了一种语音处理方法，应用于客户端，包括：

3、持续获取待识别语音数据，将获取的待识别语音数据的当前语音片段发送给服务端；

4、接收并缓存所述服务端对所述当前语音片段进行语音识别以及语义预测后发送的预测语义和当前响应信息；

5、在接收到完整待识别语音数据的情况下，对所述完整待识别语音数据进行语音识别，得到目标离线语音识别结果，并将所述完整待识别语音数据发送给服务端；

6、对所述目标离线语音识别结果与接收到的所有预测语义进行匹配；

7、在存在与所述目标离线语音识别结果匹配的预测语义的情况下，将与所述目标离线语音识别结果匹配的预测语义对应的当前响应信息，确定为所述完整待识别语音数据的目标响应信息。

8、根据本公开的另一方面，提供了一种语音处理的方法，应用于服务端，包括：

9、接收客户端在持续获取待识别语音数据的情况下发送的当前语音片段；

10、对所述当前语音片段进行语音识别，得到当前在线语音识别结果；

11、对所述当前在线语音识别结果进行语义预测，得到预测语义；

12、基于所述预测语义，生成所述当前语音片段对应的当前响应信息；

13、将所述预测语义以及所述当前响应信息发送给所述客户端。

14、根据本公开的另一方面，提供了一种语音处理装置，应用于客户端，包括：

15、第一发送模块，用于持续获取待识别语音数据，将获取的待识别语音数据的当前语音片段发送给服务端；

16、第一接收模块，用于接收并缓存所述服务端对所述当前语音片段进行语音识别以及语义预测后发送的预测语义和当前响应信息；

17、第一识别模块，用于在接收到完整待识别语音数据的情况下，对所述完整待识别语音数据进行语音识别，得到目标离线语音识别结果，并将所述完整待识别语音数据发送给服务端；

18、匹配模块，用于对所述目标离线语音识别结果与接收到的所有预测语义进行匹配；

19、第一确定模块，用于在所述匹配模块匹配出存在与所述目标离线语音识别结果匹配的预测语义的情况下，将与所述目标离线语音识别结果匹配的预测语义对应的当前响应信息，确定为所述完整待识别语音数据的目标响应信息。

20、根据本公开的另一方面，提供了一种语音处理的装置，应用于服务端，包括：

21、第二接收模块，用于接收客户端在持续获取待识别语音数据的情况下发送的当前语音片段；

22、第二识别模块，用于对所述当前语音片段进行语音识别，得到当前在线语音识别结果；

23、语义预测模块，用于对所述当前在线语音识别结果进行语义预测，得到预测语义；

24、第一生成模块，用于基于所述预测语义，生成所述当前语音片段对应的当前响应信息；

25、第二发送模块，用于将所述预测语义以及所述当前响应信息发送给所述客户端。。

26、根据本公开的另一方面，提供了一种电子设备，包括：

27、至少一个处理器；以及

28、与所述至少一个处理器通信连接的存储器；其中，

29、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开中任一项所述的方法。

30、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开中任一项所述的方法。

31、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开中任一项所述的方法。

32、本公开实施例，能够提高语音处理的速度。

33、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音处理方法，应用于客户端，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中，所述基于所述目标语意以及预设策略，确定所述完整待识别语音数据的目标响应信息，包括：

4.根据权利要求3所述的方法，还包括：

5.根据权利要求1所述的方法，其中，所述接收并缓存所述服务端对所述当前语音片段进行语音识别以及语义预测后发送的预测语义和当前响应信息，包括：

6.根据权利要求1-5任一所述的方法，所述完整待识别语音数据的目标响应信息包括：待输出信息或指令，所述方法还包括：

7.一种语音处理的方法，应用于服务端，包括：

8.根据权利要求7所述的方法，还包括：

9.根据权利要求7所述的方法，还包括：

10.一种语音处理装置，应用于客户端，包括：

11.根据权利要求10所述的装置，所述装置还包括：

12.根据权利要求11所述的装置，其中，所述第二确定模块，包括：

13.根据权利要求12所述的装置，所述第二确定模块还包括：

14.根据权利要求10所述的装置，其中，所述第一接收模块，具体用于：在对所述当前语音片段进行语音识别，得到当前离线语音识别结果之后，接收并缓存所述服务端对所述当前语音片段进行语音识别以及语义预测后发送的预测语义和当前响应信息。

15.一种语音处理的装置，应用于服务端，包括：

16.根据权利要求15所述的装置，所述装置还包括：

17.根据权利要求15所述的装置，所述装置还包括：

18.一种电子设备，包括：

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6或7-9中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6或7-9中任一项所述的方法。

技术总结
本公开提供了一种语音处理方法、装置、电子设备及存储介质，涉及计算机技术领域，具体涉及语音技术、人工智能、自动驾驶、云计算等技术领域。具体实现方案为：客户端将待识别语音数据的当前语音片段发送给服务端；服务端接收当前语音片段并识别，对识别结果进行语义预测，将得到的预测语义及基于预测语义生成的当前响应信息发送给客户端；客户端接收并缓存预测语义和当前响应信息；在接收到完整待识别语音数据时，将对完整待识别语音数据进行识别得到的目标离线语音识别结果与接收到的所有预测语义进行匹配；若匹配，将与目标离线语音识别结果匹配的预测语义对应的当前响应信息确定为完整待识别语音数据的目标响应信息，提高了语音处理的速度。

技术研发人员：章福瑜,李坚涛
受保护的技术使用者：阿波罗智联（北京）科技有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章福瑜李坚涛
技术所有人：阿波罗智行科技（广州）有限公司
我是此专利的发明人

上一篇：3D打印树脂以及应用的制作方法
上一篇：一种车载蓝牙模块的配对方法、装置及介质与流程