本技术涉及人工智能领域,特别涉及一种语音处理方法、装置、设备及存储介质。
背景技术:
1、在人工智能(artificial intelligence,ai)领域,智能外呼系统(也称ai外呼机器人)是一种基于自然语言处理等技术,通过模拟人类发音和说话方式,自主与用户进行人机交互的计算机系统。
2、一般情况下,智能外呼系统在呼叫用户后,如果用户接听,则通常还会对用户语音进行识别,以根据识别结果分析和定位用户需求,以此作为业务扩展的基础。相关技术中,智能外呼系统将用户语音转至语音识别模块完成识别。其中,该语音识别模块以单句话为识别单位,即在一句话识别结束后,该语音识别模块才会输出针对这句话的识别结果。
3、由于一句话识别结束后语音识别模块才输出针对这句话的识别结果,因此倘若前端存在实时展示对话内容的需求,那么采用该种语音识别方式会导致对话内容展示的严重滞后,即前端不能实时展示用户说话内容。
技术实现思路
1、本技术实施例提供了一种语音处理方法、装置、设备及存储介质,该方法支持在前端实时展示对话内容,便于业务侧分析和定位用户需求。所述技术方案如下:
2、一方面,提供了一种语音处理方法,所述方法包括:
3、获取语音通话过程中的通话语音流;
4、对获取到的通话语音流进行语音端点检测,得到目标通话语音流;
5、采用与语音识别服务器建立的长连接,向所述语音识别服务器发送所述目标通话语音流;其中,所述语音识别服务器用于基于实时语音识别模型,对所述目标通话语音流进行实时语音识别,得到实时语音识别结果;所述实时语音识别模型与所述目标通话语音流的语种类型相匹配;
6、采用与所述语音识别服务器建立的长连接,接收所述语音识别服务器返回的实时语音识别结果;
7、将所述实时语音识别结果推送至前端设备进行展示。
8、在一种可能的实现方式中,所述方法还包括:
9、通过向所述语音识别服务器发送连接请求,与所述语音识别服务器建立websocket长连接;其中,所述websocket长连接用于保持与所述语音识别服务器之间的全双工实时通信;
10、周期性向所述语音识别服务器发送心跳包;其中,所述心跳包用于维持与所述语音识服务器之间的websocket长连接。
11、在一种可能的实现方式中,所述对获取到的通话语音流进行语音端点检测,得到目标通话语音流,包括:
12、确定语音通话过程中的背景环境类型;
13、采用与所述背景环境类型相匹配的语音端点检测模型,对获取到的通话语音流进行语音端点检测,得到所述目标通话语音流;
14、其中,所述语音端点检测模型是基于训练样本集对预训练模型进行再训练得到的,所述训练样本集中包括在相应背景环境下采集的语音数据。
15、另一方面,提供了一种语音处理方法,所述方法包括:
16、采用与通讯服务器建立的长连接,接收所述通讯服务器发送的目标通话语音流;其中,所述目标通话语音流是所述通讯服务器在获取到语音通话过程中的通话语音流后,对获取到的通话语音流进行语音端点检测后得到的;
17、基于实时语音识别模型,对所述目标通话语音流进行实时语音识别,得到实时语音识别结果;其中,所述实时语音识别模型与所述目标通话语音流的语种类型相匹配;
18、采用与所述语音识别服务器建立的长连接,向所述通讯服务器返回所述实时语音识别结果;其中,所述通讯服务器用于将所述实时语音识别结果推送至前端设备进行展示。
19、在一种可能的实现方式中,所述实时语音识别模型的训练过程,包括:
20、对于多个语种中的任一个语种,获取所述语种的训练样本集;其中,所述训练样本集中包括从网络收集的所述语种的第一类语音数据;
21、基于所述语种的第一类语音数据,对所述训练样本集进行样本扩展,得到所述语种的第二类语音数据;
22、基于所述语种的第一类语音数据和第二类语音数据,训练与所述语种相匹配的实时语音识别模型。
23、在一种可能的实现方式中,所述目标通话语音流的语种类型的识别过程,包括:
24、对所述目标通话语音流进行声学特征提取,得到所述目标通话语音流的滤波器组特征和说话人音高特征;
25、对所述滤波器组特征进行离散余弦变换,得到所述目标通话语音流的梅尔倒频谱系数;
26、将所述说话人音高特征和所述梅尔倒频谱系数进行特征融合,得到所述目标通话语音流的融合声学特征;
27、基于所述融合声学特征和多语种识别模型,对所述目标通话语音流进行语种识别,得到所述目标通话语音流的语种类型。
28、在一种可能的实现方式中,所述基于所述融合声学特征和多语种识别模型,对所述目标通话语音流进行语种识别,得到所述目标通话语音流的语种类型,包括:
29、将所述融合声学特征输入目标神经网络;其中,所述目标神经网络为包括编码器和解码器的transformer模型;
30、将所述编码器的输出特征输入所述多语种识别模型;
31、基于所述多语种识别模型的输出,确定所述目标通话语音流的语种类型。
32、另一方面,提供了一种语音处理装置,所述装置包括:
33、获取模块,被配置为获取语音通话过程中的通话语音流;
34、处理模块,配置为对获取到的通话语音流进行语音端点检测,得到目标通话语音流;
35、第一发送模块,被配置为采用与语音识别服务器建立的长连接,向所述语音识别服务器发送所述目标通话语音流;其中,所述语音识别服务器用于基于实时语音识别模型,对所述目标通话语音流进行实时语音识别,得到实时语音识别结果;所述实时语音识别模型与所述目标通话语音流的语种类型相匹配;
36、第一接收模块,被配置为采用与所述语音识别服务器建立的长连接,接收所述语音识别服务器返回的实时语音识别结果;
37、第二发送模块,被配置为将实时语音识别结果推送至前端设备进行展示。
38、在一种可能的实现方式中,所述装置还包括:
39、建立模块,被配置为通过向所述语音识别服务器发送连接请求,与所述语音识别服务器建立websocket长连接;其中,所述websocket长连接用于保持与所述语音识别服务器之间的全双工实时通信;
40、第三发送模块,被配置为周期性向所述语音识别服务器发送心跳包;其中,所述心跳包用于维持与所述语音识服务器之间的websocket长连接。
41、在一种可能的实现方式中,所述第一处理模块,配置为:
42、确定语音通话过程中的背景环境类型;
43、采用与所述背景环境类型相匹配的语音端点检测模型,对获取到的通话语音流进行语音端点检测,得到所述目标通话语音流;
44、其中,所述语音端点检测模型是基于训练样本集对预训练模型进行再训练得到的,所述训练样本集中包括在相应背景环境下采集的语音数据。
45、另一方面,提供了一种语音处理装置,所述装置包括:
46、第二接收模块,被配置为采用与通讯服务器建立的长连接,接收所述通讯服务器发送的目标通话语音流;其中,所述目标通话语音流是所述通讯服务器在获取到语音通话过程中的通话语音流后,对获取到的通话语音流进行语音端点检测后得到的;
47、第一识别模块,被配置为基于实时语音识别模型,对所述目标通话语音流进行实时语音识别,得到实时语音识别结果;其中,所述实时语音识别模型与所述目标通话语音流的语种类型相匹配;
48、第四发送模块,被配置为采用与所述语音识别服务器建立的长连接,向所述通讯服务器返回所述实时语音识别结果;其中,所述通讯服务器用于将所述实时语音识别结果推送至前端设备进行展示。
49、在一种可能的实现方式中,所述实时语音识别模型的训练过程,包括:
50、对于多个语种中的任一个语种,获取所述语种的训练样本集;其中,所述训练样本集中包括从网络收集的所述语种的第一类语音数据;
51、基于所述语种的第一类语音数据,对所述训练样本集进行样本扩展,得到所述语种的第二类语音数据;
52、基于所述语种的第一类语音数据和第二类语音数据,训练与所述语种相匹配的实时语音识别模型。
53、在一种可能的实现方式中,所述装置还包括第二识别模块;所述第二识别模块,被配置为:
54、对所述目标通话语音流进行声学特征提取,得到所述目标通话语音流的滤波器组特征和说话人音高特征;
55、对所述滤波器组特征进行离散余弦变换,得到所述目标通话语音流的梅尔倒频谱系数;
56、将所述说话人音高特征和所述梅尔倒频谱系数进行特征融合,得到所述目标通话语音流的融合声学特征;
57、基于所述融合声学特征和多语种识别模型,对所述目标通话语音流进行语种识别,得到所述目标通话语音流的语种类型。
58、在一种可能的实现方式中,所述第二识别模块,被配置为:
59、将所述融合声学特征输入目标神经网络;其中,所述目标神经网络为包括编码器和解码器的transformer模型;
60、将所述编码器的输出特征输入所述多语种识别模型;
61、基于所述多语种识别模型的输出,确定所述目标通话语音流的语种类型。
62、另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述语音处理方法。
63、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述语音处理方法。
64、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述语音处理方法。
65、针对智能外呼场景下的语音通话业务,本技术实施例基于通讯服务器、语音识别服务器、通讯服务器与语音识别服务器之间建立的长连接,实现了将来自用户的通话语音流实时推送至语音识别服务器、实时语音识别以及将语音识别结果实时返回至通讯服务器,进而通讯服务器便可以将语音识别结果实时推送至前端设备。由于语音识别结果能够实时推送至前端设备,因此该种语音处理方式支持对话内容实时展示在前端,方便业务侧分析和定位用户需求,效果较佳。另外,通话语音流经过语音端点检测后,能够将静音数据和噪音数据过滤掉,这样不但可以提高后续语音识别时识别结果的准确性,而且也可以节省系统资源,减轻了语音识别服务器的压力。另外,实时语音识别模型与通话语音流的语种类型相匹配,能够提高识别结果的准确性。