本发明涉及人工智能,特别涉及一种基于语音识别的纳服辅助方法、装置、设备及介质。
背景技术:
1、在传统的纳税人服务场景中,远程纳服人员需要不停地接听咨询电话这样不仅对纳服人员的工作能力要求很高,还会增加新人上岗培训的成本,而且在咨询高峰期时还需要纳服人员填写话务小结,使得纳服人员的负担过重。
2、由上可见,如何在提高电话纳服工作的质效的同时,还为纳服人员减负、优化人员结构是目前亟待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于语音识别的纳服辅助方法、装置、设备及介质,能够在提高电话纳服工作的质效的同时,还为纳服人员减负、优化人员结构。其具体方案如下:
2、第一方面,本技术提供了一种基于语音识别的纳服辅助方法,包括:
3、分别录制通话过程中纳税人和纳服人员的音频,以得到主叫音频和被叫音频,并将所述主叫音频和所述被叫音频缓存至预设数据库服务集群;
4、通过预设音频滑窗方式从所述预设数据库服务集群中获取所述主叫音频和所述被叫音频各自对应的音频片段数据,并通过语音识别服务集群中的第一语音识别服务对各所述音频片段数据对应的拼接音频进行转译,以得到转译后拼接文本;所述转译后拼接文本包括主叫转译后拼接文本和被叫转译后拼接文本;
5、判断所述主叫转译后拼接文本对应的文本长度是否超过预设触发阈值,并基于判断结果和目标大语言模型中的第一预设智能体触发对所述主叫转译后拼接文本进行文本纠错和新问题抽取的操作,以得到目标问题;
6、基于向量知识库对所述目标问题进行知识索引,以得到目标答案,并将所述目标答案发送至目标纳服人员,以通过目标纳服人员进行纳服问答通话;
7、在所述纳服问答通话结束后,基于所述语音识别服务集群中的第二语音识别服务对满足预设通话时长条件的所述转译后拼接文本进行文本重组,以得到问答文本,并通过所述目标语言大模型中的第二预设智能体和所述问答文本填写话务小结。
8、可选的,所述通过预设音频滑窗方式从所述预设数据库服务集群中获取所述主叫音频和所述被叫音频各自对应的音频片段数据,并通过语音识别服务集群中的第一语音识别服务对各所述音频片段数据对应的拼接音频进行转译,以得到转译后拼接文本,包括:
9、基于预设滑动窗口大小对所述预设数据库服务集群中保存的目标音频进行音频滑窗处理,以从所述预设数据库服务集群中获取所述目标音频对应的各音频片段;其中,所述目标音频包括所述目标主叫音频或所述目标被叫音频;
10、从所述各音频片段的第一个音频片段开始,并基于不重复选取的原则每次从各所述音频片段中选取相邻的目标数量个音频片段进行拼接,以得到相应的若干第一拼接音频;所述目标数量为至少两个;
11、从所述各音频片段的第二个音频片段开始,并基于不重复选取的原则每次从各所述音频片段中选取相邻的所述目标数量个音频片段进行拼接,以得到相应的若干第二拼接音频;
12、通过语音识别服务集群中的第一语音识别服务分别对各所述第一拼接音频和各所述第二拼接音频进行转译,以得到相应的各第一转译后文本片段和各第二转译后文本片段,并确定相互之间具有重叠区域的所述第一转译后文本片段和所述第二转译后文本片段的对应关系;
13、对所述第一转译后文本片段和相应的所述第二转译后文本片段中的重复字符以及窗口滑动分割点对应的文本字符进行剔除,然后对剩余的转译后文本内容进行拼接,以得到与所述目标音频对应的所述转译后拼接文本。
14、可选的,所述对所述第一转译后文本片段和相应的所述第二转译后文本片段中的重复字符以及窗口滑动分割点对应的文本字符进行剔除,然后对剩余的转译后文本内容进行拼接,以得到与所述目标音频对应的所述转译后拼接文本,包括:
15、判断所述第一转译后文本和相应的所述第二转译后文本的重叠区域上是否存在重复字符;
16、若所述第一转译后文本和相应的所述第二转译后文本的重叠区域上存在重复字符,则从所述第一转译后文本中剔除位于所述重复字符之后的文本,以得到第一剩余文本,并从所述第二转译后文本中保留位于所述重复字符之后的文本,以得到第二剩余文本,然后对所述第一剩余文本和所述第二剩余文本进行拼接,以得到与所述目标音频对应的所述转译后拼接文本;
17、若所述第一转译后文本和相应的所述第二转译后文本的重叠区域上不存在重复字符,则利用所述第二转译后文本对所述第一转译后文本上的所述重叠区域进行替换,以得到与所述目标音频对应的所述转译后拼接文本。
18、可选的,所述判断所述主叫转译后拼接文本对应的文本长度是否超过预设触发阈值,并基于判断结果和目标大语言模型中的第一预设智能体触发对所述主叫转译后拼接文本进行文本纠错和新问题抽取的操作,以得到目标问题,包括:
19、判断所述主叫转译后拼接文本对应的文本长度是否超过预设触发阈值;
20、若所述转译后拼接文本中的主叫转译后拼接文本对应的文本长度超过预设触发阈值,则基于所述第一预设智能体中的预设提示词对所述主叫转译后拼接文本触发文本纠错和新问题抽取的操作,以得到目标问题。
21、可选的,所述基于所述第一预设智能体中的预设提示词对所述主叫转译后拼接文本触发文本纠错和新问题抽取的操作,以得到目标问题,包括:
22、基于所述第一预设智能体中的所述预设提示词获取与所述主叫转译后拼接文本对应的用户问题,并基于所述用户问题之间的编辑距离相似度对所述用户问题进行去重操作,以得到目标问题。
23、可选的,所述基于所述语音识别服务集群中的第二语音识别服务对满足预设通话时长条件的所述转译后拼接文本进行文本重组,以得到问答文本,包括:
24、基于所述主叫音频和所述被叫音频得到目标通话时长,并判断所述目标通话时长是否满足预设通话时长条件;
25、若所述目标通话时长满足预设通话时长条件,则获取所述转译后拼接文本,并基于所述转译后拼接文本进行文本重组,以得到重组好的所述问答文本;
26、若所述目标通话时长不满足预设通话时长条件,则获取与所述主叫音频和所述被叫音频对应的双轨音频,并基于所述语音识别服务集群中的第二语音识别服务对所述双轨音频进行转译,以得到相应的双轨音频转译文本,并对所述双轨音频转译文本进行文本重组,以得到问答文本。
27、可选的,所述通过所述目标语言大模型中的第二预设智能体和所述问答文本填写话务小结之后,还包括:
28、获取所述纳服人员针对所述目标答案的评价数据,并对所述评价数据进行审核;
29、若所述评价数据为点赞,则基于所述第一预设智能体获取与所述目标答案对应的用户问题,并将所述用户问题回流至所述向量知识库;
30、若所述评价数据为点踩,则对所述目标答案进行知识修正,并将修正后答案同步至所述向量知识库。
31、第二方面,本技术提供了一种基于语音识别的纳服辅助装置,包括:
32、音频录制模块,用于分别录制通话过程中纳税人和纳服人员的音频,以得到主叫音频和被叫音频,并将所述主叫音频和所述被叫音频缓存至预设数据库服务集群;
33、音频转译模块,用于通过预设音频滑窗方式从所述预设数据库服务集群中获取所述主叫音频和所述被叫音频各自对应的音频片段数据,并通过语音识别服务集群中的第一语音识别服务对各所述音频片段数据对应的拼接音频进行转译,以得到转译后拼接文本;所述转译后拼接文本包括主叫转译后拼接文本和被叫转译后拼接文本;
34、文本长度判断模块,用于判断所述主叫转译后拼接文本对应的文本长度是否超过预设触发阈值,并基于判断结果和目标大语言模型中的第一预设智能体触发对所述主叫转译后拼接文本进行文本纠错和新问题抽取的操作,以得到目标问题;
35、知识索引模块,用于基于向量知识库对所述目标问题进行知识索引,以得到目标答案,并将所述目标答案发送至目标纳服人员,以通过目标纳服人员进行纳服问答通话;
36、话务小结生成模块,用于在所述纳服问答通话结束后,基于所述语音识别服务集群中的第二语音识别服务对满足预设通话时长条件的所述转译后拼接文本进行文本重组,以得到问答文本,并通过所述目标语言大模型中的第二预设智能体和所述问答文本填写话务小结。
37、第三方面,本技术提供了一种电子设备,包括:
38、存储器,用于保存计算机程序;
39、处理器,用于执行所述计算机程序,以实现前述的基于语音识别的纳服辅助方法。
40、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的基于语音识别的纳服辅助方法。
41、本技术分别录制通话过程中纳税人和纳服人员的音频,以得到主叫音频和被叫音频,并将所述主叫音频和所述被叫音频缓存至预设数据库服务集群;通过预设音频滑窗方式从所述预设数据库服务集群中获取所述主叫音频和所述被叫音频各自对应的音频片段数据,并通过语音识别服务集群中的第一语音识别服务对各所述音频片段数据对应的拼接音频进行转译,以得到转译后拼接文本;所述转译后拼接文本包括主叫转译后拼接文本和被叫转译后拼接文本;判断所述主叫转译后拼接文本对应的文本长度是否超过预设触发阈值,并基于判断结果和目标大语言模型中的第一预设智能体触发对所述主叫转译后拼接文本进行文本纠错和新问题抽取的操作,以得到目标问题;基于向量知识库对所述目标问题进行知识索引,以得到目标答案,并将所述目标答案发送至目标纳服人员,以通过目标纳服人员进行纳服问答通话;在所述纳服问答通话结束后,基于所述语音识别服务集群中的第二语音识别服务对满足预设通话时长条件的所述转译后拼接文本进行文本重组,以得到问答文本,并通过所述目标语言大模型中的第二预设智能体和所述问答文本填写话务小结。
42、由上可见,本技术通过语音识别服务集群中的第一语音识别服务对各所述音频片段数据对应的拼接音频进行转译得到转译后拼接文本,并基于目标大语言模型中的第一预设智能体触发文本纠错和新问题抽取的操作得到目标问题,以通过向量知识库对所述目标问题进行知识索引,以得到目标答案,这样可以帮助纳服人员快速做答,有效提升了电话纳服工作的效率;在所述纳服问答通话结束后,基于所述语音识别服务集群中的第一语音识别服务和所述目标语言大模型中的第二预设智能体生成话务小结,无需人工操作,有效提升每个纳服人员的服务数量,从而为纳服人员减轻工作负担。