本公开涉及计算机,尤其涉及一种对话轮次结束判断方法、装置、电子设备、介质和车辆。
背景技术:
1、车辆座舱内的交互以语音交互过程为主,语音交互功能可以通过车机助手实现,用户说完一句话之后,车机助手是否能快速地回复执行,是用户判断交互是否友好的重要参考。参照图1所示,图1为现有技术中车辆座舱内语音交互的流程示意图。具体语音交互的流程如下:首先,用户通过预设的唤醒词唤醒车机助手,使其进入到工作状态,例如,预设的唤醒词可以是:“xx同学”、“小x”等。然后,车机助手通过vad技术检测用户是否有有效语音输入,如果检测到有效语音,则送入语音识别模块进行识别,否则超时退出,例如,唤醒车机助手之后,在预设时间内,用户没有下发具体指令,车机助手会再次询问,“请问您需要什么帮助?”,在几秒内仍没有接收到相应指令,则超时退出。接着,语音识别模块将有效语音转换为识别文本并送入下游语义理解模块,语义理解模块根据识别结果获取用户的意图、动作等信息并发送给下游控制单元,控制单元执行相应的动作。在vad(voice activitydetection,语音活动检测技术)中,对每一个语音帧输出一个有效语音和非有效语音(静音)的判断结果,连续多帧的有效语音组合在一起会被判断为用户开始说话,在此之后,连续多帧的静音会被判断为用户已经说完。
2、相关技术中,为减少用户等待时间,vad判断用户说完一句话的静音阈值会设置的较小,通常在1秒以内。虽然较小的vad静音阈值可以优化车机助手的响应速度,但是在实际语音交互过程中,用户在和车机对话时可能出现犹豫、停顿,此时如果用户的停顿时间超过vad的静音阈值,那么系统会判断用户已经说完,进入后续的交互流程。这种将静音阈值设置为固定值的方式,不利于车机助手正确理解用户语义,从而无法正确执行用户指令,导致用户体验较差。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种对话轮次结束判断方法、装置、电子设备、介质和车辆。
2、第一方面,本公开提供了一种对话轮次结束判断方法,包括:
3、获取待识别语音帧的第一有效语音片段;
4、将所述第一有效语音片段输入预设语音识别模型,获取所述预设语音识别模型输出的所述第一有效语音片段的第一置信度分数;所述第一置信度分数用于表示用户未说完一句话的概率;
5、根据所述第一置信度分数,将预设静音时长调整为目标静音时长;所述目标静音时长与所述第一置信度分数成正相关;
6、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
7、作为本公开实施例一种可选的实施方式,所述根据所述第一置信度分数,将预设静音时长调整为目标静音时长,包括:
8、当所述第一置信度分数大于等于第一预设阈值时,将所述预设静音时长调整为第一静音时长;
9、当所述第一置信度分数大于等于第二预设阈值,且小于所述第一预设阈值时,将所述预设静音时长调整为第二静音时长;
10、当所述第一置信度分数小于所述第二预设阈值时,不对所述预设静音时长进行调整。
11、作为本公开实施例一种可选的实施方式,当所述目标静音时长为第一静音时长时,所述第一静音时长大于所述预设静音时长,所述基于所述目标静音时长,确定所述待识别语音帧的对话是否结束,包括:
12、若在所述第一静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;所述第二有效语音片段表示在第一有效语音片段之后检测到的有效语音片段;
13、若在所述第一静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
14、作为本公开实施例一种可选的实施方式,当所述目标静音时长为第二静音时长时,所述第二静音时长大于所述预设静音时长,且小于所述第一静音时长,所述基于所述目标静音时长,确定所述待识别语音帧的对话是否结束,还包括:
15、若在所述第二静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;
16、若在所述第二静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
17、作为本公开实施例一种可选的实施方式,当所述目标静音时长为所述预设静音时长时,所述基于所述目标静音时长,确定所述待识别语音帧的对话是否结束,还包括:
18、若在所述预设静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;
19、若在所述预设静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
20、作为本公开实施例一种可选的实施方式,所述方法还包括:
21、若在所述第一静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的第二有效语音片段的第二置信度分数;
22、根据所述第二置信度分数,将第一剩余静音时长调整为目标静音时长;所述第一剩余静音时长为所述第一静音时长与第一检测时长之差,所述第一检测时长为所述第一静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
23、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
24、作为本公开实施例一种可选的实施方式,所述方法还包括:
25、若在所述第二静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的所述第二有效语音片段的第三置信度分数;
26、根据所述第三置信度分数,将第二剩余静音时长调整为目标静音时长;所述第二剩余静音时长为所述第二静音时长与第二检测时长之差,所述第二检测时长为所述第二静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
27、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
28、作为本公开实施例一种可选的实施方式,所述方法还包括:
29、若在所述预设静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的所述第二有效语音片段的第四置信度分数;
30、根据所述第四置信度分数,将第三剩余静音时长调整为目标静音时长;所述第三剩余静音时长为所述预设静音时长与第三检测时长之差,所述第三检测时长为所述预设静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
31、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
32、第二方面,本公开实施例提供一种对话轮次结束判断装置,包括:
33、获取模块,用于获取待识别语音帧的第一有效语音片段;
34、输入模块,用于将所述第一有效语音片段输入预设语音识别模型,获取所述预设语音识别模型输出的所述第一有效语音片段的第一置信度分数;所述第一置信度分数用于表示用户未说完一句话的概率;
35、调整模块,用于根据所述第一置信度分数,将预设静音时长调整为目标静音时长;所述目标静音时长与所述第一置信度分数成正相关;
36、判断模块,用于基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
37、作为本公开实施例一种可选的实施方式,所述调整模块,具体用于:
38、当所述第一置信度分数大于等于第一预设阈值时,将所述预设静音时长调整为第一静音时长;
39、当所述第一置信度分数大于等于第二预设阈值,且小于所述第一预设阈值时,将所述预设静音时长调整为第二静音时长;
40、当所述第一置信度分数小于所述第二预设阈值时,不对所述预设静音时长进行调整。
41、作为本公开实施例一种可选的实施方式,当所述目标静音时长为第一静音时长时,所述第一静音时长大于所述预设静音时长,所述判断模块,具体用于:
42、若在所述第一静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;
43、若在所述第一静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
44、作为本公开实施例一种可选的实施方式,当所述目标静音时长为第二静音时长时,所述第二静音时长大于所述预设静音时长,且小于所述第一静音时长,所述判断模块,具体用于:
45、若在所述第二静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;
46、若在所述第二静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
47、作为本公开实施例一种可选的实施方式,当所述目标静音时长为所述预设静音时长时,所述判断模块,具体用于:
48、若在所述预设静音时长内检测到第二有效语音片段,则确定所述待识别语音帧的对话未结束;
49、若在所述预设静音时长内未检测到第二有效语音片段,则确定所述待识别语音帧的对话已经结束。
50、作为本公开实施例一种可选的实施方式,若在所述第一静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的第二有效语音片段的第二置信度分数;
51、根据所述第二置信度分数,将第一剩余静音时长调整为目标静音时长;所述第一剩余静音时长为所述第一静音时长与第一检测时长之差,所述第一检测时长为所述第一静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
52、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
53、作为本公开实施例一种可选的实施方式,若在所述第二静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的所述第二有效语音片段的第三置信度分数;
54、根据所述第三置信度分数,将第二剩余静音时长调整为目标静音时长;所述第二剩余静音时长为所述第二静音时长与第二检测时长之差,所述第二检测时长为所述第二静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
55、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
56、作为本公开实施例一种可选的实施方式,若在所述预设静音时长内检测到第二有效语音片段,则将所述第二有效语音片段输入所述预设语音识别模型,获取所述预设语音识别模型输出的所述第二有效语音片段的第四置信度分数;
57、根据所述第四置信度分数,将第三剩余静音时长调整为目标静音时长;所述第三剩余静音时长为所述预设静音时长与第三检测时长之差,所述第三检测时长为所述预设静音时长的起始时刻至检测到所述第二有效语音片段的时刻之间的时长;
58、基于所述目标静音时长,确定所述待识别语音帧的对话是否结束。
59、第三方面,本公开实施例提供一种电子设备,包括:一个或多个处理器;
60、存储装置,用于存储一个或多个程序,
61、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一实施方式所述的对话轮次结束判断方法。
62、第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实施方式所述的对话轮次结束判断方法。
63、第五方面,公开实施例提供一种车辆,包括:如第三方面所述的电子设备。
64、本公开实施例提供的技术方案与现有技术相比具有如下优点:获取待识别语音帧的第一有效语音片段,将第一有效语音片段输入预设语音识别模型,获取预设语音识别模型输出的第一有效语音片段的第一置信度分数,其中,第一置信度分数用于表示用户未说完一句话的概率,根据第一置信度分数,将预设静音时长调整为目标静音时长,其中,目标静音时长与第一置信度分数成正相关;基于目标静音时长,确定待识别语音帧的对话是否结束。通过第一置信度分数动态调整预设静音时长,将预设静音时长调整为目标静音时长,可以兼顾到用户停顿或迟疑的静音等待时间,从而更灵活地判断用户当前对话是否结束,避免现有技术中静音预设时长为固定值,会错误打断用户的问题,进一步提升用户的语音交互体验。