技术特征:
1.一种流式asr(自动语音识别)模型训练方法,包括:对语音信号进行特征提取以构造训练样本以及标签,所述标签包括语音信号中包含的标签文本和标签句尾标识;将所述训练样本送入流式asr模型;所述流式asr模型根据所述训练样本输出预测文本和预测句尾标识;以及根据所述预测文本和预测句尾标识与所述标签文本和标签句尾标识的差异,调整所述流式asr模型的参数。2.如权利要求1所述的方法,还包括:构造第一损失函数,所述第一损失函数用于在所述预测文本和所述标签文本存在差异时引入第一损失;构造第二损失函数,所述第二损失函数用于在所述预测句尾标识和所述标签句尾标识的位置不同时引入第二损失,并且根据所述预测文本和预测句尾标识与所述标签文本和标签句尾标识的差异,调整所述流式asr模型的参数包括:根据所述第一损失和所述第二损失,基于反向传播调整所述流式asr模型的参数。3.如权利要求2所述的方法,其中,构造第二损失函数还包括:构造第二损失函数,使得所述预测句尾标识比所述标签句尾标识的位置提前所引起的过早损失要大于所述预测句尾标识比所述标签句尾标识的位置延迟所引起的过晚损失。4.如权利要求1所述的方法,其中,所述流式asr模型根据所述训练样本输出预测文本和预测句尾标识包括:所述流式asr模型根据所述训练样本流式输出预测文本;以及所述流式asr模型根据已输出预测文本判定语义完整并输出所述预测句尾标识。5.如权利要求1所述的方法,还包括:所述流式asr模型在输出预测句尾标识后,对在前的所述预测文本整体上进行修改。6.一种语音处理方法,包括:接收来自用户的语音输入信号;将所述语音输入信号送入如权利要求1-4中任一项得到的经训练的流式asr模型;所述经训练的流式asr模型根据所述输入语音特征输出预测文本和预测句尾标识;以及获取所述预测句尾标识输出前的预测文本进行语义解析。7.如权利要求6所述的方法,其中,所述流式asr模型根据所述输入语音特征输出预测文本和预测句尾标识包括:所述经训练的流式asr模型在输出预测句尾标识的概率大于预设的句尾预测阈值时,输出所述预测句尾标识。8.如权利要求6所述的方法,还包括:在所述流式asr模型根据所述语音特征输出预测句尾标识时,停止获取来自所述用户的语音信号。9.如权利要求8所述的方法,还包括:在语义解析判定语义不完整时,继续获取来自所述用户的语音信号。
10.如权利要求8所述的方法,还包括:在所述流式asr模型根据所述语音特征未输出预测句尾标识时,基于预设静音时长条件,停止获取来自所述用户的语音信号。11.一种语音交互设备,包括:麦克风,用于采集来自用户的语音输入信号;处理模块,用于对采集来的所述语音输入信号进行预处理;通信模块,用于将经预处理的语音输入信号发送给服务器并接收来自所述服务器的语音答复信息或操作信息,其中,所述服务器上设置有如权利要求1-4中任一项得到的经训练的流式asr模型,并且根据所述流式asr模型输出的预测文本和预测句尾标识生成所述语音答复信息和/或所述操作信息,执行模块,用于输出所述语音答复信息和/或执行所述操作信息。12.一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。13.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
技术总结
公开了一种流式ASR模型训练方法、语音处理方法和交互设备。所述模型训练方法包括:对语音信号进行特征提取以构造训练样本以及标签,所述标签包括语音信号中包含的标签文本和标签句尾标识;将所述训练样本送入流式ASR模型;所述流式ASR模型根据所述训练样本输出预测文本和预测句尾标识;以及根据所述预测文本和预测句尾标识与所述标签文本和标签句尾标识的差异,调整所述流式ASR模型的参数。本发明通过将语音交互场景中的句尾检测任务和ASR模型结合进行联合优化,共享ASR模型学习到的信息,联合语音能量和语义实现更准确地闭麦判断。断。断。
技术研发人员:赵冬迪 李锦珂 朱磊
受保护的技术使用者:浙江猫精人工智能科技有限公司
技术研发日:2022.08.17
技术公布日:2022/12/29