语音处理方法、语音识别方法、装置、电子设备及介质与流程

文档序号:40481230发布日期:2024-12-31 12:49阅读:129来源:国知局
语音处理方法、语音识别方法、装置、电子设备及介质与流程

本申请涉及语音识别,尤其涉及一种语音处理方法、语音识别方法、装置、电子设备及介质。


背景技术:

1、随着人机交互的不断发展,人与机器之间的沟通越来越像人与人之间的沟通。自动语音识别技术(automatic speech recognition,asr)是最为自然的交互方式,asr可以将输入的语音数据识别转换为文本数据。当前的asr无法实时展示中间识别结果。

2、因此,如何在语音识别的过程中实时展示中间识别结果,是语音识别中当前亟需解决的问题之一。


技术实现思路

1、本申请旨在至少解决背景技术中存在的技术问题之一。为此,本申请的一个目的在于提供一种语音处理方法、语音识别方法、装置、电子设备及介质,以有效提高用户体验。

2、本申请第一方面的实施例提供一种语音处理方法。语音处理方法包括:对实时输入的语音数据进行处理,获得第一帧数的第一语音数据;利用第一语音识别模型识别第一语音数据对应的第一文本;输出第一文本;累计多个第一语音数据,获得第二帧数的第二语音数据;利用第二语音识别模型识别第二语音数据对应的第二文本;利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。

3、本申请实施例的技术方案中,利用第一语音识别模型识别第一语音数据对应的第一文本并输出,之后利用第二语音识别模型识别第二语音数据对应的第二文本,并利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。由于第一语音数据的帧数较少,利用第一语音识别模型,可以实时输出识别结果。而第二语音数据包含的信息完整程度大于第一数据,利用第二语音识别模型可以提高输出文本的准确度,以提高语音识别结果的识别精度。从而使本申请实施例的语音处理方法既实现了语音识别到文字的中间流式结果的输出,又实现了最终高准确率的识别结果的输出,且使用第一语音数据模型弥补现有的语音数据模型没有流式结果的不足,有效提高了用户体验。

4、在一些实施例中,第一语音识别模型的规模小于第二语音识别模型的规模。第一语音识别模型的规模小于第二语音识别模型的规模,其中小模型推理速度快,实现中间结果的快速识别与输出,生成流式的效果,最终再用大模型对整体结果进行纠正,使语音处理方法既实现了语音识别到文字的中间流式结果的输出,又实现了最终高准确率的识别结果的输出。

5、在一些实施例中,利用第二语音识别模型识别第二语音数据对应的第二文本包括:基于第二语音数据和第一文本,利用第二语音识别模型识别第二语音数据对应的第二文本。基于第二语音数据和第一文本,利用第二语音识别模型识别第二语音数据对应的第二文本,可以提高第二语音模型识别第二语音数据的识别效率,从而提高了第二语音模型的语音识别速率。

6、在一些实施例中,对实时输入的语音数据进行处理,获得第一帧数的第一语音数据包括:按照时间先后顺序对实时输入的语音数据进行切分处理,获得第三帧数的第三语音数据;获取第三语音数据之后第一预定帧数的第四语音数据,及第三语音数据之前的第二预定帧数的第五语音数据;其中,第一语音数据包括第三语音数据、第四语音数据及第五语音数据。在第一语音数据中可以包括历史数据以及未来数据,可以进一步提高语音处理方法的识别精度。

7、在一些实施例中,第一语音识别模型包括distill-whisper模型,第二语音识别模型包括whisper模型。

8、本申请第二方面的实施例提供一种语音识别方法包括:实时采集用户语音数据;对语音数据进行处理,获得第一帧数的第一语音数据;利用第一语音识别模型识别第一语音数据对应的第一文本;输出第一文本;累计多个第一语音数据,获得第二帧数的第二语音数据;利用第二语音识别模型识别第二语音数据对应的第二文本;利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。

9、本申请实施例的技术方案中,利用第一语音识别模型识别第一语音数据对应的第一文本并输出,之后利用第二语音识别模型识别第二语音数据对应的第二文本,并利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。由于第一语音数据的帧数较少,利用第一语音识别模型,可以实时输出识别结果。而第二语音数据包含的信息完整程度大于第一数据,利用第二语音识别模型可以提高输出文本的准确度,以提高语音识别结果的识别精度。从而使本申请实施例的语音处理方法既实现了语音识别到文字的中间流式结果的输出,又实现了最终高准确率的识别结果的输出,且使用第一语音数据模型弥补现有的语音数据模型没有流式结果的不足,有效提高了用户体验。

10、本申请第三方面的实施例提供一种语音处理装置,语音处理装置包括:第一获取模块,被配置为对实时输入的语音数据进行处理,获得第一帧数的第一语音数据;第一识别模块,被配置为利用第一语音识别模型识别第一语音数据对应的第一文本;输出模块,被配置为输出第一文本;第二获取模块,被配置为累计多个第一语音数据,获得第二帧数的第二语音数据;第二识别模块,被配置为利用第二语音识别模型识别第二语音数据对应的第二文本;更新模块,被配置为利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。

11、本申请第四方面的实施例提供一种语音识别装置。语音识别装置包括:采集模块510,被配置为实时采集用户语音数据;第一处理模块,被配置为对语音数据进行处理,获得第一帧数的第一语音数据;第一语音识别模块,被配置为利用第一语音识别模型识别第一语音数据对应的第一文本;文本输出模块,被配置为输出第一文本;第二处理模块,被配置为累计多个第一语音数据,获得第二帧数的第二语音数据;第二语音识别模块,被配置为利用第二语音识别模型识别第二语音数据,对应的第二文本;文本更新模块,被配置为利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。

12、本申请第五方面的实施例提供一种计算设备,包括至少一个处理器;以及与至少一个处理器通信连接的至少一个存储器,至少一个存储器存储有指令,指令当被至少一个处理器单独或共同执行时,使计算设备执行上述任一项的语音处理方法或语音识别方法。

13、本申请第六方面的实施例提供一种计算机可读存储介质,存储有指令,指令当被计算设备的一个或多个处理器单独或共同执行时,使计算设备执行上述任一项的语音处理方法或语音识别方法。

14、本申请第七方面的实施例提供一种计算机程序产品,包括指令,指令当被计算设备的一个或多个处理器单独或共同执行时,使计算设备执行上述任一项的语音处理方法或语音识别方法。

15、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。



技术特征:

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一语音识别模型的规模小于所述第二语音识别模型的规模。

3.根据权利要求1或2所述的方法,其特征在于,所述利用第二语音识别模型识别所述第二语音数据对应的第二文本包括:

4.根据权利要求1所述的方法,其特征在于,所述对实时输入的语音数据进行处理,获得第一帧数的第一语音数据包括:

5.根据权利要求1或2所述的方法,其特征在于,所述第一语音识别模型包括distill-whisper模型,所述第二语音识别模型包括whisper模型。

6.一种语音识别方法,其特征在于,包括:

7.一种语音处理装置,其特征在于,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种计算设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令当被计算设备的一个或多个处理器单独或共同执行时,使所述计算设备执行权利要求1至5中任一项所述的语音处理方法或权利要求6所述的语音识别方法。

11.一种计算机程序产品,其特征在于,包括指令,所述指令当被计算设备的一个或多个处理器单独或共同执行时,使所述计算设备执行权利要求1至5中任一项所述的语音处理方法或权利要求6所述的语音识别方法。


技术总结
本申请提供一种语音处理方法、语音识别方法、装置、电子设备及介质,属于语音识别技术领域。语音处理方法包括:对实时输入的语音数据进行处理,获得第一帧数的第一语音数据;利用第一语音识别模型识别第一语音数据对应的第一文本;输出第一文本;累计多个第一语音数据,获得第二帧数的第二语音数据;利用第二语音识别模型识别第二语音数据对应的第二文本;利用第二文本更新已输出的与多个第一语音数据对应的多个第一文本。

技术研发人员:陈伍,许秋生
受保护的技术使用者:迈特创新私人有限公司
技术研发日:
技术公布日:2024/12/30
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1