1.本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置及电子设备。
背景技术:2.目前使用多种语言进行会议越来越普遍。在具有字幕功能的会议系统中,当参会人加入会议时,系统会对说话人的语音持续进行语种检测,以生成字幕。当检测到不同的语种时使用对应的语音识别(asr)引擎进行识别。通常,为了保证语种检测的准确率,通常需要积累一定时长(通常为3到5秒)的语音才可进行语种检测,针对说话人采用不同语种在会议中发言的情况,由于语种检测需要积累一定时长,因此部分音频可能使用了错误的asr引擎进行识别,导致部分语音识别不准确的问题。
技术实现要素:3.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语音识别方法、装置及电子设备,可以纠正语音识别引擎使用错误造成的语音识别错误,提高语音识别的准确性。
4.为了实现上述目的,本公开实施例提供的技术方案如下:
5.第一方面,提供一种语音识别方法,包括:
6.持续接收语音流,并采用第一语种对应的第一语音识别引擎进行语音识别;
7.在接收到大于或等于第一预设时长的第一语音片段的情况下,对所述第一语音片段进行语种检测;
8.响应于检测出所述第一语音片段所属的第二语种与上一次语种检测得到的所述第一语种不同,确定所述第一语种和所述第二语种的转换时刻;
9.采用与所述第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容。
10.在一些实施例中,所述确定所述第一语种和所述第二语种的转换时刻,包括:
11.在所述第一语音片段之前不存在时间上连续的其他语音片段情况下,将所述第一语音片段的起始时刻确定为所述转换时刻。
12.在一些实施例中,所述确定所述第一语种和所述第二语种的转换时刻,包括:
13.在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,从所述第二语种的检出时刻开始,按照第一滑动步长、以第一时间窗长度依次选取至少一个历史语音片段,从所述至少一个历史语音片段中确定出目标语音片段,所述目标语音片段为距当前时刻最近的语种检测结果非所述第二语种的历史语音片段;
14.基于所述目标语音片段的第一历史语音片段确定所述转换时刻,所述第一历史语音片段为所述目标语音片段的第一历史语音片段。第一历史语音片段在一些实施例中,所述目标语音片段满足以下任一种条件:
15.所述目标语音片段为第二语种的概率小于或等于预设概率门限;
16.所述目标语音片段为第一语种的概率大于预设概率门限;
17.所述目标语音片段为任意语种的概率均小于或等于预设概率门限。
18.在一些实施例中,所述第一时间窗小于或等于所述第一预设时长,所述第一滑动步长小于或等于所述预设时间窗。
19.在一些实施例中,所述将所述目标语音片段之前选取的第一历史语音片段的开始时刻确定为所述转换时刻,包括:
20.确定所述第一历史语音片段为第二语种的第一概率;
21.确定第二历史语音片段为第二语种的第二概率,所述第二历史语音片段为所述第一历史语音片段的上一个语音片段;
22.在所述第一概率与所述第二概率的差值小于预设差值时,将所述第一历史语音片段的开始时刻确定为所述转换时刻。
23.在一些实施例中,所述语音流为会议中任意参会设备对应的语音流,或者,所述语音流为会议中任意参会人对应的语音流。
24.在一些实施例中,所述方法还包括:在客户端界面呈现语音识别的识别结果。
25.在一些实施例中,在所述采用与所述第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容之后,所述方法还包括:
26.基于所述目标文本内容对第一识别结果进行替换,所述第一识别结果为所述转换时刻之后利用所述第一语音识别引擎进行语音识得到的语音识别结果。
27.第二方面,提供一种语音识别装置,包括:
28.接收模块,用于持续接收语音流;
29.语音识别模块,用于并采用第一语种对应的第一语音识别引擎进行语音识别;
30.语种检测模块,用于在接收到大于或等于第一预设时长的第一语音片段的情况下,对所述第一语音片段进行语种检测;
31.所述语音识别模块,还用于:
32.响应于检测出所述第一语音片段所属的第二语种与上一次语种检测得到的所述第一语种不同,确定所述第一语种和所述第二语种的转换时刻;
33.采用与所述第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容。
34.在一些实施例中,所述语音识别模块具体用于:
35.在所述第一语音片段之前不存在时间上连续的其他语音片段情况下,将所述第一语音片段的起始时刻确定为所述转换时刻。
36.在一些实施例中,所述语音识别模块具体用于:
37.在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,从所述第二语种的检出时刻开始,按照第一滑动步长、以第一时间窗长度依次选取至少一个历史语音片段,从所述至少一个历史语音片段中确定出目标语音片段,所述目标语音片段为距当前时刻最近的语种检测结果非所述第二语种的历史语音片段;
38.基于所述目标语音片段的第一历史语音片段确定所述转换时刻,所述第一历史语音片段为所述目标语音片段的第一历史语音片段。
39.在一些实施例中,所述目标语音片段,满足以下任一种条件:
40.所述目标语音片段为第二语种的概率小于或等于预设概率门限;
41.所述目标语音片段为第一语种的概率大于预设概率门限;
42.所述目标语音片段为任意语种的概率均小于或等于预设概率门限。
43.在一些实施例中,所述第一时间窗小于或等于所述第一预设时长,所述第一滑动步长小于或等于所述预设时间窗。
44.在一些实施例中,所述语音识别模块,具体用于:
45.确定所述第一历史语音片段为第二语种的第一概率;
46.确定第二历史语音片段为第二语种的第二概率,所述第二历史语音片段为所述第一历史语音片段的上一个语音片段;
47.在所述第一概率与所述第二概率的差值小于预设差值时,将所述第一历史语音片段的开始时刻确定为所述转换时刻。
48.在一些实施例中,所述语音流为会议中任意参会设备对应的语音流,或者,所述语音流为会议中任意参会人对应的语音流。
49.在一些实施例中,所述装置还包括:识别结果处理模块;所述识别结果处理模块,用于在客户端界面呈现语音识别的识别结果。
50.在一些实施例中,所述识别结果处理模块,还用于在所述语音识别模块采用与第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容之后,基于所述目标文本内容对第一识别结果进行替换,所述第一识别结果为所述转换时刻之后利用所述第一语音识别引擎进行语音识得到的语音识别结果。
51.第三方面,提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的语音识别方法。
52.第四方面,提供一种计算机可读存储介质,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的语音识别方法。
53.第五方面,提供一种计算机程序产品,包括:当所述计算机程序产品在计算机上运行时,使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的语音识别方法。
54.本公开实施例提供的语音识别方法,可以持续接收语音流,并采用第一语种对应的第一语音识别引擎进行语音识别;在接收到大于或等于第一预设时长的第一语音片段的情况下,对第一语音片段进行语种检测;响应于检测出所述第一语音片段所属的第二语种与上一次语种检测得到的所述第一语种不同,确定所述第一语种和所述第二语种的转换时刻;采用与所述第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容。通过该方案,可以针对大于第一预设时长的第一语音片段进行语种检测,在检出第一语音片段为第二语种,而上一次检出结果为第一语种的情况下,可以确定发生了语种转换,确定出第一语种和第二语种的转换时刻之后,由于转换时刻之后接收到的目标语音可能会存在误检测的问题,因此将目标语音基于第二语音识别引擎重新进行语音识别,可以纠正之前通过第一语音识别引擎进行语音识别造成的语音识别错误,提高语音识别的准确性。
附图说明
55.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
56.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
57.图1为本公开实施例提供的一种实现场景示意图;
58.图2为本公开实施例提供的一种语音识别方法的流程示意图;
59.图3为本公开实施例提供的一种确定转换时刻的示意图;
60.图4为本公开实施例提供的另一种确定转换时刻的示意图;
61.图5为本公开实施例提供的一种识别结果的对比示意图;
62.图6为本公开实施例提供的一种语音识别装置的结构示意图;
63.图7为本公开实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
64.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
65.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
66.相关技术中使用多种语言进行会议越来越普遍。在具有字幕功能的会议系统中,当参会人加入会议时,系统会对说话人的语音持续进行语种检测生成字幕。当检测到不同的语种时使用对应的语音识别(asr)引擎进行识别。为了保证语种检测的准确率,通常需要积累一定时长(通常为3到5秒)的语音才可进行语种检测,针对说话人采用不同语种在会议中发言的情况,由于语种检测需要积累一定时长,因此部分音频可能使用了错误的asr引擎进行识别,导致部分语音识别不准确的问题。
67.为了解决上述问题,本公开实施例提供了一种语音识别方法、装置及电子设备,可以针对大于第一预设时长的第一语音片段进行语种检测,在检出第一语音片段为第二语种,而上一次检出结果为第一语种的情况下,可以确定发生了语种转换,确定出第一语种和第二语种的转换时刻之后,由于转换时刻之后接收到的目标语音可能会存在误检测的问题,因此将目标语音基于第二语音识别引擎重新进行语音识别,可以纠正之前通过第一语音识别引擎进行语音识别造成的语音识别错误,提高语音识别的准确性。
68.图1为本公开实施例提供的一种实现场景示意图,场景中涉及到服务器10和3个电子设备,分别为电子设备11、电子设备12和电子设备13,3个用户分别为用户a、用户b和用户c通过该3个电子设备进行线上会议,其中,在用户a使用电子设备11进入当前会议后,电子设备11可以基于本公开实施例提供的语音识别方法,持续进行语种检测,并采用相应的语音识别引擎进行语音识别,或者服务器接收电子设备11的语音流,并可以针对电子设备11的语音流基于本公开实施例提供的语音识别方法,持续进行语种检测,并采用相应的语音
识别引擎进行语音识别。
69.本公开实施例提供了的语音识别方法可以应用于语音识别装置或电子设备,该语音识别装置可以为电子设备的中可以实现该语音识别方法的功能模块或者功能实体。
70.可以理解的是,在使用本公开各实施例公开的技术方案之前,或者在使用本公开实施例公开的技术方案过程中,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息(例如,用户信息、用户语音)的类型、使用范围、使用场景等告知用户并获得用户的授权。
71.例如,在本公开实施例中,涉及到获取会议场景中一些参会设备的说话人的语音流,在实际应用中,在执行获取说话人的语音流之前,可以先申请用户授权允许采集说话人的语音流,并用于进行语音识别和语种识别。
72.上述电子设备可以为服务器、平板电脑、手机、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)、个人计算机(personal computer,pc)等,本公开实施例对此不作具体限定。
73.图2为本公开实施例提供的一种语音识别方法的流程示意图,该方法可以包括以下步骤:
74.201、持续接收语音流。
75.本公开实施例提供的语音识别方法,可以适用于会议场景中的语音识别,例如,针对会议场景中参会设备的语音流的语音识别,或者针对会议场景中参会人的语音流的语音识别。
76.在一些实施例中,语音流为会议中任意参会设备对应的语音流,或者,语音流为会议中任意参会人对应的语音流。
77.202、针对持续接收的语音流采用第一语种对应的第一语音识别引擎进行语音识别。
78.其中,该第一语种可以为上一次进行语种检测后确定的语种。该第一语种还可以为在会议开始阶段的默认语种。
79.通常针对不同语种会采用不同的语音识别引擎,上述第一语音识别引擎为用于识别第一语种的语音识别引擎。
80.203、在接收到大于或等于第一预设时长的第一语音片段的情况下,对第一语音片段进行语种检测。
81.其中,上述第一预设时长为设置的表示允许进行语种检测的语音最短积累时长。
82.本公开实施例中,在持续接收语音流的过程中,如果接收到大于或等于第一预设时长的第一语音片段,说明已经积累了第一预设时长的语音流,可以准确的进行语种检测,此时可以针对该第一语音片段进行语种检测。
83.204、检测出第一语音片段所属的第二语种与上一次语种检测得到的第一语种不同。
84.其中,对第一语种进行语种检测得到多大胡第一语音频段为第二语种,第二语种为与第一语种不同的语种。
85.示例性的,第一语种为中文,第二语种为英文;或者,第一语种为英文,第二语种为
中文。
86.205、确定第一语种和第二语种的转换时刻。
87.其中,响应于检测出第一语音片段所属的第二语种与上一次语种检测得到的第一语种不同,可以获取发生了第一语种到第二语种的语种转换,此处触发确定所述第一语种和所述第二语种的转换时刻。
88.在一些实施例中,在检测出第一语音片段的语种为第二语种之后,可以先对后续接收的语音流采用第二语种对应的第二语音识别引擎进行语音识别,后续接收的语音流可以是指在第二语种的检出时刻之后接收到的语音流。
89.在检测出第一语音片段的语种为第二语种之后,说明此时语种已经从第一语种转换为了第二语种,因此针对第一语音片段之后接收的语音流,选择采用第二语种对应的第二语音识别引擎进行语音识别,这样选择正确的语音识别引擎可以准确识别后续接收到语音流。
90.206、采用与第二语种对应的第二语音识别引擎对转换时刻之后的目标语音进行语音识别,得到目标文本内容。
91.由于转换时刻为从第一语种转换到第二语种的时刻,因此在此时刻之后的目标语音应该均是第二语种,采用第二语音识别引擎对转换时刻之后的目标语音进行语音识别,可以得到准确的目标文本内容。
92.需要说明的是,上述采用与第二语种对应的第二语音识别引擎对转换时刻之后的目标语音进行语音识别,得到目标文本内容可以包括但不限于:在通过第一语音片段识别出第二语种之后,确定出第一语种和第二语种的转换时刻之前,可以先对识别出第二语种之后,后续接收到的语音通过第二语音识别引擎进行语音识别,先得到一部分文本内容,然后在确定出第一语种和第二语种的转换时刻之后,就可以对该转换时刻之后,识别出第二语种之前接收到的语音通过第二语音识别引擎进行语音识别,得到另一部分文本内容。上述先后得到的两部分文本内容即为目标文本内容。
93.在检测出第一语音片段的语种为第二语种之后,说明此时语种已经从第一语种转换为了第二语种,那么就需要确定从第一语种转换为第二语种的转换时刻,并将转换时刻之后,第二语种的检出时刻之前接收到的目标语音也基于第二语音识别引擎重新进行语音识别。
94.在一些实施例中,确定第一语种和第二语种的转换时刻可以包括但不限于:在第一语音片段之前不存在时间上连续的其他语音片段的情况下,将所述第一语音片段的起始时刻确定为所述转换时刻。
95.在第一语音片段之前不存在时间上连续的其他语音片段的情况下,说明语音对应的说话人说话可能中间存在停顿,结合实际中人的说话习惯,很可能在停顿之后转换说话的语种,那么此时将第一语音片段的起始时刻确定为第一语种转换为第二语种的转换时刻。
96.也就是说,在这种情况下,可以从第一语音片段的起始时刻之后接收到的目标语音采用第二语音识别引擎重新进行语音识别。
97.图3为本公开实施例提供的一种确定转换时刻的示意图,在一开始接收到的语音片段31中,检出的语种为中文,相应的采用的是中文对应的语音识别引擎进行语音识别。在
语音片段31之后间隔时间t1后,累计t2时长的语音片段32,t2的开始时刻为t1,结束时刻为t2,在t2时刻检测出语种为英文,由于是在t2时刻才检测出语种为英文,因此,在t2时刻之后才采用英文对应的语音识别引擎进行语音识别,那么针对t1时刻之后,t2时刻之前的这部分语音片段虽然实际为英文,但是采用了中文对应的语音识别引擎进行语音识别,因此需要针对t1时刻之后,t2时刻之前的这部分语音片段32基于英文对应的语音识别引擎重新进行语音识别,以正确识别这部分语音片段,提高语音识别的准确性。
98.在一些实施例中,确定第一语种和第二语种的转换时刻可以包括但不限于:在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,从所述第二语种的检出时刻开始,按照第一滑动步长、以第一时间窗长度依次选取至少一个历史语音片段,从所述至少一个历史语音片段中确定出目标语音片段,所述目标语音片段为距当前时刻最近的语种检测结果非所述第二语种的历史语音片段;将目标语音片段之前选取的第一历史语音片段的开始时刻确定为转换时刻。
99.在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,无法直接确定出从第一语种转换为第二语种的转换时刻,此时可以从第二语种的检出时刻开始,按照时间由近到远的顺序依次选取至少一个历史语音片段,并检测这些历史语音片段对应的语种,直到从这些历史语音片段中检测到非第二语种的目标语音片段时,可以确定在该目标语音片段之前选取的第一历史语音片段为能够检测出为第二语种的最晚的语音片段,那么可以将该第一历史语音片段的开始时刻确定为转换时刻。
100.也就是说,在这种情况下,可以针对从目标语音片段的第一历史语音片段的开始时刻之后接收到的目标语音基于第二语音识别引擎重新进行语音识别。
101.在一些实施例中,目标语音片段满足以下任一种条件:
102.条件1:目标语音片段为第二语种的概率小于或等于预设概率门限;
103.条件2:目标语音片段为第一语种的概率大于预设概率门限;
104.条件3:目标语音片段为任意语种的概率均小于或等于预设概率门限。
105.语种检测是通过一个分类器,接收一定数据量的语音片段,针对接收的语音片段,给出这段语音片段对应每个语种的概率,然后在针对目标语种的概率大于预设概率门限时,认为检测该语音片段的检出语种为目标语种,如果针对每个语种的概率均小于预设概率门限,那么就认为无法检出语种。其中,条件1中,目标语音片段为第二语种的概率小于或等于预设概率门限,说明目标语音片段不是第二语种;条件2中,目标语音片段为第一语种的概率大于预设概率门限,说明目标语音片段为第一语种,条件3中,目标语音片段为任意语种的概率均小于或等于预设概率门限,说明目标语音频段可能存在多种语种混杂的情况,无法检出语种。
106.示例性的,图4为本公开实施例提供的另一种确定转换时刻的示意图,在英文的语音片段42之前存在时间上连续的中文语音片段41,那么在整个检测过程中语音片段进行语种检测时,会出现三种情况,一种情况是检测出语种为中文,另一种情况是中英混杂,无法检测出语种,还有一种情况是检测出语种为英文。这种情况下在图4中英文的检出时刻t3之前,无法直接确定出中文和英文的转换时刻,此时需要按照步长为s、时间窗为δt以时间由近到远的顺序依次选取至少一个历史语音片段,从这至少一个历史语音片段中确定最近一个中英混杂无法检出语种的目标语音片段43,然后确定目标语音片段43之前选取的上一个
历史语音频段,即第一历史语音片段44,并确定该第一历史语音片段44的开始时刻t4确定为转换时刻。
107.在一些实施例中,确定第一语种和第二语种的转换时刻可以包括但不限于:在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,从第二语种的检出时刻开始,按照第一滑动步长、第一时间窗以时间由近到远的顺序依次选取至少一个历史语音片段,从至少一个历史语音片段中确定最近一个语种检测结果为非第二语种的目标语音片段;确定目标语音片段之前选取的第一历史语音片段为第二语种的第一概率;确定目标语音片段之前选取的上第一历史语音片段为第二语种的第二概率;在第一概率与第二概率的差值小于预设差值时,将目标语音片段之前选取的第一历史语音片段的开始时刻确定为转换时刻。
108.正常情况下,按照第一滑动步长、第一时间窗以时间由近到远的顺序依次选取至少一个历史语音片段时,如果在目标语音片段之前的历史语音片段为连续的第二语种的语音片段,那么由于在后选取的历史语音片段中在第二语种中混入第一语种语音的可能性更多,因此先选取的历史语音片段的语种为第二语种的概率更高,因此目标语音片段之前选取的第一历史语音片段为第二语种的第一概率应该小于或等于目标语音片段之前选取的第二历史语音片段为第二语种的第二概率。上述实施例中在第一概率与第二概率的差值小于预设差值时,将目标语音片段之前选取的第一历史语音片段的开始时刻确定为转换时刻,可以在第一历史语音片段为第二语种的第一概率相比于第二概率没有明显降低的情况下,将第一历史语音片段的开始时刻确定为第一语种和第二语种的转换时刻,提高了确定转换时刻的准确度。
109.相应的,在第一概率与第二概率的差值大于或等于预设差值时,说明目标语音片段之前的第一历史语音片段为第二语种的第一概率相比于第一概率有明显的降低,说明此时该目标语音片段之前的第一历史语音片段中可能存在第一语种的音频片段,此时可以针对目标语音片段之前的第一历史语音片段,从该第一历史语音片段的结束时刻开始,按照第二步长、第二时间窗以时间由近到远的顺序依次选取至少一个子语音片段,并检测这些子语音片段对应的语种,直到从这些子语音片段中检测到非第二语种的目标子语音片段时,可以确定在该子语音片段之前选取的上一个子语音片段,即第一子语音片段为能够检测出为第二语种的最晚的语音片段,那么可以将该第一子语音片段的开始时刻确定为转换时刻。
110.上述几种实施例中,针对不同情况,给出了确定第一语种转换至第二语种的转换时刻,在实际实施例本公开实施例提供的语音识别方法时,可以通过检测识别实际情况,并采用相应的确定转换时刻的方式确定,使得本公开实施例提供的语音识别方法可以适用于多种实现场景。
111.在一些实施例中,在采用与第二语种对应的第二语音识别引擎对转换时刻之后的目标语音进行语音识别,得到目标文本内容之前,通常会采用第一语种对应的第一语音识别引擎对所述目标语音进行语音识别,得到第一文本内容,本公开实施例中,在采用与第二语种对应的第二语音识别引擎对转换时刻之后的目标语音进行语音识别,得到目标文本内容之前,可以将第一文本内容替换为目标文本内容。
112.在基于第二语音识别引擎对目标语音进行语音识别之后,可以得到第二语种的文
本内容,然后使用第二语种的文本内容代替之前使用第一语音识别引擎对目标语音进行语音识别得到的第一语种的文本内容,作为该目标语音对应的字幕内容。
113.本公开实施例中,在进行语音识别之后,可以在客户端界面呈现语音识别的识别结果。
114.在一些实施例中,在采用与第二语种对应的第二语音识别引擎对转换时刻之后的目标语音进行语音识别,得到目标文本内容之后,还可以基于所述目标文本内容对第一识别结果进行替换,所述第一识别结果为转换时刻之后利用第一语音识别引擎进行语音识别得到的语音识别结果。
115.针对在转换时刻之后,仍然存在通过转换时刻之前语种对应的语音识别引擎进行语音识别得到并显示的文本内容的情况,这样会由于误识别而导致在客户端界面呈现的文本内容有误,上述实施例中,通过转换时刻之后语种对应的语音识别引擎所识别得到的文本内容,替换通过转换时刻之前语种对应的语音识别引擎所识别得到并显示的文本内容,从而可以对错误显示的文本内容进行及时纠正。
116.如图5所示,为一种语音识别结果的对比示意图,针对某个说话人a的中文的语音片段,图5中的(a)表示,采用英文对应的语音识别引擎(asr)进行识别得到的文本结果为“she likes wearing his own leader among young woman that she wrote
……”
,图5中的(b)表示采用中文对应的语音识别引擎(asr)进行识别得到的文本结果为“起来吧不愿等待和屈服的人们,把我们的血肉
……”
。可以看出图5中的(b)中的文本结果由于采用了与当前说话人所使用语种对应的语音识别引擎进行识别,因此识别出的句子没有明显错误,有正确的意思表示,而图5中的(a)中的文本结果,由于采用了与当前说话人所使用语种不对应的语音识别引擎进行识别,因此识别出的句子不通顺,没有明确的意思表示。在本公开实施例可以保证使用与说话人对应的语音识别引擎进行识别的情况下,最终可以识别得到正确的文本内容。
117.本公开实施例提供的语音识别方法,会确定语种的转换时刻,并在将转换时刻之后,采用转换后的语种对应的语音识引擎进行语音识别,可以得到正确的文本内容。
118.如图6所示,本公开实施例提供一种语音识别装置,该装置包括:
119.接收模块601,用于持续接收语音流;
120.语音识别模块602,用于并采用第一语种对应的第一语音识别引擎进行语音识别;
121.语种检测模块603,用于在接收到大于或等于第一预设时长的第一语音片段的情况下,对所述第一语音片段进行语种检测;
122.所述语音识别模块602,还用于:
123.响应于检测出所述第一语音片段所属的第二语种与上一次语种检测得到的所述第一语种不同,确定所述第一语种和所述第二语种的转换时刻;
124.采用与所述第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容。
125.在一些实施例中,所述语音识别模块602具体用于:
126.在所述第一语音片段之前不存在时间上连续的其他语音片段情况下,将所述第一语音片段的起始时刻确定为所述转换时刻。
127.在一些实施例中,所述语音识别模块602具体用于:
128.在所述第一语音片段之前存在时间上连续的其他语音片段的情况下,从所述第二语种的检出时刻开始,按照第一滑动步长、以第一时间窗长度依次选取至少一个历史语音片段,从所述至少一个历史语音片段中确定出目标语音片段,所述目标语音片段为距当前时刻最近的语种检测结果非所述第二语种的历史语音片段;
129.基于所述目标语音片段的第一历史语音片段确定所述转换时刻,所述第一历史语音片段为所述目标语音片段的第一历史语音片段。在一些实施例中,所述目标语音片段,满足以下任一种条件:
130.所述目标语音片段为第二语种的概率小于或等于预设概率门限;
131.所述目标语音片段为第一语种的概率大于预设概率门限;
132.所述目标语音片段为任意语种的概率均小于或等于预设概率门限。
133.在一些实施例中,所述第一时间窗小于或等于所述第一预设时长,所述第一滑动步长小于或等于所述预设时间窗。
134.在一些实施例中,所述语音识别模块602,具体用于:
135.确定所述第一历史语音片段为第二语种的第一概率;
136.确定第二历史语音片段为第二语种的第二概率,所述第二历史语音片段为所述第一历史语音片段的上一个语音片段;
137.在所述第一概率与所述第二概率的差值小于预设差值时,将所述第一历史语音片段的开始时刻确定为所述转换时刻。
138.在一些实施例中,所述装置还包括:识别结果处理模块604;所述识别结果处理模块,用于在客户端界面呈现语音识别的识别结果。
139.在一些实施例中,所述识别结果处理模块604,还用于在所述语音识别模块602采用与第二语种对应的第二语音识别引擎对所述转换时刻之后的目标语音进行语音识别,得到目标文本内容之后,基于所述目标文本内容对第一识别结果进行替换,所述第一识别结果为所述转换时刻之后利用所述第一语音识别引擎进行语音识得到的语音识别结果。
140.在一些实施例中,所述语音流为会议中任意参会设备对应的语音流,或者,所述语音流为会议中任意参会人对应的语音流。
141.如图7所示,本公开实施例提供一种电子设备,该电子设备包括:处理器701、存储器702及存储在所述存储器702上并可在所述处理器702上运行的计算机程序,所述计算机程序被所述处理器702执行时实现上述方法实施例中的语音识别方法的各个过程。且能达到相同的技术效果,为避免重复,这里不再赘述。
142.本公开实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述方法实施例中语音识别方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
143.其中,该计算机可读存储介质可以为只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
144.本公开实施例提供一种计算程序产品,该计算机程序产品存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中语音识别方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
145.本领域技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产
品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
146.本公开中,处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
147.本公开中,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
148.本公开中,计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。根据本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
149.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
150.以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。