1.本技术涉及语音识别技术领域,具体涉及一种语音识别方法、装置、存储介质及电子设备。
背景技术:2.随着人工智能技术的不断发展,各类基于人工智能技术的产品也不断出现在人们的生产生活中,给人们的日常生活带来了极大的便利。其中,语音识别技术,也被称为自动语音识别(automatic speech recognition,asr),是人工智能技术的一个重要分支。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
3.目前,在一些场景下,例如在多声道语音识别的场景下,会存在语音识别结果不准确的问题。
技术实现要素:4.本技术提供了一种语音识别方法、装置、存储介质及电子设备,能够提升语音识别的准确性。
5.本技术提供的语音识别方法,包括:
6.获取待识别的语音信息,所述待识别的语音信息包括至少两个声道的语音信息;
7.对所述待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;
8.基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;
9.根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到所述待识别的语音信息对应的语音识别结果。
10.本技术提供的语音识别装置,包括:
11.获取模块,用于获取待识别的语音信息,所述待识别的语音信息包括至少两个声道的语音信息;
12.检测模块,用于对所述待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;
13.确定模块,用于基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;
14.识别模块,用于根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到所述待识别的语音信息对应的语音识别结果。
15.本技术提供的存储介质,其上存储有计算机程序,当所述计算机程序被处理器加载时执行如本技术提供的语音识别方法中的步骤。
16.本技术提供的电子设备,包括处理器和存储器,所述存储器存有计算机程序,所述
处理器通过加载所述计算机程序,用于执行本技术提供的语音识别方法中的步骤。
17.本技术提供的计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本技术提供的语音识别方法中的步骤。
18.本技术中,获取待识别的语音信息,待识别的语音信息包括至少两个声道的语音信息;对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果。相较于相关技术,本技术通过对待识别的多声道语音信息进行语音活动片段检测来预测语音对话过程,然后基于此识别出每一声道的噪声信息,进而对每一声道的噪声信息进行相应的抑制,从而识别得到更为准确的语音识别结果。该方法可以大大提升语音识别系统的抗噪能力,从而提升了语音识别的准确性。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术实施例提供的语音识别系统的场景示意图。
21.图2是本技术实施例提供的语音识别方法的流程示意图。
22.图3是为双声道的语音信息中的语音活动片段在时间维度的交叉情况示意图。
23.图4是本技术实施例中提供语音识别模型的语音识别过程示意图。
24.图5是本技术实施例提供的语音识别装置的结构框图。
25.图6是本技术实施例提供的电子设备的结构框图。
具体实施方式
26.需要说明的是,本技术的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本技术具体实施例,其不应被视为限制本技术未在此详述的其他具体实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.本技术以下实施例中所涉及的诸如第一和第二等关系术语仅用于将一个对象或者操作与另一个对象或者操作区分开来,并不用于限定这些对象或操作之间存在着实际的顺序关系。在本技术实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
28.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
29.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(machine learning,ml)技术,其中,深度学习(deep learning,dl)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在计算机视觉、自然语言处理等领域。
30.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
31.为了能够提高语音识别的准确性,本技术提供一种语音识别方法装置、存储介质以及电子设备。其中,语音识别方法可由电子设备执行。
32.请参照图1,本技术还提供一种语音识别系统,如图1所示,为本技术提供的语音识别系统的使用场景示意图,该语音识别系统包括电子设备100,比如,电子设备可以获取待识别的语音信息,待识别的语音信息包括至少两个声道的语音信息;对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;根据每一声道的噪声信息修正对应声道的语音识别结果,得到待识别的语音信息对应的语音识别结果。
33.电子设备100可以是任何配置有处理器而具备语音处理能力的设备,比如智能手机、平板电脑、掌上电脑、笔记本电脑、智能音箱等具备处理器的移动式电子设备,或者台式电脑、电视、服务器等具备处理器的固定式电子设备。
34.另外,如图1所示,该语音识别系统还可以包括存储设备200,用于存储数据,包括但不限于语音识别过程中得到的原始数据、中间数据以及结果数据等,比如,电子设备100可以将获取到的待识别语音信息、识别到的语音活动片段、每一声道的噪声信息以及待识别的语音信息对应的语音识别结果存入存储设备200中。
35.需要说明的是,图1所示的语音识别系统的场景示意图仅仅是一个示例,本技术实施例描述的语音识别系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着语音识别系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
36.请参照图2,图2为本技术实施例提供的语音识别方法的流程示意图。如图2所示,本技术实施例提供的语音识别方法的流程可以如下:
37.在s301中,获取待识别的语音信息。
38.其中,在相关技术中,语音识别技术已经广泛应用于智能客服场景中,包括但不限于外呼、导航、作息以及分析等场景,极大地提升了客服效率。其中,在一些场景中,例如在对坐席客服人员的服务质量进行自动检查的场景下,语音识别系统可以对客服人员以及客户的通话进行自动的语音识别,然后根据识别结果自动对坐席客服人员的服务质量进行检查,该方法可以大大提升对坐席客服人员的服务质量进行检查的效率。然而,在一些场景
下,例如用户所处的场景中环境噪声比较大(例如在食堂或者公交这样的嘈杂环境)时,语音识别系统受背景噪声的干扰,出现识别结果不够准确的问题。对此,为了提升语音识别系统在该场景下的鲁棒性,即为了提升该场景下语音识别的准确性,本技术提供了一种语音识别方法,以期能够提升在噪声干扰的情况下多声道语音信息识别的准确性。下面,对本技术提供的语音识别方法进行详细的介绍。
39.首先,对待识别的语音信息进行获取。待识别的语音信息可以为在坐席客服人员与客户的通话过程中实时进行获取,也可以先将坐席客服人员与客户的通话语音进行录音并存储,然后从存储的录音中获取到待识别的语音信息。在本技术实施例中,待识别的语音信息可以为双声道的语音信息,也可以为多声道的语音信息。具体地,在本技术中可以具体以双声道的语音信息为例对本技术提供的语音识别方法进行详细介绍。此处双声道具体可以为坐席客服人员对应的语音声道以及客户对应的语音声道。
40.在s302中,对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段。
41.其中,在本技术实施例中,在获取到待识别的语音信息后,可以先对待识别的语音信息进行语音活动片段检测。以确定每个声道的语音信息中包含的语音活动片段。其中,在坐席客服场景中,一般语音都双声道的会话,即一个人在说话时,另一个人便是在听。具体地,例如客户在说话时,坐席客服一般都是在听客户说话,当坐席客服针对客户的问题进行回答或者追问时,客户一般也是在听坐席客服说话。即一般情况下,双声道的语音信息中在同一时间点应当只有一个语音活动片段。如果在同一时间点检测到双声道语音信息中都存在语音活动片段时,便可以确定其中一个声道中存在噪声。基于上述考虑,本技术实施例在获取到待识别的语音信息后,可以先对待识别的语音信息中包含的至少两个声道的语音信息进行语音活动片段检测,以确定每一声道的语音信息中包含的多个语音活动片段,以便进一步根据每一声道对应的语音活动片段来确定噪声信息。
42.其中,在一些实施例中,对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段,包括:
43.1、对待识别的语音信息进行语音活动端点检测,得到每一声道对应的多组语音活动端点;
44.2、根据多组语音活动端点确定每一声道对应的多个语音活动片段。
45.其中,在本技术实施例中,对待识别的语音信息进行语音活动端点检测,具体可以采用语音活动端点检测(voice activity detection,vad)方法来实现。即在每一声道对应的语音信息中检测到多组语音活动端点,一组语音活动端点包括一个语音活动起点以及与该语音活动起点对应的语音活动终点。一组语音活动端点中,语音活动起点与对应的语音活动终点之间的语音片段,便为该组语音活动端点对应的语音活动片段。
46.一般情况下,语音活动端点检测的具体过程可以为将某一声道的待识别的语音信息划分为多帧音频帧,然后对每一音频帧进行短时能量检测,得到每一音频帧的短时能量值。然后将该短时能量值与预设的能量门限值进行比较,如果从某一音频帧开始的第一数量的音频帧内,存在第二数量(小于第一数量)的音频帧的短时能量值大于前述能量门限值,则可以确定该音频帧为一个语音活动起点,或称为vad起点。然后对该音频帧后的音频帧持续进行能量检测以及与预设能量门限值的比较,如果检测到从某一音频帧开始连续第
三数量的音频帧的短时能量都低于前述能量门限值,则可以确定该音频帧为一个语音活动终点,或称为vad终点。连续的vad起点和vad终点构成一个vad端点组合,一个vad端点组合对应了一个语音活动片段。
47.在一些实施例中,对待识别的语音信息进行语音活动端点检测,得到每一声道对应的多组语音活动端点之前,还包括:
48.a、获取第一训练样本数据,第一训练样本数据包括多段第一样本音频数据以及每段第一样本音频数据中包含的样本语音活动端点数据;
49.b、以多段第一样本音频数据为输入,以及以每段第一样本音频数据对应的样本语音活动端点数据为输出,训练语音活动端点检测模型;
50.对待识别的语音信息进行语音活动端点检测,得到每一声道对应的多组语音活动端点,包括:
51.c、将每一声道的语音信息输入至语音活动端点检测模型进行端点检测,得到每一声道的语音信息对应的多组语音活动端点。
52.其中,在本技术实施例中,还可以采用语音活动端点检测模型来进行语音活动端点检测。具体可以将每一声道的语音信息输入至一个语音活动端点检测模型中进行端点检测,得到每一声道的语音信息对应的多组语音活动端点。
53.其中,在采用语音活动端点检测模型对每一声道的语音信息进行语音活动端点检测之前,可以先对语音活动端点检测模型进行训练。具体地,可以先获取训练样本数据,为了与后续语音识别模型的训练样本数据进行区分,此处的训练样本数据可以成为第一训练样本数据。第一训练样本数据中具体可以包括多段第一样本音频数据以及每段音频数据中包含的样本语音活动端点数据。即可以先获取大量客服场景下双声道音频来构建音频数据库,然后对音频数据库中的每段音频进行语音活动端点标注。在获取到训练样本数据后,便可以以其中的样本音频数据为语音活动端点检测模型的输入,以及以每段样本音频数据对应的语音活动端点标注为模型的输出来对语音活动端点检测模型进行训练。其中,此处的语音活动端点检测模型具体可以为神经网络模型,对该模型的训练方式可以采用现有的梯度下降算法,此处不再予以赘述。
54.其中,本技术实施例是采用双声道语音信息为例进行介绍,当待识别的语音信息为多声道的语音信息时,可以同样采样上述方法对每一声道的语音信息进行语音活动片段检测,得到其他声道的语音信息对应的语音活动片段,此处不做赘述。
55.在s303中,基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息。
56.其中,在本技术实施例中,在获取到每一声道对应的语音活动片段后,便可以确定不同声道的语音活动片段在时间维度的交叉信息。如图3所示,为双声道的语音信息中的语音活动片段在时间维度的交叉情况示意图。如图所示,在第一声道10对应的语音信息中进行语音活动片段检测时检测到两个语音活动片段。在对第二声道20对应的语音信息中进行语音活动片段检测时检测到三个语音活动片段。然后,根据两个声道对应的语音活动片段在时间维度的交叉情况可以划分出如图所示的时间线a至时间线g这7条时间线。在时间线a和时间线b之间只有第二声道具有语音活动片段,在时间线b和时间线c之间两个声道都没有语音活动片段,在时间线c和时间线d之间只有第一声道具有语音活动片段,在时间线d和
时间线e之间两个声道都有语音活动片段,在时间线e和时间线f之间只有第二声道具有语音活动片段,在时间线f和时间线g之间只有第一声道具有语音活动片段。其中图3所示的只是一个示例,用于理解双声道的语音信息中检测出的语音活动片段之间的时间交叉信息。
57.根据语音活动片段之间的时间交叉信息,可以确定在哪些时间段只有一个声道具有语音活动片段,在哪些时间段两个声道都具有语音活动片段以及在哪些时间段两个声道都没有检测到语音活动片段。如前所述,对语音活动片段的检测,可以为基于短时能量门限值进行检测的,也可以为基于语音活动端点检测模型进行检测的。如此则意味着判定为语音活动片段是基于一定的条件来判断的,并非存在语音信息就一定存在语音活动片段,如此也就意味着不存在语音活动片段的时间段对应的语音信息就是静音。在一般情况下,在每一声道对应的语音信息中,没有检测到语音活动片段的时间段中也存在着语音信息,只是该部分的语音信息可能因为音量较小未被识别为语音活动片段。而该小音量的语音信息就极大可能为环境噪声信息。
58.其中,如前所述,在坐席客服通话场景下,一般在同一时间点应当只有一个声道中存在语音活动片段。如此,当根据不同声道的语音活动片段在时间维度的交叉信息确定在同一时间点两个声道均存在语音活动片段时,则可能有一个声道中的语音活动片段为噪声信息。因此在本技术实施例中,在确定了每个声道对应的语音活动片段后,便可以基于不同声道的语音活动片段在时间维度的交叉信息来确定每一声道的噪声信息。然后便可以进一步根据每一声道的噪声信息来对识别结果进行噪声抑制,得到更准确的识别结果。
59.其中,在一些实施例中,以待识别的语音信息包括双声道的语音信息为例,基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息,包括:
60.1、当在目标时间段中只有一个声道检测到语音活动片段时,确定在目标时间段中未检测到语音活动片段的声道中包含的语音信息为噪声信息;
61.2、当在目标时间段中在两个声道中均检测到语音活动片段时,基于对目标时间段中检测到的两个语音活动片段的声纹检测结果确定噪声信息。
62.其中,在本技术实施例中,以待识别的语音信息包括双声道的语音信息为例来详细说明根据语音活动片段在时间维度的交叉信息来确定噪声信息的方法。请继续参阅图3示例,如果在某个时间段内只有一个声道检测到语音活动片段,例如在时间线a和时间线b之间只在第二声道检测到语音活动片段,那么便可以确定该时间段内第一声道中的语音信息为背景噪声信息,只是该背景噪声信息可能音量较小,未被识别为语音活动片段。此时间段中第二声道中识别出的语音活动片段则可能为有效的通话语音信息,也可能为声音较大的背景噪声,为避免误判则不将其确认为噪声信息。同样,在时间线f和时间线g之间,只有第一声道中识别到语音活动片段,则确定该时间段中第二声道中的语音信息为背景噪声信息;此时第一声道中识别到的语音活动片段可能为有效的通话语音,也可能为声音较大的背景噪声,同样为避免误判,此处不将其确认为噪声信息。
63.如果在某个时间段中两个声道中均检测到语音活动片段,例如图3中时间线d和时间线e之间都检测到语音活动片段。然而由于一般情况下在一个时间点应当只有一个声道存在语音活动片段,那么此时便可能有一个声道中的语音信息为音量较大的背景噪声,此时可以通过声纹检测的方法来确定具体哪一个声道中的语音信息为噪声信息。
64.其中,在一些实施例中,基于对目标时间段中检测到的两个语音活动片段的声纹
检测结果确定噪声信息,包括:
65.2.1、对目标时间段中检测到的两个声道中的语音活动片段分别进行声纹检测;
66.2.2、当检测到任一目标语音活动片段的声纹不属于预设声纹时,确定目标语音活动片段对应的语音信息为噪声信息。
67.其中,在本技术实施例中,当检测到某个时间段中两个声道中均存在语音活动片段时,便可以先获取当前通话的两个声道中通话语音的声纹信息,将通话语音的声纹信息作为预设声纹。其中,对每个声道中通话语音的声纹信息进行获取的方法,可以通过对该声道中检测到的语音活动片段进行声纹提取,然后提取出其中出现频率最高的声纹信息,并将其设置为预设声纹。
68.如此,在出现上述某个时间段中两个声道中均存在语音活动片段的情况时,便可以对这两个语音活动片段进行声纹检测,以确定检测到的声纹是否为前述预设声纹中的一个。如果是,则可以确定该语音片段为有效通话语音,如果不是则可以确定该语音片段为音量较大的背景噪声。
69.其中,在前述一个时间段中仅有一个声道存在语音活动片段的情况中,也可以通过声纹检测来确定存在语音活动片段的声道中的语音信息是否为噪声信息。
70.其中,在本技术实施例中仅通过双声道的语音信息来进行举例说明,当待识别的语音信息为三声道或者多声道的语音信息时,同样可以采用上述方法来判断每一声道中的噪声信息。
71.在s304中,根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果。
72.其中,在通过上述方法确定了每一声道中的噪声信息后,便可以进一步根据该声道的噪声信息来对语音识别过程进行噪声抑制,得到每一声道的语音识别结果,进而得到待识别的语音信息对应的语音识别结果。
73.其中,在一些实施例中,根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果,包括:
74.1、获取预设语音识别模型;
75.2、将每一声道的语音信息和对应的噪声信息输入至预设语音识别模型进行语音识别,得到每一声道的语音识别结果;
76.3、根据每一声道的语音识别结果确定待识别语音信息对应的语音识别结果。
77.其中,在本技术实施例中,还提供了一种对噪声进行显性建模的语音识别模型,此处可以称为预设语音识别模型。即该语音识别模型在对语音信息进行语音识别的过程中,不仅能将语音信息中的通话语音识别出并转换为文字信息,还可以将语音信息中的噪声信息识别出并展示为噪声信息。在该语音识别模型中还设置了噪声池,可以临时存放确定为噪声的语音信息。在采用该语音识别模型对待识别的语音信息进行语音识别时,可以先将在待识别的语音信息中检测出的噪声信息存放入噪声池,以对噪声池进行更新。然后将待识别的语音信息输入至语音识别模型进行语音识别,语音识别模型在识别的过程中,会充分考虑噪声池中存在的噪声信息的特征,如此便可以准确识别出待识别语音中的通话语音和噪声信息,进而使得对通话语音的识别更为准确,从而大大提升语音识别的准确性。
78.在一些实施例中,本技术提供的语音识别方法还包括:
79.a、获取每一声道对应的噪声池;
80.b、基于每一声道的噪声信息更新对应的噪声池;
81.将每一声道的语音信息和对应的噪声信息输入至预设语音识别模型进行语音识别,得到每一声道的语音识别结果,包括:
82.c、将每一声道的语音信息和对应的更新后的噪声池中的噪声信息输入至预设语音识别模型进行语音识别,得到每一声道的语音识别结果。
83.其中,在本技术实施例中,对多声道的待识别语音信息的语音识别过程可以为分别对每一声道的语音信息进行语音识别,然后根据每个声道的语音识别结果确定最终的语音识别结果。其中,在本技术实施例中,可以对每个声道设置对应的噪声池。例如,如果某一声道为坐席客服声道,在对模型进行训练的过程中便可以根据训练样本数据确定坐席客服的语音信息中存在的噪声数据并以此维护坐席客服声道的噪声池。如此,在对双声道语音信息进行语音识别的过程中,可以将坐席客服声道中识别出的噪声信息添加到坐席客服声道对应的噪声池,得到坐席客服声道对应的更新后的噪声池。然后基于坐席客服声道的噪声池对坐席客服声道的语音信息的语音识别过程进行噪声抑制,得到坐席客服声道的语音识别结果。同样地,对于客户声道的语音信息也可以对应构建该声道对应的噪声池。
84.其中,在本技术实施例中,由于对不同的声道构建了针对性更强的噪声池,可以避免噪声池中存储大量的噪声信息影响语音识别模型的训练效率,同时由于噪声池中的噪声信息的针对性更强,可以更准确地对每个声道的语音识别过程进行噪声抑制,从而可以进一步提升语音识别的准确性。
85.其中,在一些实施例中,可以对每一噪声池设置一个存储上限,以保证主模型的解码效率。当噪声池中存储的噪声信息将超出前述存储上限时,可以通过删除低频噪声信息或者根据存储的时间信息删除存储时间距离当前时间最远的噪声信息。
86.其中,如图4所示,为采用本技术提供的语音识别模型进行语音识别的过程示意图。如图所示,该语音识别模型在对待识别的语音信息11进行识别时,可以先将语音信息11经主模型的第一编码器12进行特征编码得到语音特征,同时可以将噪声池中的噪声信息13经第二编码器14进行相应的特征编码,得到噪声特征。然后将噪声特征和语音特征一同输入到注意力层15中进行处理,最后将注意力层15的输出结果输入到解码器16中进行解码输出识别结果。
87.其中,注意力层的具体处理算法公式表达如下:
88.ai=attention(si,a
i-1
,h,hn)。
89.其中,上述注意力层计算公式中的核心部分,除了通常意义上的编码器段的输出和编码器的隐层变量h外,还额外包含了噪声信息向量hn,使得模型在进行识别推理的过程中,直接考虑到音频历史信息中包含的噪声信息,这样有利于提升语音识别模型的抗噪性能,提升整体识别效果和鲁棒性。
90.在一些实施例中,获取预设语音识别模型之前,还包括:
91.a、获取第二训练样本数据,第二训练样本数据包括多段第二样本音频数据以及每段第二样本音频数据对应的文字标签以及噪声标签;
92.b、以多段第二样本音频数据为输入,以及以每段第二样本音频数据对应的文字标签和噪声标签为输出,训练预设语音识别模型。
93.其中,在本技术实施例中,在采用本技术提供的语音识别模型对待识别语音信息进行语音识别之前,还需要对该语音识别模型进行训练。具体地,可以先获取对语音识别模型进行训练的训练样本数据,此处可以称为第二训练样本数据,其中第二训练样本数据中包括了多段第二样本音频数据以及每段第二样本音频数据对应的文字标签。此外,在本技术实施例中,第二训练样本数据中还包括了每段样本音频数据对应的噪声标签。以便训练出语音识别模型对噪声的识别能力。然后,可以以多段第二样本音频数据为输入,以及以每段第二样本音频数据对应的文字标签和噪声标签为输出来对预设语音识别模型进行训练。
94.根据上述描述可知,本技术提供的语音识别方法,通过获取待识别的语音信息,待识别的语音信息包括至少两个声道的语音信息;对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果。相较于相关技术,本技术通过对待识别的多声道语音信息进行语音活动片段检测来预测语音对话过程,然后基于此识别出每一声道的噪声信息,进而对每一声道的噪声信息进行相应的抑制,从而识别得到更为准确的语音识别结果。该方法可以大大提升语音识别系统的抗噪能力,从而提升了语音识别的准确性。
95.请参照图5,为更好的执行本技术所提供的语音识别方法,本技术进一步提供一种语音识别装置400,如图5所示,该语音识别装置400包括:
96.获取模块410,用于获取待识别的语音信息,所述待识别的语音信息包括至少两个声道的语音信息;
97.检测模块420,用于对所述待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;
98.确定模块430,用于基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;
99.识别模块440,用于根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到所述待识别的语音信息对应的语音识别结果。
100.可选地,在一些实施例中,检测模块,包括:
101.检测子模块,用于对所述待识别的语音信息进行语音活动端点检测,得到每一声道对应的多组语音活动端点;
102.第一确定子模块,用于根据所述多组语音活动端点确定每一声道对应的多个语音活动片段。
103.可选地,在一些实施例中,本技术提供的语音识别装置,还包括:
104.第一获取子模块,用于获取第一训练样本数据,所述第一训练样本数据包括多段第一样本音频数据以及每段第一样本音频数据中包含的样本语音活动端点数据;
105.第一训练子模块,用于以所述多段第一样本音频数据为输入,以及以每段第一样本音频数据对应的样本语音活动端点数据为输出,训练语音活动端点检测模型;
106.检测子模块,还用于:
107.将每一声道的语音信息输入至所述语音活动端点检测模型进行端点检测,得到每一声道的语音信息对应的多组语音活动端点。
108.可选地,在一些实施例中,所述待识别的语音信息包括双声道的语音信息,所述确定模块,包括:
109.第二确定子模块,用于当在目标时间段中只有一个声道检测到语音活动片段时,确定在所述目标时间段中未检测到语音活动片段的声道中包含的语音信息为噪声信息;
110.第三确定子模块,用于当在目标时间段中在两个声道中均检测到语音活动片段时,基于对所述目标时间段中检测到的两个语音活动片段的声纹检测结果确定噪声信息。
111.可选地,在一些实施例中,第三确定子模块,包括:
112.检测单元,用于对所述目标时间段中检测到的两个声道中的语音活动片段分别进行声纹检测;
113.确定单元,用于当检测到任一目标语音活动片段的声纹不属于预设声纹时,确定所述目标语音活动片段对应的语音信息为噪声信息。
114.可选地,在一些实施例中,识别模块,包括:
115.第二获取子模块,用于获取预设语音识别模型;
116.识别子模块,用于将每一声道的语音信息和对应的噪声信息输入至所述预设语音识别模型进行语音识别,得到每一声道的语音识别结果;
117.第四确定子模块,用于根据每一声道的语音识别结果确定所述待识别语音信息对应的语音识别结果。
118.可选地,在一些实施例中,本技术提供的语音识别装置,还包括:
119.第三获取子模块,用于获取每一声道对应的噪声池;
120.更新子模块,用于基于每一声道的噪声信息更新对应的噪声池;
121.识别子模块,还用于:
122.将每一声道的语音信息和对应的更新后的噪声池中的噪声信息输入至所述预设语音识别模型进行语音识别,得到每一声道的语音识别结果。
123.可选地,在一些实施例中,本技术提供的语音识别装置,还包括:
124.第四获取子模块,用于获取第二训练样本数据,所述第二训练样本数据包括多段第二样本音频数据以及每段第二样本音频数据对应的文字标签以及噪声标签;
125.第二训练子模块,用于以所述多段第二样本音频数据为输入,以及以每段第二样本音频数据对应的文字标签和噪声标签为输出,训练预设语音识别模型。
126.应当说明的是,本技术实施例提供的语音识别装置400与上文实施例中的语音识别方法属于同一构思,其具体实现过程详见以上相关实施例,此处不再赘述。
127.根据上述描述可知,本技术提供的语音识别装置,通过获取模块410获取待识别的语音信息,待识别的语音信息包括至少两个声道的语音信息;检测模块420对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;确定模块430基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;识别模块440根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果。相较于相关技术,本技术通过对待识别的多声道语音信息进行语音活动片段检测来预测语音对话过程,然后基于此识别出每一声道的噪声信息,进而对每一声道的噪声信息进行相应的抑制,从而识别得到更为准确的语音识别结果。该方法可以大大提升语音识别系统的抗噪能力,从而提升了语音识别的准确性。
128.本技术实施例还提供一种电子设备,包括存储器和处理器,其中处理器通过调用存储器中存储的计算机程序,用于执行本实施例提供的语音识别方法中的步骤。
129.请参照图6,图6为本技术实施例提供的电子设备100的结构示意图。
130.该电子设备100可以包括网络接口110、存储器120、处理器130以及屏幕组件等部件。本领域技术人员可以理解,图6中示出的电子设备100结构并不构成对电子设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
131.网络接口110可以用于进行设备之间的网络连接。
132.存储器120可用于存储计算机程序和数据。存储器120存储的计算机程序中包含有可执行代码。计算机程序可以划分为各种功能模块。处理器130通过运行存储在存储器120的计算机程序,从而执行各种功能应用以及数据处理。
133.处理器130是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分,通过运行或执行存储在存储器120内的计算机程序,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据,从而对电子设备100进行整体控制。
134.在本实施例中,电子设备100中的处理器130会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器120中,并由处理器130来执行本技术提供的语音识别方法中的步骤,比如:
135.获取待识别的语音信息,待识别的语音信息包括至少两个声道的语音信息;对待识别的语音信息进行语音活动片段检测,得到每一声道对应的多个语音活动片段;基于不同声道对应的语音活动片段在时间维度的交叉信息,确定每一声道的噪声信息;根据每一声道的噪声信息对相应声道的语音信息进行语音识别,得到待识别的语音信息对应的语音识别结果。
136.应当说明的是,本技术实施例提供的电子设备100与上文实施例中的语音识别方法属于同一构思,其具体实现过程详见以上相关实施例,此处不再赘述。
137.本技术还提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在本技术实施例提供的电子设备的处理器上执行时,使得电子设备的处理器执行以上任一适于电子设备的语音识别方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(read only memory,rom)或者随机存取器(random access memory,ram)等。
138.以上对本技术所提供的一种语音识别方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。