模型构建方法、语音识别方法、装置及电子设备与流程

文档序号:32659274发布日期:2022-12-23 22:56阅读:32来源:国知局
模型构建方法、语音识别方法、装置及电子设备与流程

1.本技术涉及计算机技术领域,尤其涉及一种模型构建方法、语音识别方法、装置及电子设备。


背景技术:

2.深度学习在各领域的效果表现非常卓越,其功劳除了运算硬件性能提升、模型架构深化等影响,训练语料的规模更是最关键的因素。语音识别的语料量在现今已经达到数千、数万小时,其内容涵盖不同场景、语速、口音、背景噪音,正因为数据涵盖的范围广泛,在结合深度学习的架构后,许多应用已达到接近人类做辨识的准确率。
3.然而,虽然深度学习架构发展快速,不断提出新颖的架构且取得更好的识别效果,但也因为深度学习模型架构的参数量庞大、计算复杂,使得很多效果更好的架构因为辨识效率不佳而被局限,无法落地于许多应用当中。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种模型构建方法、语音识别方法、装置及电子设备。
5.第一方面,本技术提供了一种模型构建方法,包括:
6.获取训练语料及语料标签,所述语料标签中包括:所述训练语料对应的第一文字;
7.将所述训练语料输入初始的语音识别模型,获取所述语音识别模型输出预测的第二文字,以及,所述第二文字与所述第一文字相同的概率;
8.基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,直至所述语音识别模型收敛,得到训练完成的语音识别模型。
9.可选地,基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,包括:
10.获取所述语音识别模型输出的各概率的和,得到总概率;
11.基于所述语料标签及所述总概率构建目标函数;
12.根据所述目标函数调整所述语音识别模型的模型参数。
13.可选地,基于所述语料标签及所述总概率构建目标函数,包括:
14.获取与所述语料标签对应的最大似然数;
15.基于所述第二文字与所述最大似然数之间的差异,以及,所述总概率构建所述目标函数。
16.可选地,确定所述语音识别模型是否收敛,包括:
17.确定所述最大似然数与所述第二文字的差异是否小于默认阈值;
18.若所述差异小于预设第一阈值,确定所述语音识别模型收敛;
19.若所述差异大于或等于所述预设第一阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
20.可选地,确定所述语音识别模型是否收敛,包括:
21.获取所述语音识别模型训练的当前迭代次数;
22.若所述迭代次数等于预设第二阈值,确定所述语音识别模型收敛;
23.若所述迭代次数小于预设第二阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
24.可选地,获取训练语料,包括:
25.将采集的语音语料进行傅里叶变换,得到变换结果;
26.基于所述变换结果输入梅尔滤波器,得到频域特征数据,以作为所述训练语料。
27.第二方面,本技术提供了一种语音识别方法,所述方法包括:
28.获取待识别的目标语音语料;
29.将所述目标语音语料输入利用如第一方面任一所述的模型构建方法训练完成的语音识别模型,获取所述语音识别模型输出识别文字。
30.第三方面,本技术提供了一种模型构建装置,包括:
31.第一获取模块,用于获取训练语料及语料标签,所述语料标签中包括:所述训练语料对应的第一文字;
32.第一输入模块,用于将所述训练语料输入初始的语音识别模型,获取所述语音识别模型输出预测的第二文字,以及,所述第二文字与所述第一文字相同的概率;
33.调整模块,用于基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,直至所述语音识别模型收敛,得到训练完成的语音识别模型。
34.可选地,所述调整模块包括:
35.获取单元,用于获取所述语音识别模型输出的各概率的和,得到总概率;
36.构建单元,用于基于所述语料标签及所述总概率构建目标函数;
37.调整单元,用于根据所述目标函数调整所述语音识别模型的模型参数。
38.可选地,所述构建单元还用于:
39.获取与所述语料标签对应的最大似然数;
40.基于所述第二文字与所述最大似然数之间的差异,以及,所述总概率构建所述目标函数。
41.可选地,所述装置还包括:
42.第一确定模块,用于确定所述最大似然数与所述第二文字的差异是否小于默认阈值;
43.第二确定模块,用于若所述差异小于预设第一阈值,确定所述语音识别模型收敛;
44.第一更新模块,用于若所述差异大于或等于所述预设第一阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
45.可选地,所述装置还包括:
46.第二获取模块,用于获取所述语音识别模型训练的当前迭代次数;
47.第三确定模块,用于若所述迭代次数等于预设第二阈值,确定所述语音识别模型收敛;
48.第四确定模块,用于若所述迭代次数小于预设第二阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
49.可选地,所述第一获取模块包括:
50.傅里叶变换单元,用于将采集的语音语料进行傅里叶变换,得到变换结果;
51.输入单元,用于基于所述变换结果输入梅尔滤波器,得到频域特征数据,以作为所述训练语料。
52.第四方面,本技术提供了一种语音识别装置,所述装置包括:
53.第二获取模块,用于获取待识别的目标语音语料;
54.第二输入模块,用于将所述目标语音语料输入利用如第三方面所述的模型构建装置训练完成的语音识别模型,获取所述语音识别模型输出识别文字。
55.第五方面,本技术提供了一种电子设备,包括处理器、通信接口、内存和通信总线,其中,处理器,通信接口,内存通过通信总线完成相互间的通信;
56.内存,用于存放计算机程序;
57.处理器,用于执行内存上所存放的程序时,实现第一方面任一所述的模型构建方法,或者,实现第二方面所述的语音识别方法。
58.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
59.本技术实施例通过令语音识别模型基于训练语料输出预测的文字及文字是否准确的概率,增大语音识别粒度,忽略掉不必要的特征,相对于现有技术输出音素,在单位时间内可以更快的输出预测的识别文字,提高帧采样率因子(frame subsampling factor),提升帧子采样率因子即可线性的降低实时率(real-time factor),提高语音识别效率。
附图说明
60.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
61.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
62.图1为本技术实施例提供的一种模型构建方法的流程图;
63.图2为图1中步骤s103的流程图;
64.图3为本技术实施例提供的一种语音识别方法的流程图;
65.图4为本技术实施例提供的一种模型构建装置的结构图;
66.图5为本技术实施例提供的一种语音识别装置的结构图;
67.图6为本技术实施例提供的一种电子设备的结构图。
具体实施方式
68.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
69.由于目前的深度学习模型架构的参数量庞大、计算复杂,使得很多效果更好的架构因为辨识效率不佳而被局限,无法落地于许多应用当中。为此,本技术实施例提供一种模
型训练、语音识别方法、装置及电子设备,图1为本技术实施例提供的一种模型构建方法、语音识别方法、装置及电子设备,所述模型构建方法包括:
70.步骤s101,获取训练语料及语料标签。
71.本技术实施例中,训练语料可以指用于训练语音识别模型的语料数据,训练语料是将采集到的语音语料进行一系列处理得到的,语音语料是在发声者使用中文发声时采集的,语音语料中包含发声者发出的至少一个第一文字的语音信号。
72.在本技术的一种实施方式中,获取训练语料,包括:将采集的语音语料进行傅里叶变换,得到变换结果;基于所述变换结果输入梅尔滤波器,得到频域特征数据,以作为所述训练语料。
73.所述语料标签中包括:所述训练语料对应的第一文字,也就是说,语料卷标中是语音语料中所要表达的至少一个第一文字。
74.步骤s102,将所述训练语料输入初始的语音识别模型,获取所述语音识别模型输出预测的第二文字,以及,所述第二文字与所述第一文字相同的概率;
75.本技术实施例中,初始的语音识别模型是未经训练的语音识别模型,在本技术的一种实施方式中,可以将cnn-tdnnf声学模型作为初始语音识别模型,初始的语音识别模型中的模型参数是默认参数。
76.在进行每次迭代训练过程中,可以将训练语料输入语音识别模型中,语音识别模型可以基于训练语料预测语音语料所要表达的至少一个第二文字,以及,至少一个预测出来的第二文字与第一文字相同的概率,也即第二文字的准确度,并输出预测出来的第二文字及概率,第二文字与概率一一对应,也即每个第二文字对应一个概率,利用前向传播算法获取语音识别模型输出的第二文字及概率。
77.步骤s103,基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,直至所述语音识别模型收敛,得到训练完成的语音识别模型。
78.由于语音识别模型的训练目的是使输出的第二文字更加接近第一文字,理想情况下是语音识别模型输出的第二文字与第一文字相同,所以,可以将语料卷标作为训练目标,调整模型参数,使概率越来越大,直至概率满足默认条件,确定语音识别模型训练完成。
79.本技术实施例通过令语音识别模型基于训练语料输出预测的文字及文字是否准确的概率,增大语音识别粒度,忽略掉不必要的特征,相对于现有技术输出音素,在单位时间内可以更快的输出预测的识别文字,提高帧采样率因子(frame subsampling factor),提升帧子采样率因子即可线性的降低实时率(real-time factor),提高语音识别效率。
80.在本技术的又一实施例中,如图2所示,步骤s103基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,包括:
81.步骤s201,获取所述语音识别模型输出的各概率的和,得到总概率;
82.语音识别模型输出的第二文字均对应一个概率,以反映语音识别模型预测的第二文字相对于第一文字是否准确,所以,可以计算各第二文字对应的概率的和,即语音识别模型对整个训练语料预测的总概率。
83.步骤s202,基于所述语料标签及所述总概率构建目标函数;
84.在本技术的一种实施方式中,可以获取与所述语料标签对应的最大似然数(maximum likelihood);基于所述第二文字与所述最大似然数之间的差异,以及,所述总概
率构建所述目标函数,示例性的,目标函数如下:
[0085][0086]
其中,x表示训练语料,c表示语料标签,l
ctc
(x,c)表示关于的训练语料与语料卷标的目标函数,∑cp(c|x)表示总概率。
[0087]
步骤s203,根据所述目标函数调整所述语音识别模型的模型参数。
[0088]
在该步骤中,可以以最大似然数为训练目标,调整模型参数,直至语音识别模型收敛。
[0089]
本技术实施例能够自动基于文字粒度的语料卷标及各文字对应的概率调整所述语音识别模型的模型参数,实现以文字为粒度的语音识别模型的训练,增大语音识别粒度,忽略掉不必要的特征,提高帧采样率因子(frame subsampling factor),提升帧子采样率因子即可线性的降低实时率(real-time factor),提高语音识别效率。
[0090]
在本技术的又一实施例中,确定所述语音识别模型是否收敛,包括:
[0091]
步骤s301,确定所述最大似然数与所述第二文字的差异是否小于默认阈值;
[0092]
最大似然数是基于语料标签确定的,第二文字是基于训练语料预测的,模型的训练目标是使第二文字更加接近语料卷标对应的最大似然数,所以,可以判断最大似然数与第二文字之间的差异是否小于预设阈值,若二者之间的差异小于默认阈值,则模型预测的准确度达到要求,可以确定模型收敛,否则,继续迭代训练。
[0093]
步骤s302,若所述差异小于预设第一阈值,确定所述语音识别模型收敛;
[0094]
步骤s303,若所述差异大于或等于所述预设第一阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
[0095]
本技术实施例中,可以通过反向传播算法更新当前语音识别模型的模型参数,在模型参数更新完毕时,进行下一次迭代,更新参数后的当前语音识别模型作为下一个迭代过程的当前语音识别模型(在需要下一次迭代时)或者最终语音识别模型(收敛条件满足时),再次向语音识别模型输入训练语料。
[0096]
在本技术的又一实施例中,确定所述语音识别模型是否收敛,包括:
[0097]
步骤s401,获取所述语音识别模型训练的当前迭代次数;
[0098]
语音识别模型的训练过程中经过多次迭代,本技术实施例还可以根据迭代次数达到第二阈值时,可以确定语音识别模型训练完毕,否则,确定语音能识别模型未训练完毕,继续迭代训练。
[0099]
步骤s402,若所述迭代次数等于预设第二阈值,确定所述语音识别模型收敛;
[0100]
步骤s403,若所述迭代次数小于预设第二阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
[0101]
本技术实施例中,可以通过反向传播算法更新当前语音识别模型的模型参数,在模型参数更新完毕时,进行下一次迭代,更新参数后的当前语音识别模型作为下一个迭代过程的当前语音识别模型(在需要下一次迭代时)或者最终语音识别模型(收敛条件满足时),再次向语音识别模型输入训练语料。
[0102]
在本技术的又一实施例中,还提供一种语音识别方法,如图3所示,所述方法包括:
[0103]
步骤s501,获取待识别的目标语音语料;
[0104]
本技术实施例中,目标语音语料可以指待通过语音识别模型识别出文字的语料数据,目标语音语料是将采集到的语音语料进行一系列处理得到的,语音语料是在发声者使用中文发声时采集的,语音语料中包含发声者发出的至少一个第一文字的语音信号。
[0105]
在本技术的一种实施方式中,获取目标训练语料,包括:将采集的语音语料进行傅里叶变换,得到变换结果;基于所述变换结果输入梅尔滤波器,得到频域特征数据,以作为所述目标语音语料。
[0106]
示例性的,获取一段语音语料“不是因为好天气才这么说”,将该段语音语料经过傅里叶变换从时域变到频域,再通过梅尔滤波器产生梅尔频率倒谱系数特征,梅尔频率倒谱系数特征为语音”不是因为好天气才这么说”的频域特征,即目标语音语料;
[0107]
步骤s502,将所述目标语音语料输入利用如前述方法实施例任一所述的模型构建方法训练完成的语音识别模型,获取所述语音识别模型输出识别文字。
[0108]
示例性的,将语音语料“不是因为好天气才这么说”的频域特征(即目标语音语料)输入语音识别模型中,最后输出语音识别结果为“不是因为好天气才这么说”的一串文字。
[0109]
由于前述实施例中能够得到训练完毕的语音识别模型,所以,可以将目标语音语料输入语音识别模型,语音识别模型可以基于目标语音语料准确预测识别文字,并且,增大语音识别粒度,忽略掉不必要的特征,提高帧采样率因子(frame subsampling factor),提升帧子采样率因子即可线性的降低实时率(real-time factor),提高语音识别效率。
[0110]
在本技术的又一实施例中,还提供一种模型构建装置,如图4所示,包括:
[0111]
第一获取模块11,用于获取训练语料及语料标签,所述语料标签中包括:所述训练语料对应的第一文字;
[0112]
第一输入模块12,用于将所述训练语料输入初始的语音识别模型,获取所述语音识别模型输出预测的第二文字,以及,所述第二文字与所述第一文字相同的概率;
[0113]
调整模块13,用于基于所述语料标签及各所述概率调整所述语音识别模型的模型参数,直至所述语音识别模型收敛,得到训练完成的语音识别模型。
[0114]
可选地,所述调整模块包括:
[0115]
获取单元,用于获取所述语音识别模型输出的各概率的和,得到总概率;
[0116]
构建单元,用于基于所述语料标签及所述总概率构建目标函数;
[0117]
调整单元,用于根据所述目标函数调整所述语音识别模型的模型参数。
[0118]
可选地,所述构建单元还用于:
[0119]
获取与所述语料标签对应的最大似然数;
[0120]
基于所述第二文字与所述最大似然数之间的差异,以及,所述总概率构建所述目标函数。
[0121]
可选地,所述装置还包括:
[0122]
第一确定模块,用于确定所述最大似然数与所述第二文字的差异是否小于默认阈值;
[0123]
第二确定模块,用于若所述差异小于预设第一阈值,确定所述语音识别模型收敛;
[0124]
第一更新模块,用于若所述差异大于或等于所述预设第一阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
[0125]
可选地,所述装置还包括:
[0126]
第二获取模块,用于获取所述语音识别模型训练的当前迭代次数;
[0127]
第三确定模块,用于若所述迭代次数等于预设第二阈值,确定所述语音识别模型收敛;
[0128]
第四确定模块,用于若所述迭代次数小于预设第二阈值,更新所述语音识别模型的模型参数,执行将所述训练语料输入初始的语音识别模型的步骤。
[0129]
可选地,所述第一获取模块包括:
[0130]
傅里叶变换单元,用于将采集的语音语料进行傅里叶变换,得到变换结果;
[0131]
输入单元,用于基于所述变换结果输入梅尔滤波器,得到频域特征数据,以作为所述训练语料。
[0132]
在本技术的又一实施例中,还提供一种语音识别装置,如图5所示,所述装置包括:
[0133]
第二获取模块21,用于获取待识别的目标语音语料;
[0134]
第二输入模块22,用于将所述目标语音语料输入利用如前述实施例所述的模型构建装置训练完成的语音识别模型,获取所述语音识别模型输出识别文字。
[0135]
在本技术的又一实施例中,还提供一种电子设备,包括处理器、通信接口、内存和通信总线,其中,处理器,通信接口,内存通过通信总线完成相互间的通信;
[0136]
内存,用于存放计算机程序;
[0137]
处理器,用于执行内存上所存放的程序时,实现前述实施例所述的模型构建装置,或者,前述实施例所述的语音识别装置。
[0138]
本发明实施例提供的电子设备,处理器通过执行内存上所存放的程序实现了通过令语音识别模型基于训练语料输出预测的文字及文字是否准确的概率,增大语音识别粒度,忽略掉不必要的特征,相对于现有技术输出音素,在单位时间内可以更快的输出预测的识别文字,提高帧采样率因子(frame subsampling factor),提升帧子采样率因子即可线性的降低实时率(real-time factor),提高语音识别效率。
[0139]
上述电子设备提到的通信总线1140可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0140]
通信接口1120用于上述电子设备与其他设备之间的通信。
[0141]
内存1130可以包括随机存取内存(randomaccessmemory,简称ram),也可以包括非易失性内存(non-volatilememory),例如至少一个磁盘存储器。可选的,内存还可以是至少一个位于远离前述处理器的存储装置。
[0142]
上述的处理器1110可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可程序设计门阵列(field-programmablegatearray,简称fpga)或者其他可程序设计逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0143]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144]
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1