基于双流自监督网络的语音识别方法、装置、设备及介质

文档序号:35707472发布日期:2023-10-12 08:19阅读:139来源:国知局
基于双流自监督网络的语音识别方法、装置、设备及介质

本发明涉及语音识别,尤其涉及一种基于双流自监督网络的语音识别方法、装置、设备及介质。


背景技术:

1、语音作为信息传递最直接有效的方式,是人们彼此感情交流和思想传递最主要的途径。自动语音识别(automatic speech recognition,asr)技术是指将语音信号正确地识别为对应的文本内容或命令,让机器听懂人类语言并执行相关操作。asr技术融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语音学、计算机与人工智能等基础学科与前沿学科,是人机语言通信以及信息交流的关键环节,有很强的实用价值。随着计算机的广泛应用,asr技术成为实现简单便捷的人机智能交互的关键技术,被广泛应用到检索查询、自动导航、自助服务、机器翻译、自动驾驶等许多真实场景,涉及到工业、文化、商业等领域。

2、asr经历了传统方法和深度学习方法两个发展时段。传统方法主要是将声学模型、发音模型和语言模型三个模块整合,用以发现给定语音观测时最可能出现的词语序列。随着深度学习技术的迅速发展,使用深度学习的语音任务性能逐渐超过传统算法。其中,基于深度神经网络的端到端语音识别(end-to-end automatic speech recognition,e2e asr)模型解决了需要对标注语音数据做对齐预处理的问题,并且可以直接得到输入语音波形或特征和输出文本内容之间的映射关系。e2e asr简化了模型训练流程的同时凭借强大的建模和学习能力相较于传统语音识别技术显著提高了语音识别准确率。值得注意的是,不同于传统的asr系统,e2e模型的性能很大程度上取决于可用的目标标注语料数量。然而语音数据收集及人工标注工作量巨大,并且小语种或者方言等因素均会导致标注语料数量不足的低资源应用场景出现。这为开展有效的e2easr带来了严峻挑战。目前面向标注数据有限的端到端语音识别的方案主要通过预训练策略在大量无标注数据上学习语音基础结构信息,然后在有限的标注数据进行监督训练。在监督训练过程根据监督学习的方式不同,可以具体分为如下问题:

3、(1)无监督学习的问题。由于数据收集和标注的巨大工作量会导致标注语料数量不足的应用场景出现,这将会显著降低模型建模能力。而无监督学习不依赖于标注数据,通过对数据本身蕴含的结构或特征,找到数据样本间的关系,能够一定程度缓解因标注数据不足导致的性能下降。然而,由于无监督学习使用未标注的数据来捕获数据本身的分布或结构,会使得模型预测过程中监督信息缺失,造成了模型预测的偏差增加,限制了标注数据有限的实际场景应用。

4、(2)半监督学习的问题。半监督学习是监督学习与无监督学习相结合的一种学习方法。与无监督学习不同,为了缓解无监督学习过程中监督信息不足而导致的预测偏差问题,半监督学习考虑对无标注数据进行部分标注的思路。即在标注数据上训练模型,使用经过训练的模型来预测无标注数据的标签,从而创建伪标签。然后将标签数据和新生成的伪标签数据结合起来作为新的训练据以此缓解无监督学习中监督信息不足的问题,但是半监督训练的性能严重依赖于模型预测伪标签的准确率。

5、(3)自监督学习的问题。自监督学习主要是利用辅助任务从大规模的无标注数据中挖掘自身的监督信息,使用构建的监督信息训练模型。与无监督和半监督相比可以学习到更多的语义关系和对下游任务有价值的表征。但是语音信号具有复杂的潜在结构(包含音素、音节、单词、韵律特征、句子上下文信息等),包含不同时间尺度的相关信息。而当前的自监督学习方案不能够兼顾不同特征之间的差异信息和数据自身分布的上下文信息导致预测的准确性和鲁棒性较差。

6、综上,为了推动端到端语音识别在标注数据有限的实际场景应用,提高自监督学习对语音基础结构信息捕获的完整性,需要对上述问题进行深入研究,提出合理的解决方案。


技术实现思路

1、本发明的实施例提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,以克服现有技术的缺陷。

2、为了实现上述目的,本发明采取了如下技术方案。

3、第一方面,本发明提供一种基于双流自监督网络的语音识别方法,包括:

4、获取目标声学特征以及预先训练好的语音识别模型;所述预先训练好的语音识别模型包括第一子模型与第二子模型,所述第一子模型包括编码与量化模块、重构预测模块以及对比预测模块,所述对比预测模块包括特征融合子模块,所述第二子模型包括ctc模块;

5、利用所述编码与量化模块对所述目标声学特征进行编码与量化,获得语音向量;

6、利用所述重构预测模块对所述语音向量进行重构预测,获得第一语音表示;同时,利用所述对比预测模块中的自回归模型对所述语音向量进行预测,获得第二语音表示;

7、利用所述特征融合子模块对所述第一语音表示与所述第二语音表示进行融合,获得融合后语音表示;

8、基于所述目标声学特征,结合第一子模型与ctc模块中的连接时序分类器对所述融合后语音表示进行识别,获得转录文本。

9、可选地,所述特征融合子模块包括门控循环单元和自适应融合层;

10、相应地,所述利用所述特征融合子模块对所述第一语音表示与所述第二语音表示进行融合,获得融合后语音表示,包括:

11、利用所述门控循环单元分别对所述第一语音表示与所述第二语音表示进行特征选择,对应获得第一选择后特征与第二选择后特征;

12、利用所述自适应融合层对所述第一选择后特征与第二选择后特征进行自适应融合。

13、可选地,所述预先训练好的语音识别模型通过如下方式训练得到:

14、获取声学特征样本以及预先构建的语音识别模型;

15、将所述声学特征样本输入至所述预先构建的语音识别模型;

16、基于所述重构预测模块输出的第一语音表示与所述声学特征样本计算获得重建损失;

17、基于所述特征融合子模块输出的融合后语音表示与所述声学特征样本计算获得对比损失;

18、基于所述声学特征样本的码本信息计算得到多样性损失;

19、根据所述重建损失、所述对比损失以及所述多样性损失对所述编码与量化模块、重构预测模块以及对比预测模块中的初始网络参数进行迭代更新,获得所述编码与量化模块、重构预测模块以及对比预测模块中的更新后网络参数;

20、将所述更新后网络参数作为所述ctc模块的特征提取器提取的语音表征,并基于所述声学特征样本以及标注数据对所述ctc模块进行训练解码,从而获得训练好的语音识别模型;

21、或者,根据所述重建损失、所述对比损失以及所述多样性损失对所述编码与量化模块、重构预测模块、对比预测模块以及ctc模块中的随机初始化的网络参数进行迭代更新,从而获得训练好的语音识别模型。

22、可选地,所述编码与量化模块包括编码器以及向量量化层,所述编码器基于conformer网络获得;

23、相应地,所述利用所述编码与量化模块对所述目标声学特征进行编码与量化,获得语音向量,包括:

24、利用所述编码器对所述目标声学特征进行编码,获得潜在语音表示;

25、通过所述向量量化层对所述潜在语音表示进行离散化处理,以获得所述语音向量。

26、可选地,所述编码器包括多层conformer,每一层conformer包括:

27、依次连接的第一前馈层、第一残差与标准化模块、多头自注意层、第二残差与标准化模块、卷积模块、第三残差与标准化模块、第二前馈层、第四残差与标准化模块以及layernorm层;其中,所述第一残差与标准化模块与第二残差与标准化模块、第二残差与标准化模块与第三残差与标准化模块、第三残差与标准化模块与第四残差与标准化模块之间进行残差连接。

28、可选地,所述预先训练好的语音识别模型还包括随机掩码模块;

29、相应地,在所述获取目标声学特征之后,方法还包括:

30、利用所述随机掩码模块对所述目标声学特征进行时间随机掩码与频率随机掩码处理,获得目标掩码声学特征;

31、所述利用所述编码与量化模块对所述目标声学特征进行编码与量化,获得语音向量,包括:

32、利用所述编码与量化模块对所述目标掩码声学特征进行编码与量化,获得语音向量。

33、第二方面,本发明还提供一种基于双流自监督网络的语音识别装置,包括:

34、声学特征与模型获取模块,用于获取目标声学特征以及预先训练好的语音识别模型;所述预先训练好的语音识别模型包括第一子模型与第二子模型,所述第一子模型包括编码与量化模块、重构预测模块以及对比预测模块,所述对比预测模块包括特征融合子模块,所述第二子模型包括ctc模块;

35、编码与量化模块,用于利用所述编码与量化模块对所述目标声学特征进行编码与量化,获得语音向量;

36、重构与对比模块,用于利用所述重构预测模块对所述语音向量进行重构预测,获得第一语音表示;同时,利用所述对比预测模块中的自回归模型对所述语音向量进行预测,获得第二语音表示;

37、融合模块,用于利用所述特征融合子模块对所述第一语音表示与所述第二语音表示进行融合,获得融合后语音表示;

38、分类模块,用于基于所述目标声学特征,结合第一子模型与ctc模块中的连接时序分类器对所述融合后语音表示进行识别,获得转录文本。

39、第三方面,本发明还提供一种电子设备,包括存储器和处理器,处理器和存储器相互通信,存储器存储有可被处理器执行的程序指令,处理器调用程序指令执行如上的基于双流自监督网络的语音识别方法。

40、第四方面,本发明还提供一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现如上的基于双流自监督网络的语音识别方法。

41、本发明有益效果:本发明提供的基于双流自监督网络的语音识别方法、装置、设备及介质,在编码与量化模块之后并行结合重构预测模块(reconstruction predictionmodule,rpm)和对比预测模块(contrastive prediction module,cpm)设计了一个双通道结构。其中,将重建预测作为对比预测的辅助任务分别对语音向量进行预测语音帧,从而在建模不同语音表示之间的归属关系捕获语音不同特征差异信息的同时,关注详细的语音上下文信息。此外,为了有效地利用双通道语音表示,还通过特征融合子模块来融合两个分支的语音表示,该特征融合子模块通过参数可学习策略自适应融合两个分支的语音表示,并利用权值来控制各种语音特征的暴露。最后,本发明提供的双流自监督学习网络可以很好地初始化asr模型的权重。与其他自监督学习方法相比,本发明提供的语音识别方法可以达到具有竞争力的预测精度。此外,在有限的标记数据场景下,与最先进的自监督学习方法相当。

42、本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1