基于多层级标识的端到端语音识别模型及建模方法

文档序号：26013797发布日期：2021-07-23 21:35阅读：348来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种基于多层级标识的端到端语音识别模型及建模方法。

背景技术：

基于编码-解码框架的端到端(end-to-end,e2e)自动语音识别(automaticspeechrecognition,asr)直接建模输入音频序列与输出文本间的序列映射关系。简洁的框架、无须语言学背景知识的优点让该结构逐渐受到学术界与工业界的追捧。

在端到端asr中，输入的语音序列可以映射到不同层级的文本序列。语音序列与文本序列间的映射关系是一对多的。在中文asr中，文本序列可以由拼音(pinyin)、汉字构成；英文中文本序列可以由单词(word)、字符(character)构成。

一般来说，在端到端语音识别中，采用词级文本序列进行建模是最理想的选择。模型输出不需要通过词典做进一步的转化，实现了完全意义上的端到端建模。但如果采用词级文本进行建模，模型的容量及所需的模型参数量都较大；另一方面，字符级(character)文本序列也是一种候选方案。字符文本序列能有效地控制模型大小和参数量上，但捕捉语音信号中长时序上下文相关性的能力不足，而且从已有研究工作来看，字符级文本序列在大词汇量连续语音识别任务上性能表现不佳。

近年来，受益于深度学习(deeplearning,dl)的发展，自动语音识别(automaticspeechrecognition,asr)取得了巨大的进步。传统的基于深度学习的asr框架基于混合架构，其由基于条件独立近似训练得来的几个独立的组件构成。另一方面，asr方面新的研究着重于采用端到端的方法来建模输入音频到目标文本的序列间的映射关系。如，联结主义时间分类(connectionisttemporalclassification,ctc)、循环神经网络转换器(recurrentneuralnetworktransducer,rnn-t)、分段条件随机场(segmentalconditionalrandomfield,scrf)，基于注意力机制的编解码(attention-basedencoder-decoder,aed)模型和transformer模型。与传统的混合架构相比，端到端框架的asr减少对语言学信息的依赖，简化系统结构。

端到端的序列映射方法将输入音频序列映射到目标文本。目标文本序列可以由不同层级的文本组成。如英文文本可以由单词(word)、子词(subword)或者字符(character)构成。不同层级的标识有其对应的优缺点。

词级文本表示是现实中最常见的文本表示方式。将其作为端到端语音识别的目标序列是最为理想的选择，也与端到端语音的应用设想相符。它的另一个优点在于：词级模型的输出与性能评测指标一致，避免了模型优化目标和评价指标的不匹配。在所需带文本标识的训练语料充足的情况下，词级文本是端到端语音识别建模最为理想的选择。其不足之处在于所需训练数据量大、样本分布不均的问题。为了避免直接采用词级文本存在的问题，研究人员尝试使用字符进行建模。字符级文本序列的文本单元较少，能较好的控制输出单元个数与模型大小，从而减少了对于训练数据量的需求。但字符级文本单元在构建上未考虑输出文本序列中相邻单元间的影响，无法考虑到语音的协同发音、不发音等问题。考虑到词建模单元的建模难度和字符文本单元在性能上的不足。已有工作使用子词进行建模，旨在建模难度与模型性能间寻求的平衡点。

对于多层级标识信息的使用，另一个研究方向是在asr系统中结合多个文本序列而非挑选其中一个。多种文本序列共同表示输出序列内容可以为模型提供丰富、多层次的输出信息增强了目标文本的信息量。在端到端语音识别建模中，研究人员们已经采用过一些多层级标识端到端语音识别建模方法。目前的多层级标识端到端语音识别建模方法整体可分为多任务学习策略(multi-tasklearning，mtl)、预训练方法(pre-training)和得分融合(scorefusion)三类。

技术实现要素：

有鉴于此，本发明的主要目的在于提供一种基于多层级标识的端到端语音识别模型及建模方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种基于多层级标识的端到端语音识别建模方法，包括解码推论，所述解码推论采用后推理算法，所述后推理算法包括：

对应细粒度文本序列的模型产生后验概率输出序列

所述输出序列能够唯一对应出粗粒度子序列计算模型生成所述粗粒度子序列的对数似然值，并以此作为现有预测输出序列的交叉验证；

依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪，保证搜索路径控制在束宽度范围内。

其中，所述后推理算法的核心在于，在解码推论阶段使用序列间对齐映射信息。

其中，在所述交叉验证的过程中并未生成新的解码路径，而是从另一个角度对于现有路径输出结果进行得分的重排序。

其中，每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。

作为本发明的另一方面，提供了一种由上所述的建模方法所得到的端到端语音识别模型，所述语音识别模型包括交互解码器，所述交互解码器包括字符模块、交互模块、子词隐层模块和子词分类模块；其中，

所述字符模块用于建模字符子序列的输出预测并为后续运算过程提供字符历史状态

所述交互模块用于融合字符状态和子词状态，并使用融合后的交互状态作为交互注意力模块的计算。

其中，所述字符模块包括字符注意力模块计算、循环神经网络层和全连接层；所述字符模块的输入是字符历史输出的信息表征以及编码器输出序列

其中，所述交互模块包括交互注意力机制与循环神经网络层；所述交互模块的输入是字符历史状态、子词状态以及编码器输出序列

其中，所述子词隐层模块的输入是子词历史输出的信息表征以及编码器输出序列通过所述子词注意力模块和所述循环神经网络层结构分别实现对子词注意力向量的计算和子词状态的更新。

其中，所述子词分类模块的的输入是交互状态和子词状态，将所述交互状态和子词状态分别通过全连接层实现对子词的输出预测，将两项输出分别称为子词输出和辅助子词输出。

其中，所述交互解码器生成三种类型的输出：字符输出、子词输出和辅助子词输出，这三类输出对应三项交叉熵损失，三者共同构成了模型训练的损失函数。

基于上述技术方案可知，本发明的基于多层级标识的端到端语音识别模型及建模方法相对于现有技术至少具有如下有益效果之一：

(1)本发明提出的后推理算法和交互解码器的应用使得本发明的端到端语音识别模型与现有的识别模型相比，提高了语音识别结果的准确率。

(2)本发明提出的后推理算法的应用不受端到端结构的限制。

附图说明

图1为本发明实施例提供的多层级标识间的对齐映射关系(此处以子词和字符为例)；

图2为本发明实施例提供的基于mtl的多层级标识建模方法与端到端多层级标识序列对齐方法；

图3为本发明实施例提供的与多层级标识端到端模型联合条件概率相对应的图模型；

图4为本发明实施例提供的对齐映射关系在多层级标签端到端解码过程中的应用：联合解码算法(yⁱ和y^j分别以子词y^b和字符y^c为例)；

图5为本发明实施例提供的不同实验配置描述；

图6为本发明实施例提供的一种双层自回归解码的序列到序列语音合成声学模型结构图；

图7为本发明实施例提供的一种序列到序列语音合成声学模型中的交互解码器的结构图；

图8为本发明实施例提供的使用多粒度目标信息；其中，(a)交互解码器；(b)联合解码算法；

具体实施方式

从多层级的文本序列中挑选一项进行端到端语音识别建模并非是唯一选择，更非最优选择。语音识别端到端建模中所选取多种文本序列，记其为多层级标识(multiple-granularitytargetsequence)。本发明考虑选取多种文本序列共同用于端到端语音识别建模能实现更好的效果，提出了一多粒度序列对齐方法(multi-granularitysequencealignment,mgsa)。

端到端asr系统整体可拆分成模型训练阶段(trainingstage)与解码推论(inferencestage)两个部分。本专利所提出的mgsa方法将在这两个阶段中分别使用多层级标识信息对asr系统进行优化。首先，在模型结构中，端到端asr的解码器模块将依序生成多层级的文本序列，模型结构中将考虑不同层级标识间的相互影响。此外，在端到端的输出推论阶段中，本专利探索并利用不同层级标识之间隐性对齐映射关系进一步提升识别性能。所提出的后推理算法(postinferencealgorithm)能使用多层级标识信息进一步校准输出序列的后验概率得分。wsj-80hrs和switchboard300hrs数据集上的实验结果表明，该方法与传统的多任务方法以及单粒度基线系统相比具有明显的优越性。

本发明提出的mgsa方法目的旨在充分利用多粒度信息，在不增加整体输入信息量的情况下尽量提升端到端语音识别系统的性能。另一方面，多层级信息的提出从某种角度上起到了部分语言模型的作用，能减轻端到端模型对于外接语言模型的依赖。mgsa通过不同粒度单元之间的对齐映射关系，利用其交互信息，使得模型能够学习到其中的语义信息，进而提升模型性能。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

1、多层级标识间的序列对齐映射关系

在端到端的语音识别建模中，有三类文本单元——字符单元、子词单元和词级单元。在这三类文本单元中，前一文本单元(如字符)可以通过聚类形成后者(如子词)，后者对应于前者中的一个或多个文本单元。例如，在图1中词单元“course”对应于子词子串“_course”，子词单元“our”也唯一地映射到字符子序列“our”。上述各文本序列间隐性的序列间对齐映射关系，可以通过查询词典获得。文本序列间的对齐映射关系整体严格、明确且容易获得。我们将这样多层级文本之间存在的隐性、唯一的对应关系(如图1中中间实线所示)记为对齐映射关系。本发明将介绍如何在端到端语音识别建模中引入对齐映射关系的方法mgsa。

端到端asr可以分为模型训练和解码推论两个阶段。mgsa方法在这两个阶段都考虑了对齐映射的使用。该方法的总体框架如图2(b)所示。与图2(a)中常用的基于mtl的传统方法相比，有三个主要区别。

首先，mgsa基于多层级标识的联合条件概率作为模型优化的目标，并在优化过程中充分考虑了序列间对齐映射关系的使用。其次是提出了一种全新的解码器模块，其在结构层面上体现多层级标识之间的信息传输。通过该结构多层级标识间的交互和融合就在模型内部得以实现(图2中的虚线)；此外，在端到端asr的输出解码阶段，本项专利提出的一种后推理算法，通过多层级标识输出之间的对应关系校验、纠正模型的识别结果(图2中的虚点线)。

2、多层级标识的编解码结构

2.1、优化目标的公式推导

对于任意两种的文本表示和设定yⁱ为细粒度文本序列，y^j为粗粒度文本序列。在yⁱ中的各文本单元唯一映射到y^j中的文本序列中由一个或多个文本单元的子序列。此处将y^j中与yⁱ中第t个文本单元相对应的文本子串记为在中包含kt个的文本单元。进一步，将中第u个文本单元记为通过该表示形式，可以将y^j改写成以下形式。

公式(1)中的δ将文本序列y^j和yⁱ间的序列对齐映射关系以更为直观、显性的方式体现出来。基于此本发明提出了多层级标识序列对齐(multi-granularitysequencealignment，mgsa)方法。介绍该方法细节之前，我们采用公式推导方式获得mgsa的优化公式。以细粒度文本序列yⁱ和粗粒度文本序列y^j为例进行端到端语音识别目标函数的推导。在此仅讨论两个文本表示序列时的情况，三个及以上文本序列的联合条件概率的推导过程可以通过类比获得。给定输入语音特征序列x的情况下，多层级标识端到端语音识别模型的目标是建模联合条件概率pθ(yⁱ；y^j|x)。

套用公式(1)中对于粗粒度文本序列y^j的显性表达方式，并在此基础上将由和其相对应的文本子序列共同构成的文本对记为此时模型的联合条件概率可以表示为

多层级标识是相同文本在不同粒度下的表示。虽然各标识表示形式不同，但对应着相同的文本含义。其中各单元均与其他单元间存在相互关联。在图3(a)中，我们给出了与建模目标(公式(2))相对应的图模型表示。

考虑到多层级标识间的时序因果属性，图3(a)中两类文本序列间的相互影响是不合理的。首先，某一粒度文本序列中的单元应独立于另一粒度文本序列中时序相对靠前的单元。例如，不应影响的预测输出。其次，在一组文本对中的两个文本单元不应相互影响。如图3中的一组文本对和它们是对于文本单元是对于同一文本″our″在不同粒度上的表达。允许了它们之间的相互影响意味着在已知真实标识的前提下计算输出，这样计算过程是毫无意义的。综合以上两种时序因果的考虑，进一步将联合条件概率pθ(yⁱ；y^j|x)表示为(下边将采用简化形式pθ表示联合条件概率pθ(yⁱ；y^j|x))

此时联合条件概率的图模型通过利用文本表示序列间的时序因果属性可简化如图3(b)所示。

对比公式(3)，继续简化对应的图模型。在此基础上，假设文本序列的变量服从一阶马尔科夫假设。由此进一步地对联合条件概率进行简化，结果为

图3(c)与公式(4)相对应。联合条件概率中，文本子序列是一个长度为kt的子序列。将该关系带入联合条件概率中，粗粒度文本子串的计算过程可以通过链式法则进一步展开。获得联合条件概率的公式表达如下

公式(6)对应图3(d)。该公式表明两个文本序列的联合优化中，模型预测输出的生成过程需考虑两个层级对应时刻的历史信息。

从推导过程可得出构建模型时需满足的基本原则：

1.序列间对齐映射关系：对于同一文本内容的细粒度和粗粒度文本序列表达间存在严格的对应关系，即细粒度文本序列中每个文本单元均对应着一个或多个粗粒度文本序列中的文本单元。二者文本单元间存在严格的一对多映射关系，这是进行多层级标识端到端语音识别建模的根本所在。之后考虑的多层级标识间的相互影响需建立在此映射关系的前提下。

2.历史信息相互独立：要保证两个文本序列的历史信息和不会对彼此产生直接的影响。对于每一个状态变量，应保证其自身的历史时序建模能力，避免其它文本序列历史输出的影响。

3.直接作用于分类：多层级标识的交互影响需直接作用于文本单元的分类过程。基于递归形式展开的端到端建模过程可拆分为：历史文本序列建模和对模型预测的估计。考虑到前面所提到的历史信息的独立性前提——多层级标识信息的交互过程需反映到分类过程中。

在上述推导中，多层级标识间的相互影响是双向的。但在实际使用中可以进行一定的简化。忽略细粒度文本序列yⁱ到粗粒度文本序列y^j的信息传输，公式(6)进一步简化为：

2.2、多层级标识的编解码结构描述

所提出的模型结构由编码器和解码器两个部分构成。其编码器结构与传统编码器结构相同；在解码器部分，本发明提出了交互解码器结构。该结构由字符模块、交互模块、子词隐层模块和子词分类模块构成；另外，总共三个损失函数被用于指导模型训练。

编码器模块，该模块的输入是一句语音的特征序列x，编码器模块起到特征提取器的功能，用于增强输入序列在时间维度上的相关性，生成编码器输出序列具体来说，通过使用卷积神经网络(convolutionalneuralnetwork，cnns)和双向长短时记忆网络(bidirectionallongshort-termmemory，bi-lstm)将特征序列编码融合得到各时刻的上下文信息表达。

解码器模块。该模块包括字符模块、子词隐层模块、交互模块和子词分类模块，整体而言其输入是编码器输出序列输出是字词输出，基于编码器输出的上下文信息预测当前时刻的字词输出。

1.字符模块。该模块的输入是字符历史输出的信息表征以及编码器输出序列该模块由字符注意力模块计算、循环神经网络(recurrentneuaralnetwork，rnn)层和全连接层(fullyconnection，fc)构成，该部分用于建模字符子序列的输出预测并为后续运算过程提供字符历史状态

2.子词隐层模块。该模块的输入是子词历史输出的信息表征以及编码器输出序列通过子词注意力模块和rnn层结构分别实现对子词注意力向量的计算和子词状态的更新。

3.交互模块。该模块的输入是字符历史状态、子词状态以及编码器输出序列该模块由交互注意力机制与rnn层构成。该模块用于融合字符状态和子词状态，并使用融合后的交互状态作为交互注意力模块的计算。该过程主要体现字符状态对子词状态的影响。

4.子词分类模块。该模块的输入是交互状态和子词状态，将它们分别通过全连接层实现对子词的输出预测。此处将两项输出分别称为子词输出和辅助子词输出。

在交互解码器中主要生成三种类型的输出：字符输出、子词输出和辅助子词输出，三类输出对应三项交叉熵损失，三者共同构成了模型训练的损失函数。其中，前面两种是为了保证字符模块、交互模块、子词分类模块的模型训练与收敛；最后一项辅助模型中子词隐层模块中子词注意力模块的训练。

3、后推论算法

序列间对齐映射信息的使用并不局限应用于模型结构中，在解码阶段同样可以使用。

以细粒度文本序列yⁱ和粗粒度文本序列y^j为例进行介绍。当模型在解码过程中生成第t时刻的候选输出结果时，我们可以通过序列间对齐映射关系获得相应的子序列举例来说当模型获得子词候选输出为”se”时，其对应的字符子序列”se”可同步的获得。在解码阶段中，本发明将研究如何使用对预测输出进行验证。

3.1、优化目标的公式推导

端到端asr的解码阶段采用束搜索算法挑选在限定束宽度下的解码路径。一般使用现有解码路径的对数似然概率作为当前的路径得分值。解码阶段的公式表达如下

公式中为序列对应的词典。argmax函数的输出结果是由函数相对数值决定的，在上述公式基础上乘以2并不会改变结果。

公式(9)中第二项是t时刻生成的似然概率；采用与之对应的粗粒度子序列对齐进行替换(对应公式(10))，此时作为细粒度的预测输出的交叉验证；进一步将粗粒度子序列展开，获得最终的联合解码算法表达式(对应公式(11))。基于以上解码过程的公式推论提出了一种新的端到端模型解码算法，称之为联合解码算法。以上推导过程是基于两个文本序列展开，三个及以上文本序列的推导过程可以通过类比获得。

3.2、后推理算法(联合解码算法)思路介绍

具体介绍联合解码算法的实现细节。联合解码过程整体上可划分成预测，校验和裁剪三个步骤。图4给出了t时刻端到端语音识别解码过程。其中，预测：对应细粒度文本序列的模型产生后验概率输出校验：因为输出序列可以唯一对应出粗粒度子串计算模型生成子序列的对数似然值，并以此作为现有预测输出的交叉验证。在此过程中并未生成新的解码路径，而是从另一个角度对于现有路径输出结果进行得分的重排序(re-scoring)，故称为为校验。最后是裁剪，依据以上两步计算获得似然概率得分对于现有解码路径进行裁剪，保证搜索路径控制在束宽度范围内。在此过程中，每条解码路径的得分增量均由一个细粒度对数似然概率得分和多个粗粒度对数似然概率得分构成。整体上，联合解码算法与传统的束搜索算法相比，添加了校验这个步骤。

如图6所示，模型编码器的输入是语音特征序列，经过cnn和blstm抽取出其时间维度上的特征表示模型解码器的输入是编码器输出前一帧对应的字词输出以及前一帧的字符序列输出，输出是当前帧的预测字词输出，另外还有字符级的预测输出等。

给定一组多层级标注的训练样本[x；(y^b，y^c)]；其中的语音序列通过特征提取操作转化为音频特征序列x，对应的多层级标识分别为子词(subword)文本序列y^b和字符(character)文本序列y^c。

模型的编码器模块起到特征提取器的功能，用于增强输入音频特征序列在时间维度上的相关性，生成编码器输出序列交互解码器模块在解码时刻t，从中提取与当前时刻输出相关的信息，并结合模型历史输出生成子词预测输出下面，将以第t时刻的子词预测过程为例，对模型中交互解码器的具体结构进行介绍。

在模型进行t时刻的子词预测输出前，需要先完成与t-1时刻子词对应的字符子序列的预测输出。

如图7所示，为序列到序列语音合成声学模型中的交互解码器的结构图，具体各部分如下详细介绍。

(1)字符模块

字符子序列中的第u字符的预测输出过程如下，首先，与传统解码器结构相同，模型进行字符解码器状态更新和注意力向量计算。状态向量根据前一字符时刻的输出更新字符解码器状态

其中rnn表示单层循环神经网络(recurrentneuralnetwork)。

字符解码器状态与作为反馈信息加载到字符注意力模块中，用于生成字符注意力向量和上下文向量语音识别中的输入、输出序列具有单调对齐映射关系，故采用带卷积特征的加性注意力计算[1]。该注意力向量计算对应以下公式

其中attend表示通用的注意力模块；在此基础上进行字符的输出预测，根据进一步更新解码器状态

将和共同作用于的输出预测过程。此时字符的预测输出过程如下所示

当忽略子词状态对于字符预测输出的影响，字符预测输出过程可进一步简化为

公式中w^c和b^c分别为可训矩阵参数和偏差向量(biasvector)。以上公式构成了对字符子序列中的第u单元的预测输出。重复上述过程，直至完成字符子序列的输出预测。完成后将此刻字符解码器的状态向量记为该向量中包含了生成t时刻子词预测输出所需的字符历史信息。

(2)子词隐层模块

完成字符部分的准备工作后，进行第t时刻子词的输出预测。同样进行解码状态的更新与注意力向量的计算。首先采用历史时刻的预测输出更新解码器状态更新过程如

而后更新后的状态信息将作为注意力模块的输入，生成对应的注意力向量和上下文向量

子词隐层模块的整体结构如图7所示。接下来的计算过程不同于传统的编码-解码模型。在子词预测过程中需考虑额外引入字符解码器状态对子词输出的影响。本发明将通过添加交互模块实现上述字符对预测过程的影响。

(3)交互模块

该模块整体由一个注意力模块和两层rnn构成，对应的计算过程如图7中中间区域示。进一步描述了交互模块的结构：通过单层rnn融合和获得t时刻的交互状态向量

中包含满足序列间对齐映射关系的历史输出信息，用其计算交互模块的注意力向量

包含该计算过程，交互解码器结构中总共包含三个attend。为了将它们加以区分，本发明将上述attend计算过程分别称为字符注意力模块、子词注意力模块和交互注意力模块。该处的交互注意力模块能生成兼顾子词和字符信息的交互上下文向量可以作为的信息补充。

完成上述过程便同时获得子词状态和字符状态中包含了子词历史状态和子词历史输出两组信息；是字符历史状态和的结合。两种状态处于相同时序且构成内容类似可进行进一步的信息融合。参考glu激活单元[2]计算融合向量

公式中σ(.)和fc分别代指sigmoid激活函数和全连接层。获得融合向量后，通过单层rnn和更新交互解码器状态计算过程如

(4)子词分类模块

最后使用交互模块的状态预测当前时刻t的主要子词输出计算过程为

除却计算子词状态在此同时作为输入向量生成辅助子词输出计算过程为

在这两个公式中，wⁱ和w^b为可训矩阵参数，bⁱ和b^b为偏移向量。子词分类模块整体对应图7左下角区域。

(5)模型损失函数

在上述计算过程中，模型生成三种类型的输出：字符子序列的输出子词单元的输出和辅助子词输出三类输出相对应的分别对应损失函数中的一部分。当完成长度为t的子词输出的预测过程后，模型对应的损失函数如下

公式中，λ∈[0，1]是模型训练过程中预设的超参数。在模型训练中我们选用交叉熵(crossentropy，ce)损失函数作为目标函数。公式中的第一项和第二项分别对应字符输出和子词输出的交叉熵损失，第三项是辅助子词输出对应的交叉熵损失，用于辅助模型中子词注意力模块的训练。

(6)信息使用差异

后推理算法和交互解码器模块均使用对齐映射信息，但使用的阶段不同。在图8中说明性地解释了解得字词所用到的上下文的差异。对于后推理算法，子序列可以进一步应用于验证和校正图8(a)中的预测输出，而在图8(b)所示的交互解码器模块中则使用的是对应时间步(t-1)的历史输出字符。显然，对齐映射信息是在不同的时间步被利用的。因此，提出的mgsa端到端模型通过在解码阶段使用后推理算法，可以充分利用当前和历史时间步中的对齐映射信息。

实验验证

为了验证所提出的帧间解码器模块和后推理算法的有效性，针对各种系统，根据在switchboard-300hrs数据集上的误码率(wer)评估其asr性能。switchboard由大量的英语电话语音组成，选择了300小时的子集ldc97s62进行训练，保留10％做交叉验证。并选择hub5eval2000(即ldc2002s09)进行性能评估，它由两个子集组成：1)switchboard(类似于训练集)和2)callhome，它是从朋友之间以及家庭内部的对话中收集的。完整的hub5eval2000，子集switchboard和callhome分别表示为“full”，“swd”和“che”。为了完整性，还评估了rt03switchboard测试集(即ldc2007s10)的asr性能。

模型的编码器具有两个卷积层，它们使用3×3滤波器和32个通道对时间序列进行向下采样，随后是6层双向长短时记忆(lstm),cellsize大小为800。默认解码器是具有800个单元的2层单向lstm。使用80维log-mel滤波器组系数，三个音高系数以及归一化的均值和方差作为输入特征。实验中的char目标是一组46个字符，其包含英文字母，数字，标点符号和特殊的转录符号；对于子词目标，使用基于bpe算法的sentencepiece进行分段；基于espnet中的默认设置，为switchboard使用大小约为2000的词汇表。

使用的不同实验配置如图5所示，其中baseline为基线，baseline+在前者encoder模块中增加了一层blstm，目的为排除模型大小的影响，multitask为多任务学习方案，mgsabi和mgsauni为本发明提出的mgsa方案，前者考虑字词与字符间的交互信息，而后者仅考虑字符对字词的信息贡献。

实验结果如表i和表ii所示：

表iswitchboard数据集实验结果

表ii后推理算法实验结果

1.实验一：联合解码算法

为了分析模型结构对性能的影响，我们首先在解码阶段考虑所有方法的传统束搜索算法。表i列出了在switchboard两个验证集上实现的wer。显然，与基于eval2000数据集的multitask和baseline相比，本发明提出的mgsauni分别将wer降低了1.4％和1.9％；对于rt03，与multitask和baseline相比，mgsauni的wer分别降低了1.0％和1.7％；而且mgsabi的性能不如mgsauni。实际上，mgsauni的另一个优势在于，可以同时计算所有字符序列的预测，并且可以一次提取所有需要为相应子词提供的参数字符。

2.实验二：交互解码器

由于多粒度目标不仅影响模型结构，而且影响解码，因此，我们在解码阶段通过实验评估了应用所提出的后推理算法的影响。为了简洁起见，下面将分别用mgsauni+、multitask+表示mgsauni和multitask加上后推理算法。

switchboard数据集上的实验结果示于表ii中。相比于mgsauni，本发明提出mgsauni+方法也使eval2000的wer降低了0.7％，而rt03的wer降低了0.8％。相比于multitask方法也有明显提升。

由于提出的后推理算法的应用不受端到端结构的限制，因此，在表ii中的switchboard数据集上展示了multitask+的性能。由于使用了后推理算法，与原始multitask方法相比，switchboard上multitask的wer降低了1.2％。因此，得出的结论是，提出的后推理算法能够进一步改善asr性能。值得注意的是，该算法在mgsauni模型上的改进高于multitask。这是由于在前者中考虑了多个粒度中包含的对齐映射信息，而后者则没有考虑。由于mgsauni+相对于mgsauni实现了性能提升，并且比multitask+对multitask的提升略小一点，可以得出结论，分别使用帧间解码器和后推理算法获得的性能提升可能是部分互补的。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐健;胡宇晨;戴礼荣
技术所有人：中国科学技术大学
我是此专利的发明人

上一篇：通信方法及装置与流程
上一篇：垂直域中的网络发现、选择和访问控制的制作方法