一种语音识别方法及设备与流程

文档序号：24243467发布日期：2021-03-12 13:19阅读：176来源：国知局

本申请属于通信技术领域，尤其涉及一种语音识别方法及设备。

背景技术：

语音识别技术，也被称为自动语音识别(automaticspeechrecognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码、字符序列或文本信息等。现有技术中的语音识别方法通常需要从待识别的语音信息中提取语音特征信息，再将提取的语音特征信息输入基于机器学习算法训练得到的声学模型进行处理，得到语音识别结果。

然而，语音识别设备在提取语音特征的过程中需要耗费一定的硬件资源，数据处理速度变慢，从而导致在通过声学模型进行语音识别时，语音识别速度变慢，同时，由于在特征提取的过程中会导致原始信号中的部分信息丢失，导致语音识别结果不准确。

技术实现要素：

有鉴于此，本申请实施例提供了一种语音识别方法及设备，以解决现有的语音识别方法识别速度较慢，在特征提取的过程中原始信号中的部分信息丢失，导致语音识别结果不准确的问题。

本申请实施例的第一方面提供了一种语音识别方法，包括：

获取待识别的语音信息；

将所述语音信息转换成预设维度的初始语音向量；

采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。

本申请实施例的第二方面提供了一种语音识别装置，包括：

获取单元，用于获取待识别的语音信息；

转换单元，用于将所述语音信息转换成预设维度的初始语音向量；

识别单元，用于采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。

本申请实施例的第三方面提供了一种语音识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的语音识别方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的语音识别方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在语音识别设备上运行时，使得语音识别设备执行上述第一方面所述的语音识别方法的步骤。

本申请实施例，通过将待识别的语音信息转换成预设维度的初始语音向量后，将其输入语音识别模型进行处理，得到语音信息对应的文本信息。由于在语音识别的过程中，语音识别模型是对原始语音信息对应的向量进行处理得到识别结果，在输入语音识别模型之前，不需要提取原始语音信息的特征信息，可以避免因提取原始语音信息的特征信息占用硬件资源(内存、处理器资源等)，而导致的数据处理速度变慢的问题，将可用的硬件资源用于语音识别，从而提高了语音识别效率。并且，在通过语音识别模型是基于原始语音信息对应的向量进行语音识别，是基于完整的原始音频信息进行识别的，可获取到完整的语音特征信息，相对于在提取特征信息后将提取的特征信息输入语音识别模型的方案而言，能够避免在提取特征信息时因丢失部分原始音频信息而导致识别结果不够准确的问题，能够提高语音识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种语音识别方法的示意流程图；

图2是本申请一实施例提供的一种语音识别模型的网络结构示意图；

图3是本申请另一实施例提供的一种语音识别模型的网络结构示意图；

图4是本申请另一实施例提供的一种语音识别方法的流程示意图；

图5是本申请实施例提供的语音识别装置的示意图；

图6是本申请一实施例提供的语音识别设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

请参见图1，图1是本申请一实施例提供的一种语音识别方法的示意流程图。本实施例中语音识别方法的执行主体为语音识别设备，语音识别设备包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑、机器人、服务器等。如图1所示的语音识别方法可包括：

s101：获取待识别的语音信息。

当用户需要识别语音信息时，可以通过语音识别设备的交换界面触发语音识别指令，或者通过语音触发语音识别设备生成语音识别指令，或者通过语音控制方式向语音识别设备发出用于标识当前需要识别语音信息的指令。

语音识别设备在检测到语音识别指令时，可以通过内置的声音拾取装置(例如，麦克风)获取周围环境中的说话人发出的待识别的语音信息；或者语音识别设备根据语音识别指令中包含的文件标识获取该文件标识对应的音频文件或视频文件，并提取音频文件或视频文件中的声音信息，将其识别为待识别的语音信息。音频文件或视频文件可以是用户上传的，也可以从用于存储音频文件或视频文件的服务器或数据库中下载得到，此处不做限制。

语音识别设备还可以接收其他设备发送的待识别的语音信息。

s102：将所述语音信息转换成预设维度的初始语音向量。

语音识别设备将待识别的语音信息转换成预设维度的初始语音向量，以便将原始语音信息对应的向量输入语音识别模型进行处理得到相应的预测结果。语音识别设备在将数据输入语音识别模型之前，不需要提取原始语音信息的特征信息，可以避免因提取原始语音信息的特征信息占用硬件资源(内存、处理器资源等)，而导致的数据处理速度变慢的问题。

预设维度可以为二维，但并不限于此，可根据实际情况进行设置，此处不做限制。下面以初始语音向量为二维向量为例进行说明。

假设，待识别的语音信息为时长为n秒、采样率为16000hz的音频信号，可以将该音频信号转换成一个一维向量，该一维向量可以记为(1，n×16000)。

然后，语音识别设备将该一维向量转换成预设维度的初始语音向量。在此过程中，可以将该一维向量看成一个矩阵，通过matlab中的reshape函数进行矩阵的转换，得到预设维度的初始语音向量。reshape函数可以重新调整矩阵的行数、列数、维数。

需要注意的是，使用reshape函数转换前和转换后的两个矩阵的元素个数必须相同，在本实施例中，转换前的一维向量和转换后的初始语音向量中包含的元素需要相同，如果在转换过程中，出现初始语音向量中的元素空缺的情况下，可以用0补齐。

例如，语音识别设备可以调用函数b＝reshape(a，m，n)，将待识别的语音信息对应的一维向量转换成预设维度的初始语音向量。其中，a表示待识别的语音信息对应的一维向量，b表示预设维度的初始语音向量，b的尺寸为m×n，维度为m。a中包含的元素为m×n个。

假设初始语音向量的预设维度为二，当待识别的语音信息为时长为n秒、采样率为16000hz的音频信号时，待识别的语音信息对应的一维向量记为(1，n×16000)，现以400个点为一帧，即25毫秒为一帧，对一维向量(1，n×16000)进行reshape操作，将该一维向量转换为向量维度为二的第二向量，则初始语音向量可以记为([n×16000/400],400),如果n×16000/400不能整除，则用0补齐。

s103：采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。

语音识别设备中预先存储有预先训练好的语音识别模型，预设的语音识别模型是使用机器学习算法对样本训练集中的多个样本语音信息对应的样本语音向量进行训练得到，样本训练集中的样本语音信息及其对应的样本文本信息关联保存，样本文本信息用于标识样本语音信息对应的文本识别结果，文本识别结果是指将样本语音信息转换成文本后的结果。

语音识别模型的输入为训练样本中的样本语音信息及其对应的样本文本信息，语音识别模型的输出为样本语音信息对应的文本识别结果。

可以理解的是，语音识别模型可以由语音识别设备预先训练好，也可以由其他设备预先训练好后将语音识别模型对应的文件移植至语音识别设备中，也就是说，训练该语音识别模型的执行主体与使用该语音识别模型进行语音识别的执行主体可以是相同的，也可以是不同的。具体地，其他设备在对深度学习网络结束训练时，固定深度学习网络的模型参数，将该深度学习网络对应的语音识别模型文件移植到语音识别设备中。

可以理解的是，语音识别模型在训练过程中对应的网络结构，与在应用过程(预测语音信息对应的文本信息)中所对应的网络结构相同。例如，在训练的过程中，语音识别模型包括采样层、语意分析层以及语音识别层，那么相应地，在通过语音识别模型预测语音信息对应的文本信息时，语音识别模型也包括采样层、语意分析层以及语音识别层。

进一步地，例如，在训练过程中，语音识别模型的采样层包括3子采样层，语意分析层可以包括2个子语意分析层，语音识别层可以包括2个子语音识别层；相应地，在通过语音识别模型预测语音信息对应的文本信息时，采样层包括2个子采样层，语意分析层包括2个子语意分析层，语音识别层可以包括2个子语音识别层，并且在应用过程中，每一层的工作原理与在训练过程中每一层的工作原理相同，因此，语音识别模型应用过程中的每一层神经网络的输入输出情况可以参见语音识别模型的训练过程中的相关介绍，这里不再赘述。

语音识别设备将待识别的语音信息对应的初始语音向量输入预先训练的语音识别模型进行特征提取、特征分析和特征识别等处理，得到待识别的语音信息对应的文本识别结果。

具体地，语音识别设备通过预设的语音识别模型提取待识别的语音信息对应的初始语音向量的局部特征信息，并提取所有局部特征信息的上下文信息，基于上下文信息，预测待识别的语音信息对应的预测文本信息。其中，上下文信息可以是语义上下文信息、空间上下文信息。语义上下文信息用于标识相邻的词与词之间的语义的相关性，句与句之间的语义的相关性。空间上下文信息用于标识相邻的词与词之间的位置相关性、前后句之间的位置相关性。

在一实施方式中，语音识别模型可以是如图2所示的网络结构示意图。语音识别模型采样层、语意分析层以及语音识别层。

在另一实施方式中，请一并参阅图3，图3是本申请另一实施例提供的一种语音识别模型的网络结构示意图。

采样层包括多个子采样层，每个子采样层输出的特征向量作为与其相邻的下一个子采样层的输入，最后一个子采样层的出差结果为采样层的最终输出结果，即输出语音信息的局部特征信息向量。每个子采样层包括卷积层(convolutionallayer)和池化层(poolinglayer)。采样层用于提取待识别的语音信息的局部特征。其中，子采样层的层数可以为5层，但并不限于此，可以根据实际需要进行设置，此处不做限制。可以理解的是，子采样层的层数越多，提取的局部特征越多，语音识别结果越准确。

语意分析层包括多个双向循环神经网络(bi-directionalbi-directionallongshort-termmemory，bilstm)。语意分析层用于提取待识别的语音信息的上下文信息。其中，bilstm为现有技术，此处不再赘述。

语音识别层包括注意力机制层，还可以包括全连接层。其中，注意力机制层可以由多个长短时记忆网络(longshort-termmemory，lstm)构成。lstm为现有技术，此处不赘述。语音识别层用于对上下文信息进行处理，输出待识别的语音信息对应的文本信息。当语音识别层不包括全连接层时，由注意力机制层输出识别结果；当语音识别层包括全连接层时，由全连接层输出识别结果。

进一步地，为了获取待识别的语音信息的局部特征以及上下文信息，从而能够结合局部特征和上下文信息准确识别语音信息对应的文本信息，提高语音识别结果的准确度，如图2所示，s103可包括s1031～s1033，具体如下：

s1031：将所述初始语音向量输入所述语音识别模型的采样层进行卷积和下采样处理，得到所述初始语音向量对应的局部特征信息向量；其中，所述局部特征信息向量用于标识所述初始语音向量对应的局部特征。

语音识别设备将待识别的语音信息对应的初始语音向量输入语音识别模型的采样层，通过采样层中的对初始语音向量进行卷积和下采样处理，得到初始语音向量对应的局部特征信息向量；其中，局部特征信息向量用于标识初始语音向量对应的局部特征。

具体地，请一并参阅图3，语音识别设备可以将初始语音向量输入采样层中的第k子采样层，其中，k为大于或等于1的整数，每个子采样层包括卷积层和池化层。通过第k子采样层中的卷积层对初始语音向量进行卷积处理，并将卷积结果输入第k子采样层中的池化层，通过最大池化的方法对卷积结果进行下采样处理，得到第k局部特征信息向量。之后，将第k局部特征信息向量输入采样层中的第k+1个子采样层，通过第k+1子采样层中的卷积层对初始语音向量进行卷积处理，并将卷积结果输入第k+1个子采样层中的池化层，通过最大池化的方法对卷积结果进行下采样处理，得到第k+1局部特征信息向量。

可以理解的是，第k+1个子采样层的输出结果即为采样层的最终输出，标识初始语音向量对应的所有局部特征信息。采样层输出的局部特征信息向量可以是一个，也可以是至少两个，此处不做限制。当采样层输出的局部特征信息向量为一个时，该局部特征信息向量可标识初始语音向量对应的所有局部特征信息；当采样层输出的局部特征信息向量为至少两个时，该至少两个局部特征信息向量标识的局部特征信息的总和，即为初始语音向量对应的所有局部特征信息。

s1032：将所述局部特征信息向量输入所述语音识别模型的语意分析层进行处理，确定所有所述局部特征信息向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；其中，所述语音序列特征向量用于标识所有所述局部特征的上下文关系。

语音识别设备将采样层输出的所有局部特征信息向量识别为语音识别模型的语意分析层的输入，将其输入至语音识别模型的语意分析层进行处理，分析所有局部特征信息向量的上下文信息，确定特征信息向量对应的所有局部特征信息之间的先后顺序。上下文信息可以是语义上下文信息、空间上下文信息。语义上下文信息用于标识相邻的词与词之间的语义的相关性，句与句之间的语义的相关性。空间上下文信息用于标识相邻的词与词之间的位置相关性、前后句之间的位置相关性。之后，语音识别设备基于局部特征信息向量以及上下文信息，对局部特征信息向量对应的所有局部特征信息进行排序，生成语音序列特征向量。

具体地，语音识别设备可以将采样层输出的所有局部特征信息向量输入如图2所示的多个bilstm进行处理，得到语音序列特征向量。可以理解的是，对于第一个bilstm而言，其输入为采样层输出的所有局部特征信息向量，输出为一个语音序列特征向量。当前的bilstm的输出作为与其相邻的下一个bilstm的输入，语意分析层的最后一个bilstm的输出即为语意分析层的最终输出，其作为语音识别模型的语音识别层的输入。与当前的bilstm相邻的下一个bilstm是由语意分析层中各bilstm的网络连接关系及数据传递方向确定。

其中，bilstm由前向单向长短期记忆网络(longshort-termmemory，lstm)与后向lstm组合而成。前向lstm和后向lstm在自然语言处理任务中都常被用来建模上下文信息。

将词语组合成句子时，可以采用相加的方法，例如，将所有表示单个词语的向量相加，得到相应的句子，或者将所有表示单个词语的向量相加取平均，得到相应的句子，但是这些方法没有考虑到词语在句子中的前后顺序。如句子“我不觉得他好”。“不”字是对后面“好”的否定，即该句子的情感极性是贬义。使用lstm可以更好的捕捉到较长距离的依赖关系。因为lstm通过训练过程可以学到记忆哪些信息和遗忘哪些信息。

在更细粒度的分类时，如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务，需要注意情感词、程度词、否定词之间的交互。举一个例子，“这个餐厅脏得不行，没有隔壁好”，这里的“不行”是对“脏”的程度的一种修饰，通过bilstm可以更好的捕捉到“脏”和“不行”的上下文关系，bilstm的输出是同时考虑了前后的因素得到的。

s1033：将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，得到所述语音信息对应的预测文本信息。

语音识别设备将语意分析层输出的语音序列特征向量输入语音识别模型的语音识别层进行处理，基于注意力(attention)机制对语音序列特征向量进行分析，确定语音信息对应的文本信息，并输出识别出的预测文本信息。

其中，从attention的作用角度出发，我们就可以从两个角度来分类attention种类：空间注意力(spatialattention)和时间注意力(temporalattention)。更具实际的应用，也可以将attention分为softattention和hardattention。softattention是所有的数据都会注意，都会计算出相应的注意力权值，不会设置筛选条件。hardattention会在生成注意力权重后筛选掉一部分不符合条件的注意力，让它的注意力权值为0，即可以理解为不再注意这些不符合条件的部分。

具体地，当语音识别层由如图3所示的注意力机制层构成时，语音识别设备将语意分析层输出的语音序列特征向量输入注意力机制层，通过注意力机制层中包含的多个lstm网络基于注意力机制对语音序列特征向量进行分析，筛选出符合条件的语音特征信息，并基于预设的语音特征信息及预设的文字标签(wordid)之间的对应关系，将筛选出的符合条件的语音特征信息映射为相应的文字标签，并基于映射后的文字标签对应的文字，按照语音特征信息之间的顺序，将语音特征信息各自对应的文字进行排序，得到语音信息对应的文本信息。

当语音识别层由如图3所示的注意力机制层和全连接层构成时，语音识别设备将语意分析层输出的语音序列特征向量输入注意力机制层中进行处理，以筛选出符合条件的语音特征信息，并将注意力机制层输出的处理结果输入全连接层进行处理，以将注意力机制层输出的处理结果映射到预先设置的文字标签上，得到语音信息对应的文本信息。

上述方案，通过将待识别的语音信息转换成预设维度的初始语音向量后，将其输入语音识别模型进行处理，得到语音信息对应的文本信息。由于在语音识别的过程中，语音识别模型是对原始语音信息对应的向量进行处理得到识别结果，在输入语音识别模型之前，不需要提取原始语音信息的特征信息，可以避免因提取原始语音信息的特征信息占用硬件资源(内存、处理器资源等)，而导致的数据处理速度变慢的问题，将可用的硬件资源用于语音识别，从而提高了语音识别效率。并且，在通过语音识别模型是基于原始语音信息对应的向量进行语音识别，是基于完整的原始音频信息进行识别的，可获取到完整的语音特征信息，相对于在提取特征信息后将提取的特征信息输入语音识别模型的方案而言，能够避免在提取特征信息丢失部分原始音频信息而导致识别结果不够准确的问题，能够提高语音识别的准确度。

请参阅图4，图4是本申请另一实施例提供的一种语音识别方法的示意流程图。本实施例中语音识别方法的执行主体为语音识别设备，语音识别设备包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑、机器人、服务器等。本实施例与上一实施例的区别在于上一实施例并未包括本实施例中s201～s203，其中，本实施例中的s204～s206与上一实施例中s101～s103相同，故本实施中的s204～s206的具体实现过程请参阅图1对应的实施例(即上一实施例)中的相关描述，此处不再赘述。其中，s201～s203在s206之前执行即可，s201～s203具体如下：

s201：将训练样本集合中的样本语音信息转换成预设维度的样本语音向量。

语音识别设备可以从用于存储训练样本的数据库中获取样本训练集合，也可获取其他设备存储的训练样本集合，样本训练集合为相关人员预先设置并输入。训练样本集合包括多个样本语音信息及其对应的样本文本信息。在此不对样本语音信息的数量做限制，样本训练集中的样本语音信息的数量，可以根据实际情况进行设置，在一定程度上来说，训练样本集合中的样本语音信息的数量越多，使用该训练样本集合训练得到的语音识别模型进行语音识别时，识别出的结果越准确。

可以理解的是，训练样本集合中可以包括多个说话人针对相同的文本信息说出的样本语音信息，还可以包括不同的说话人针对不同的文本信息说出的样本语音信息，或者同一个说话人针对不同的文本信息说出的样本语音信息。

语音识别设备可以将训练样本集合中的样本语音信息分成多个批次，从而能够采用不同批次的样本语音信息进行训练。同一个批次的样本语音信息可以看成一个子样本集合。

可以理解的是，在训练的过程中，可以使用训练样本集合中的全部样本语音信息进行训练，也可以使用训练样本集合中的部分样本语音信息进行训练；每次训练所采用的样本语音信息可以相同，也可以不同，此处不做限制。例如，第一次执行s201时，采用第一批次的样本语音信息，第二次执行s201时，可以采用第一批次的样本语音信息，也可以采用除第一批次之外的任意批次的样本语音信息。

可以理解的是，语音识别设备可以预先将参与训练的所有样本语音信息转换成预设维度的样本语音向量，之后再执行s202；也可以是在使用样本语音信息进行训练时，将其转换成预设维度的样本语音向量。

在将样本语音信息输入深度学习网络之前，语音识别设备将样本语音信息转换成预设维度的向量，可以提高提取语音特征信息的效率。

具体地，语音识别设备可以基于样本语音信息各自对应的语音时长及采样率，将样本语音信息转换成一维向量，并调用matlab中的reshape函数将一维向量转换成预设维度的样本语音向量。预设维度可以为二维，但并不限于此，可根据实际情况进行设置，此处不做限制。

reshape函数可以重新调整矩阵的行数、列数、维数。需要注意的是，使用reshape函数转换前和转换后的两个矩阵的元素个数必须相同，在本实施例中，转换前的一维向量和转换后的样本语音向量中包含的元素需要相同，如果在转换过程中，出现样本语音向量中的元素空缺的情况下，可以用0补齐。

例如，语音识别设备可以调用函数b＝reshape(a，m，n)，将每个样本语音信息对应的一维向量转换成预设维度的样本语音向量。其中，a表示每个样本语音信息对应的一维向量，b表示预设维度的样本语音向量，b的尺寸为m×n，维度为m。a中包含的元素为m×n个。其中，当m×n大于a中包含的元素的数量时，b中除包含a的元素之外的元素用0补齐。

s202：将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果。

语音识别设备在将样本语音信息对应的样本语音向量之后，将样本语音向量输入深度学习网络进行处理，提取该样本语音信息的局部特征信息以及上下文信息，并对样本语音信息的局部特征信息以及上下文信息进行分析，得到样本语音信息的文本识别结果。语音识别模型包括采样层、语意分析层以及语音识别层。

可以理解的是，在训练过程中，需要返回执行s202时，首次执行s202所对应的样本语音信息与非首次执行s202时所对应的样本语音信息，可以相同，也可以不同。

进一步的，s202可以包括s2021～s2023，具体如下：

s2021：将样本语音信息对应的样本语音向量输入所述深度学习网络的采样层进行卷积和下采样处理，得到所述样本语音信息对应的样本局部特征信息向量；其中，所述样本局部特征信息向量用于标识所述样本语音信息对应的局部特征。

语音识别设备将样本语音信息对应的样本语音向量输入语音识别模型的采样层，通过采样层对每个样本语音向量进行卷积和下采样处理，得到样本语音向量对应的局部特征信息向量；其中，局部特征信息向量用于标识样本语音向量对应的局部特征。

进一步的，当采样层包括如图3所示的多个子采样层时，每个子采样层输出的特征向量作为与其相邻的下一个子采样层的输入，最后一个子采样层输出样本局部特征信息向量。可以理解的是，采样层包括的子采样层越多，采样层提取的样本语音信息的局部特征信息越多，最终得到的样本语音信息对应的文本识别结果越接近样本文本信息。下面以采样层包括三个子采样层为例进行说明，具体地，s2021可以包括以下步骤：

s20211：将样本语音信息对应的样本语音向量输入所述深度学习网络中的第一子采样层进行卷积和下采样处理，得到第一样本局部特征信息向量。

在本实施方式中，采样层包括三个子采样层，每个子采样层包括卷积层和池化层，采样层用于提取待识别的语音信息的局部特征。

可以理解的是，在其他实施方式中，子采样层的层数可以大于3层，例如5层，但并不限于此，可以根据实际需要进行设置，此处不做限制。

语音识别设备将样本语音信息对应的样本语音向量输入语音识别模型的第一子采样层，在第一子采样层的卷积层按预设的卷积窗口以及卷积步长对样本语音向量进行卷积，将卷积结果输入第一子采样层的池化层，基于预设的池化窗口和池化步长，采用最大池化的方法对卷积结果进行下采样处理，得到第一样本局部特征信息向量。

其中，预设的卷积层的卷积窗口大小为(5，5)即，卷积核为5×5，预设的池化层的池化窗口大小为(2，2)。卷积和池化的步长都为1，卷积前后的通道数和维度不变。

每个子采样层的输出都是一个四维向量，该四维向量反映以下维度的信息：本次训练所采用的样本语音信息的数量、卷积核的水平大小、卷积核的竖直大小以及卷积核的数量。可以记为(batch_size，left_size，right_size，num_filters)，batch_size是本次训练所采用的样本语音信息的数量，即参与本次训练的样本语音信息的的数量，left_size是卷积核的水平大小，right_size是卷积核的竖直大小，num_filters是卷积核的数量。

s20212：将所述第一样本局部特征信息向量输入与所述第一子采样层相邻的第二子采样层进行卷积和下采样处理，得到第二样本局部特征信息向量。

卷积和下采样处理过程与s20211中相同，此处不赘述。其中，第二子采样层为处于第一子采样层与第三子采样层之间的中间采样层。第二子采样层的数量可以为一个，也可以为至少两个。当第二子采样层的数量为至少两个时，相邻的前一个第二子采样层的输出作为下一个第二子采样层的输入，最后一个第二子采样层的输出作为第三子采样层的输入。

s20213：将所述第二样本局部特征信息向量输入第三子采样层进行卷积和下采样处理，得到所述样本局部特征信息向量。

第三子采样层输出的样本局部特征信息向量为输入深度学习网络的各个样本语音向量分别对应的样本语音信息所对应的所有局部特征信息。第三子采样层为采样层的最后一个子采样层，因此，第三子采样层的输出即为整个采样层对应的输出，即第三子采样层输出的结果为s2021中样本语音信息对应的样本局部特征信息向量。

s2022：将所述样本局部特征信息向量输入所述深度学习网络的语意分析层进行处理，确定所有所述样本局部特征信息向量的上下文信息，并基于所述样本局部特征信息向量以及所述上下文信息生成样本语音序列特征向量；其中，所述样本语音序列特征向量用于标识所有所述局部特征的上下文关系。

语音识别设备将采样层输出的样本语音信息对应的所有样本局部特征信息向量，输入深度学习网络的语意分析层进行处理，分析样本语音信息对应的所有样本局部特征信息向量的上下文信息，确定样本语音信息对应的所有局部特征信息之间的先后顺序。之后，语音识别设备基于样本局部特征信息向量以及上下文信息，对样本局部特征信息向量对应的所有局部特征信息进行排序，生成样本语音信息的样本语音序列特征向量。

其中，语意分析层用于提取待识别的语音信息的上下文信息。

进一步地，语意分析层可以包括至少两个子语意分析层；每个子语意分析层由一个bilstm构成。每个子语意分析层的输出结果作为下一个子语意分析层的输入，最后一个子语意分析层的输出结果作为语意分析层的输入；其中，每个子语意分析层的输出结果均包括一个语音序列向量和一个状态信息向量。

可以理解的是，语意分析层包括的子语意分析层的层数越多，语意分析层提取的样本语音信息对应的上下文信息越全面，通过深度学习网络处理得到的样本语音信息对应的文本识别结果越接近样本文本信息。

其中，语音序列向量可以表示为：output(batch_size，sequence_length，hidden_size)。状态信息向量可以表示为：state(batch_size，hidden_size)。batch_size是本次训练所采用的样本语音信息的数量，sequence_length是样本语音信息的长度，hidden_size是隐藏层大小，隐藏层大小是预设设置的。

进一步的，当语意分析层包括两个子语意分析层时，s2022可以包括：

s20221：将所述样本局部特征信息向量输入所述深度学习网络的第一子语意分析层进行处理，输出第一语音序列向量和第一状态信息向量。

语音识别设备将采样层输出的每个样本语音信息对应的样本局部特征信息向量输入深度学习网络的第一个bilstm进行处理，分析每个样本语音信息对应的上下文信息，输出第一语音序列向量和第一状态信息向量。第一语音序列向量可反映本次训练所采用的样本语音信息的数量、样本语音信息的长度以及第一个bilstm中的隐藏层大小。第一状态信息向量可反映第一个bilstm中的隐藏层的状态以及本次训练所采用的样本语音信息的数量。

其中，第一语音序列向量可以表示为：output1(batch_size，sequence_length，hidden_size)。第一状态信息向量可以表示为：state1(batch_size，hidden_size)。

s20222：将所述第一语音序列向量和所述第一状态信息输入所述第二子语意分析层进行处理，输出所述样本语音序列特征向量和第二状态信息向量。

其中，在本实施方式中，子语意分析层设有2层，第二子语意分析层与语音识别层相连。

样本语音序列特征向量可反映本次训练所采用的样本语音信息的数量、样本语音信息的长度以及第二个bilstm中的隐藏层大小。样本语音序列特征向量可以表示为output(batch_size，sequence_length，hidden_size)。

第二状态信息向量可反映第二个bilstm中的隐藏层的状态以及本次训练所采用的样本语音信息的数量，第二状态信息向量可以表示为state2(batch_size，hidden_size)。

在其他实施方式中，当语意分析层包括3个或更多个子语意分析层时，第一子语意分析层为语意分析层的第一层，第二子语意分析层为语意分析层的最后一层。语音识别设备将第一语音序列向量和第一状态信息输入与第一子语意分析层相邻的下一个子语意分析层进行处理，并将输出结果输入与其相邻的下一个子语意分析层，以此类推。

可以理解的是，每一层的隐藏层大小可以设置为同一个，也可以设置为各不相同，具体根据实际需求设置，此处不做限制。

s2023：将所述样本语音序列特征向量输入所述深度学习网络的语音识别层进行处理，得到所述样本语音信息对应的文本识别结果。

语音识别设备将语意分析层输出的每个样本语音信息对应的样本语音序列特征向量，输入深度学习网络的语音识别层进行处理，基于注意力机制对样本语音序列特征向量进行分析，确定样本语音信息对应的识别结果，并输出识别出的文本信息。

进一步地，语音识别层可以包括至少两个子语音识别层，每个子语音识别层由一个lstm构成。每个子语音识别层输出的特征向量作为与其相邻的下一个子语音识别层的输入，最后一个子语音识别层输出文本识别结果。可以理解的是，语音识别层包括的子语音识别层越多，语音识别层输出的语音特征向量反映的语音特征信息越多，输出的样本语音信息的文本识别结果越接近该样本语音信息对应的样本文本信息。

进一步地，当语音识别层包括两个子语音识别层时，s2023可以包括：

s20231：将所述样本语音序列特征向量和所述第二状态信息向量输入所述深度学习网络的第一子语音识别层进行处理，得到语音特征向量和第三状态信息向量。

语音识别设备将语意分析层输出的每个样本语音信息对应的样本语音序列特征向量和第二状态信息向量，输入深度学习网络的语音识别层的第一子语音识别层进行处理，基于注意力机制对样本语音序列特征向量及第二状态信息向量进行分析，得到一个语音特征向量及一个状态信息向量(即，第三状态信息向量)。语音特征向量为三维向量，该三维向量反映以下维度的信息：本次训练所采用的样本语音信息的数量、样本语音信息的长度以及隐藏层大小。第三状态信息向量为二维向量，二维向量反映以下维度的信息：本次训练所采用的样本语音信息的数量和lstm的隐藏层大小。

例如，语音特征向量可以表示为：output(batch_size，sequence_length，hidden_size)，第三状态信息向量可以表示为：state(batch_size，hidden_size)。batch_size表示本次训练所采用的样本语音信息的数量，sequence_length表示样本语音信息的长度，hidden_size表示lstm的隐藏层大小。

可以理解地是，当语音识别层包括3个或更多个子语音识别层时，第一子语音识别层为语音识别层的第一层，第二子语音识别层为语音识别层的最后一层。前一个子语音识别层的输出作为与其相邻的后一个子语音识别层的输入，并且除最后一个子语音识别层之外的其他子语音识别层的输出结果均包括一个语音特征向量和一个状态信息向量。语音特征向量反映以下维度的信息：当前批次的样本语音信息的数量、样本语音信息的长度以及隐藏层大小信息。状态信息向量反映以下维度的信息：每个批次的样本语音信息的数量和所述隐藏层大小。

s20232：将所述语音特征向量和所述第三状态信息向量输入所述第二子语音识别层进行处理，输出所述样本语音信息对应的文本识别结果。

具体地，当语音识别层由如图3所示的注意力机制层构成时，语音识别设备将语意分析层输出的样本语音信息对应的样本语音序列特征向量输入注意力机制层，通过注意力机制层中包含的多个lstm基于注意力机制对样本语音信息对应的样本语音序列特征向量进行分析，筛选出符合条件的语音特征信息，并基于预设的语音特征信息及预设的文字标签之间的对应关系，将筛选出的符合条件的语音特征信息映射为相应的文字标签，并基于映射后的文字标签对应的文字，按照语音特征信息之间的顺序，将语音特征信息各自对应的文字进行排序，得到样本语音信息对应的文本识别结果。

进一步的，语音识别层可以包括至少两个子语音识别层和一个全连接层。

具体地，当语音识别层由如图3所示的注意力机制层和全连接层构成时，语音识别设备将语意分析层输出的每个样本语音信息对应的样本语音序列特征向量输入注意力机制层中进行处理，以筛选出符合条件的语音特征信息，并将注意力机制层输出的处理结果输入全连接层进行处理，以将注意力机制层输出的处理结果映射为相应的文字标签，将映射后的文字标签对应的文字，按照语音特征信息之间的顺序进行排序，得到每个样本语音信息对应的文本识别结果。

s203：根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息，对所述深度学习网络的模型参数进行修正，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果的步骤，直至所述深度学习网络的训练情况满足第一预设条件，得到所述语音识别模型。

语音识别设备对比样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息，确定该文本识别结果与样本文本信息之间的差异度，并根据差异度的大小，调整深度学习网络的模型参数。之后，返回s202，继续执行s202～s203，从而通过调整模型参数后的深度学习网络继续训练，直到深度学习网络的训练情况满足第一预设条件。

深度学习网络的训练情况满足第一预设条件可以是：累计的训练总次数达到预设次数阈值，或者深度学习网络输出的文本识别结果与相应的样本文本信息之间的差异度符合预设要求时，停止训练，训练后的深度学习模型作为语音识别模型。即，将最后一次调整模型参数的深度学习网络作为语音识别模型。

其中，预设要求可以是差异度小于或等于预设的差异度阈值，也可以是差异度属于预设的误差范围，但并不限于此，还可以根据实际情况进行设置。

进一步地，在训练过程中，为了防止深度学习网络出现过拟合的情况，s203可以包括s2031～s2033，具体如下：

s2031：通过预设的损失函数评估样本语音信息对应的文本识别结果与样本文本信息之间的差异度。

在机器学习中，我们希望模型在训练数据上学到的预测数据分布与真实数据分布越相近越好，经常拿交叉熵来做为损失函数(lossfunction)。预设的损失函数可以根据实际情况进行设置，此处不做限制。

每个样本语音信息对应的文本识别结果与样本文本信息之间的差异度用于衡量识别结果的准确度。

语音识别设备在得到样本语音信息对应的文本识别结果与样本文本信息之间的差异度时，判断差异度是否满足第二预设条件，当差异度不满足第二预设条件时，跳转到s202，继续执行s202、s2031；当差异度满足第二预设条件时，执行s2033。第二预设条件可以是差异度小于或等于预设的差异度阈值，也可以是差异度属于预设的误差范围，但并不限于此，还可以根据实际情况进行设置，此处不做限制。

s2032：当所述差异度不满足第二预设条件时，调整所述深度学习网络的模型参数，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果。

例如，当预设条件为差异度小于或等于预设的差异度阈值时，语音识别设备在确认当前的差异度大于预设的差异度阈值时，判定当前的语音识别准确度还未达到要求，调整深度学习网络的模型参数，之后，并返回s202，继续执行s202、s2031，直到在s2031中确定的差异度小于或等于预设的差异度阈值时，执行s2033。

s2033：当所述差异度满足所述第二预设条件时，停止训练所述深度学习网络，并将训练后的深度学习模型作为所述语音识别模型。

例如，当预设条件为差异度小于或等于预设的差异度阈值时，语音识别设备在确认差异度小于或等于预设的差异度阈值时，判定训练符合预期要求，停止训练深度学习网络，将训练后的深度学习模型作为语音识别模型。

此时调整模型参数后的深度学习网络经过了大量的样本训练，且其差异度保持在一个较小的范围内，使用该深度学习网络对语音信息进行处理，可以获得较准确的识别结果。

上述方案，通过语音识别模型的采样层中的卷积层和池化层提取原始语音信息的局部特征信息，通过语音识别模型的语意分析层的bilstm提取原始语音信息的上下文信息，通过注意力机制分析局部特征信息的上下文信息，得到原始语音信息对应的文本信息。由于输入语音识别模型的时原始语音信息，不需要提前提取特征信息，可节省因提取特征信息所占用的硬件资源，可以提高通过语音识别模型进行语音识别的速度，并且语音识别模型可提取原始语音信息的完整的特征信息，避免在提取特征信息时因丢失部分原始音频信息而导致识别结果不够准确的问题，能够提高语音识别的准确度。

语音识别模型包括采样层、语意分析层以及语音识别层，采样层中设有多个子采样层，这样可以通过采样层提取到更多的局部特征信息；语意分析层中设有至少两个子语意分析层，这样可以通过语意分析层提取到的上下文信息更全面的；语音识别层设有至少两个子语音识别层，这样语音识别层输出的语音特征向量可以反映的更多语音特征信息，从而进一步提高语音识别模型输出的语音信息的文本识别结果的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图5，图5是本申请实施例提供的语音识别装置的示意图。包括的各单元用于执行图1、图4对应的实施例中的各步骤，具体请参阅图1、图4各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，语音识别装置5包括：

获取单元510，用于获取待识别的语音信息；

转换单元520，用于将所述语音信息转换成预设维度的初始语音向量；

识别单元530，用于采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。

进一步地，所述语音识别模型包括采样层、语意分析层以及语音识别层；识别单元530包括：

采样单元，用于将所述初始语音向量输入所述语音识别模型的采样层进行卷积和下采样处理，得到所述初始语音向量对应的局部特征信息向量；其中，所述局部特征信息向量用于标识所述初始语音向量对应的局部特征；

语意分析单元，用于将所述局部特征信息向量输入所述语音识别模型的语意分析层进行处理，确定所有所述局部特征信息向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；其中，所述语音序列特征向量用于标识所有所述局部特征的上下文关系；

语音识别单元，用于将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，得到所述语音信息对应的预测文本信息。

进一步地，语音识别装置还包括：

样本转换单元，用于将训练样本集合中的样本语音信息转换成预设维度的样本语音向量；其中，所述训练样本集合包括多个样本语音信息及各个样本语音信息分别对应的样本文本信息；

第一训练单元，用于将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果；

第二训练单元，用于根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息，对所述深度学习网络的模型参数进行修正，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果的步骤，直至所述深度学习网络的训练情况满足第一预设条件，得到所述语音识别模型。

进一步地，所述第二训练单元包括：

差异度分析单元，用于通过预设的损失函数评估样本语音信息对应的文本识别结果与样本文本信息之间的差异度；

调整单元，用于当所述差异度不满足第二预设条件时，调整所述深度学习网络的模型参数，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果；

锁定单元，用于当所述差异度满足所述第二预设条件时，停止训练所述深度学习网络，并将训练后的深度学习模型作为所述语音识别模型。

进一步地，所述语音识别模型包括采样层、语意分析层以及语音识别层；所述第一训练单元包括：

采样训练单元，用于将样本语音信息对应的样本语音向量输入所述深度学习网络的采样层进行卷积和下采样处理，得到所述样本语音信息对应的样本局部特征信息向量；其中，所述样本局部特征信息向量用于标识所述样本语音信息对应的局部特征；

语意训练单元，用于将所述样本局部特征信息向量输入所述深度学习网络的语意分析层进行处理，确定所有所述样本局部特征信息向量的上下文信息，并基于所述样本局部特征信息向量以及所述上下文信息生成样本语音序列特征向量；其中，所述样本语音序列特征向量用于标识所有所述局部特征的上下文关系；

文本训练单元，用于将所述样本语音序列特征向量输入所述深度学习网络的语音识别层进行处理，得到所述样本语音信息对应的文本识别结果。

进一步地，所述采样层包括三个子采样层，每个子采样层输出的特征向量作为与其相邻的下一个子采样层的输入，最后一个子采样层输出所述样本局部特征信息向量；

所述采样训练单元具体用于：

将所述样本语音信息对应的样本语音向量输入所述深度学习网络中的第一子采样层进行卷积和下采样处理，得到第一样本局部特征信息向量；

将所述第一样本局部特征信息向量输入与所述第一子采样层相邻的第二子采样层进行卷积和下采样处理，得到第二样本局部特征信息向量；

将所述第二样本局部特征信息向量输入第三子采样层进行卷积和下采样处理，得到所述样本局部特征信息向量。

进一步地，所述语意分析层包括两个子语意分析层；每个子语意分析层的输出结果作为下一个子语意分析层的输入，最后一个子语意分析层的输出结果作为所述语意分析层的输入；其中，每个子语意分析层的输出结果均包括一个语音序列向量和一个状态信息向量；

所述语意训练单元具体用于：将所述样本局部特征信息向量输入所述深度学习网络的第一子语意分析层进行处理，输出第一语音序列向量和第一状态信息向量；

将所述第一语音序列向量和所述第一状态信息输入所述第二子语意分析层进行处理，输出所述样本语音序列特征向量和第二状态信息向量。

进一步地，所述语音识别层包括两个子语音识别层；所述文本训练单元具体用于：将所述样本语音序列特征向量和所述第二状态信息向量输入所述深度学习网络的第一子语音识别层进行处理，得到语音特征向量和第三状态信息向量；将所述语音特征向量和所述第三状态信息向量输入所述第二子语音识别层进行处理，输出每个所述样本语音信息对应的文本识别结果。

图6是本申请实施例提供的语音识别设备的示意图。如图6所示，该实施例的语音识别设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如语音识别程序。处理器60执行所述计算机程序62时实现上述各个语音识别方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块510至530的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由处理器60执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述语音识别设备6中的执行过程。例如，所述计算机程序62可以被分割成获取单元、转换单元、识别单元，各单元具体功能请参阅图5对应地实施例中地相关描述，此处不赘述。

所述语音识别设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音识别设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是语音识别备6的示例，并不构成对语音识别设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述语音识别设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述语音识别设备6的内部存储单元，例如语音识别设备6的硬盘或内存。所述存储器61也可以是所述语音识别设备6的外部存储设备，例如所述语音识别设备6上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述存储器61还可以既包括所述语音识别设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述语音识别设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈明
技术所有人：武汉TCL集团工业研究院有限公司
我是此专利的发明人

上一篇：一种浸没式超滤膜的清洗方法与流程
上一篇：语音转写模型、方法、介质及电子设备与流程