语音识别方法及设备、计算机可读存储介质与流程

文档序号：31831589发布日期：2022-10-18 18:21阅读：来源：国知局

技术特征：
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音；切分所述待识别语音以获得多条语音段，所述多条语音段的相邻语音段中在前语音段的尾部与在后语音段的头部重叠；利用基于注意力机制的语音识别模型，获得所述多条语音段中各条语音段的注意力数据和初始文本段；从所述各条语音段的注意力数据中提取其人声数据；根据所述各条语音段的初始文本段、所述人声数据和重叠时长，获得所述各条语音段的修正后文本段，所述多条语音段的相邻语音段中在前语音段的修正后文本段中对应所述尾部的文本与在后语音段的修正后文本段中对应所述头部的文本相同；拼接所述多条语音段中各条语音段的修正后文本段，得到所述待识别语音的识别文本。2.根据权利要求1所述的语音识别方法，其特征在于，所述切分所述待识别语音以获得多条语音段，具体包括：按照固定窗长和/或固定重叠时长切分所述待识别语音，以获得时间长度和/或重叠部分长度相等的所述多条语音段。3.根据权利要求1或2所述的语音识别方法，其特征在于，所述基于注意力机制的语音识别模型为编码器-解码器结构的模型，所述编码器-解码器结构的模型包含编码器、解码器，所述解码器的多个解码层中设置有注意力模块，所述注意力数据是通过所述多个解码层中最后一层的所述注意力模块输出的注意力矩阵获得的。4.根据权利要求1-3中任一项所述的语音识别方法，其特征在于，所述基于注意力机制的语音识别模型是通过多目标损失函数训练得到的，所述多目标损失函数包括至少一个具有帧对齐能力的损失函数。5.根据权利要求1-4中任一项所述的语音识别方法，其特征在于，所述注意力数据具有字维度和帧维度；所述从所述各条语音段的注意力数据中提取其人声数据，具体包括：按照所述字维度遍历所述注意力数据以提取字维度的注意力向量；根据所述字维度的注意力向量和预先配置的阈值，得到字维度的人声向量；对每个所述语音段对应的所述字维度的人声向量中的数值进行累加求和，以获得每个所述语音段的人声序列，所述人声序列包括所述语音段中各音频帧的人声信息，所述人声信息用于指示所述音频帧属于人声或不属于人声。6.根据权利要求5所述的语音识别方法，其特征在于，所述字维度的人声向量是通过下式得到的：其中，thred
a
表示所述阈值，m
s
[l,t]表示字维度l的人声向量中音频帧t的取值，m
a
[l,t]表示字维度l的注意力向量中音频帧t的取值。7.根据权利要求1至6任一项所述的语音识别方法，其特征在于，所述根据所述各条语音段的初始文本段、所述人声数据和重叠长度，获得所述各条语音段的修正后文本段，具体包括：针对所述多条语音段中的各对相邻语音段执行如下步骤：
从相邻语音段的初始文本段中提取交叠文本，所述交叠文本包括所述相邻语音段中在前语音段的交叠文本和在后语音段的交叠文本，所述在前语音段的交叠文本对应其人声数据中长度是所述重叠时长的尾部，所述在后语音段的交叠文本对应其人声数据中长度是所述重叠时长的头部；对齐所述在前语音段的交叠文本与所述在后语音段的交叠文本，以获得所述相邻语音段的对齐文本，所述对齐文本包括在前语音段的对齐文本和在后语音段的对齐文本；根据所述在前语音段的对齐文本中字的置信度和在后语音段的对齐文本中字的置信度，得到所述相邻语音段的修正文本，所述在前语音段的修正文本与在后语音段的修正文本相同；使用所述相邻语音段的修正文本获得所述相邻语音段中在前语音段的修正后文本段和在后语音段的修正后文本段。8.根据权利要求7所述的语音识别方法，其特征在于，所述字的置信度至少包括如下之一：字的帧对齐置信度、字的注意力置信度、字的语言置信度和字的位置置信度。9.根据权利要求8所述的语音识别方法，其特征在于，所述根据所述在前语音段的对齐文本中字的置信度和在后语音段的对齐文本中字的置信度，得到所述相邻语音段的修正文本，具体包括：按照所述在前语音段的对齐文本中字的综合评分和在后语音段的对齐文本中所述字的综合评分，得到所述相邻语音段的修正文本；其中，所述字的综合评分是以所述字的位置置信度为惩罚项而确定的。10.根据权利要求8或9所述的语音识别方法，其特征在于，所述字的位置置信度通过下式计算得到：posscore＝-β|l-l/2|其中，posscore表示字的位置置信度取值，l表示字在对齐后文本段中的位置，l表示对齐后文本段中包含的字数，β表示预先设置的位置权重，所述对齐后文本段是使用所述对齐文本替换所述初始文本段中交叠文本而获得的文本段。11.根据权利要求10所述的语音识别方法，其特征在于，所述字的综合评分是通过下式计算获得的：jointscore＝α
×
ctcscore+λ
×
attscore+η
×
lmscore+posscore其中，jointscore表示字的综合评分，ctcscore表示所述字的帧对齐置信度，attscore表示所述字的注意力置信度，lmscore表示所述字的语言置信度取值，posscore表示所述字的位置置信度取值，α表示所述字的帧对齐置信度的权重，λ表示所述字的注意力置信度的权重，η表示所述字的语言置信度的权重。12.根据权利要求9所述的语音识别方法，其特征在于，所述按照所述在前语音段的对齐文本中字的综合评分和在后语音段的对齐文本中所述字的综合评分，得到所述相邻语音段的修正文本，具体包括：通过下式调整相邻语音段的对齐文本中的每个字：
其中，uri[l](i＝1，
……
n-1)表示语音段ai的修正文本中位置l的字，n为所述语音段的数量，upai[l]表示语音段ai的对齐文本中位置l的字，upai+1[l]表示语音段ai+1的对齐文本中位置1的字，jointscore(upai[l])表示语音段ai的对齐文本中位置l的字的综合评分，jointscore(upai+1[l])表示语音段ai+1的对齐文本位置1中的字的综合评分，*表示占位符。13.根据权利要求1、8、10或11所述的语音识别方法，其特征在于，所述方法还包括：根据所述修正后文本段中字的置信度，获得所述待识别语音的识别文本的置信度。14.根据权利要求1-13中任一项所述的语音识别方法，其特征在于，所述方法还包括：利用所述注意力数据得到所述多条语音段中各条语音段的人声置信度。15.一种计算设备，其特征在于，包括：至少一个处理器；以及至少一个存储器，其存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1-14中任一所述的方法。16.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行权利要求1-14中任一所述的方法。

技术总结
公开了一种语音识别方法及设备、计算机可读存储介质。本申请一实施例中，语音识别方法可包括：获取待识别语音；切分所述待识别语音以获得多条语音段，所述多条语音段的相邻语音段中在前语音段的尾部与在后语音段的头部重叠；利用基于注意力机制的语音识别模型，获得所述多条语音段中各条语音段的注意力数据和初始文本段；从各条语音段的注意力数据中提取其人声数据；根据各条语音段的初始文本段、人声数据和重叠时长，获得所述各条语音段的修正后文本段；拼接所述多条语音段中各条语音段的修正后文本段，得到所述待识别语音的识别文本。本申请无需VAD等高复杂度模型即可实现较高准确率的长语音连续识别。高准确率的长语音连续识别。高准确率的长语音连续识别。

技术研发人员：孙宇嘉陈家胜耿杰
受保护的技术使用者：华为技术有限公司
技术研发日：2021.03.24
技术公布日：2022/10/17

完整全部详细技术资料下载

当前第2页1 2