语音识别及模型建立方法、装置、设备和存储介质与流程

文档序号：28319681发布日期：2022-01-04 22:00阅读：来源：国知局

技术特征：
1.一种语音识别方法，包括：对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终序列单元；基于所述最终序列单元，获得语音识别结果。2.根据权利要求1所述的方法，其中，所述对语音信号进行流式处理，以获得所述流式处理的输出结果，包括：将所述语音信号分帧为至少一帧的语音帧；对所述语音帧进行编码处理，以获得编码向量；对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。3.根据权利要求2所述的方法，其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始序列单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始序列单元包括：上一时刻的初始序列单元和当前时刻的初始序列单元，所述对所述编码向量进行自回归处理，以获得所述流式处理的输出结果，包括：基于所述编码向量、所述上一时刻的初始序列单元、所述上一时刻的上下文特征，获得所述当前时刻的初始序列单元以及所述当前时刻的上下文特征。4.根据权利要求3所述的方法，其中，所述基于所述编码向量、所述上一时刻的初始序列单元、所述上一时刻的上下文特征，获得所述当前时刻的初始序列单元以及所述当前时刻的上下文特征，包括：对所述上一时刻的初始序列单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；对所述拼接向量进行映射处理，以获得映射向量；对所述编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始序列单元。5.根据权利要求1所述的方法，其中，所述对所述上下文特征进行非自回归处理，包括：采用非时序依赖的深度学习模型，对所述上下文特征进行非自回归处理。6.根据权利要求1所述的方法，其中，所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：采用所述深度学习模型的第一部分，对所述第一长度的上下文特征进行非自回归处理，以获得第一长度的输出向量；采用所述深度学习模型的长度转换层，对所述第一长度的输出向量进行长度转换处理，以获得第二长度的输出向量；采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终序列单元。7.根据权利要求6所述的方法，其中，所述第一长度大于所述第二长度，所述长度转换
层包括：池化层，或者，拼接层。8.根据权利要求1
‑
7任一项所述的方法，其中，所述基于所述最终序列单元，获得语音识别结果，包括：若所述最终序列单元为发音单元，基于所述发音单元和语言模型，获得语音识别结果；或者，若所述最终序列单元为文本单元，将所述文本单元作为语音识别结果。9.一种语音识别模型的建立方法，包括：对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终建模单元；基于所述最终建模单元，建立语音识别模型。10.根据权利要求9所述的方法，其中，所述对语音信号样本进行流式处理，以获得所述流式处理的输出结果，包括：将所述语音信号样本分帧为至少一帧的语音帧；对所述语音帧进行编码处理，以获得编码向量；对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。11.根据权利要求10所述的方法，其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始建模单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始建模单元包括：上一时刻的初始建模单元和当前时刻的初始建模单元，所述对所述编码向量进行自回归处理，以获得所述流式处理的输出结果，包括：基于所述编码向量、所述上一时刻的初始建模单元、所述上一时刻的上下文特征，获得所述当前时刻的初始建模单元以及所述当前时刻的上下文特征。12.根据权利要求11所述的方法，其中，所述基于所述编码向量、所述上一时刻的初始建模单元、所述上一时刻的上下文特征，获得所述当前时刻的初始建模单元以及所述当前时刻的上下文特征，包括：对所述上一时刻的初始建模单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；对所述拼接向量进行映射处理，以获得映射向量；对所述编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始建模单元。13.根据权利要求9所述的方法，其中，所述对所述上下文特征进行非自回归处理，包括：采用非时序依赖的深度学习模型，对所述上下文特征进行非自回归处理。14.根据权利要求9所述的方法，其中，所述初始建模单元的长度为第一长度，所述最终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：
采用所述深度学习模型的第一部分，对所述第一长度的上下文特征进行非自回归处理，以获得第一长度的输出向量；采用所述深度学习模型的长度转换层，对所述第一长度的输出向量进行长度转换处理，以获得第二长度的输出向量；采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终建模单元。15.根据权利要求14所述的方法，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。16.根据权利要求9
‑
15任一项所述的方法，其中，若所述语音识别模型为声学模型，所述初始序列单元和所述最终序列单元均为发音单元；或者，若所述语音识别模型为端到端语音识别模型，所述初始序列单元和所述最终序列单元均为文本单元，或者，所述初始序列单元为发音单元，所述最终序列单元为文本单元。17.一种语音识别装置，包括：第一处理模块，用于对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终序列单元；获取模块，用于基于所述最终序列单元，获得语音识别结果。18.根据权利要求17所述的装置，其中，所述第一处理模块包括：分帧单元，用于将所述语音信号分帧为至少一帧的语音帧；编码单元，用于对所述语音帧进行编码处理，以获得编码向量；解码单元，用于对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。19.根据权利要求18所述的装置，其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始序列单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始序列单元包括：上一时刻的初始序列单元和当前时刻的初始序列单元，所述解码单元具体用于：基于所述编码向量、所述上一时刻的初始序列单元、所述上一时刻的上下文特征，获得所述当前时刻的初始序列单元以及所述当前时刻的上下文特征。20.根据权利要求19所述的装置，其中，所述解码单元进一步具体用于：对所述上一时刻的初始序列单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；对所述拼接向量进行映射处理，以获得映射向量；对所述编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始序列单元。21.根据权利要求17所述的装置，其中，所述第二处理模块具体用于：采用非时序依赖的深度学习模型，对所述上下文特征进行非自回归处理。22.根据权利要求17所述的装置，其中，所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长
度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：采用所述深度学习模型的第一部分，对所述第一长度的上下文特征进行非自回归处理，以获得第一长度的输出向量；采用所述深度学习模型的长度转换层，对所述第一长度的输出向量进行长度转换处理，以获得第二长度的输出向量；采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终序列单元。23.根据权利要求22所述的装置，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。24.根据权利要求17
‑
23任一项所述的装置，其中，所述获取模块具体用于：若所述最终序列单元为发音单元，基于所述发音单元和语言模型，获得语音识别结果；或者，若所述最终序列单元为文本单元，将所述文本单元作为语音识别结果。25.一种语音识别模型的建立装置，包括：第一处理模块，用于对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终建模单元；建立模块，用于基于所述最终建模单元，建立语音识别模型。26.根据权利要求25所述的装置，其中，所述第一处理模块包括：分帧单元，用于将所述语音信号样本分帧为至少一帧的语音帧；编码单元，用于对所述语音帧进行编码处理，以获得编码向量；解码单元，用于对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。27.根据权利要求26所述的装置，其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始建模单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始建模单元包括：上一时刻的初始建模单元和当前时刻的初始建模单元，所述解码单元具体用于：基于所述编码向量、所述上一时刻的初始建模单元、所述上一时刻的上下文特征，获得所述当前时刻的初始建模单元以及所述当前时刻的上下文特征。28.根据权利要求27所述的装置，其中，所述解码单元进一步具体用于：对所述上一时刻的初始建模单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；对所述拼接向量进行映射处理，以获得映射向量；对所述编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始建模单元。29.根据权利要求25所述的装置，其中，所述第二处理模块具体用于：采用非时序依赖的深度学习模型，对所述上下文特征进行非自回归处理。30.根据权利要求25所述的装置，其中，所述初始建模单元的长度为第一长度，所述最
终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：采用所述深度学习模型的第一部分，对所述第一长度的上下文特征进行非自回归处理，以获得第一长度的输出向量；采用所述深度学习模型的长度转换层，对所述第一长度的输出向量进行长度转换处理，以获得第二长度的输出向量；采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终建模单元。31.根据权利要求30所述的装置，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。32.根据权利要求25
‑
31任一项所述的装置，其中，若所述语音识别模型为声学模型，所述初始序列单元和所述最终序列单元均为发音单元；或者，若所述语音识别模型为端到端语音识别模型，所述初始序列单元和所述最终序列单元均为文本单元，或者，所述初始序列单元为发音单元，所述最终序列单元为文本单元。33.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
16中任一项所述的方法。34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1
‑
16中任一项所述的方法。35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1
‑
16中任一项所述的方法。

技术总结
本公开提供了一种语音识别及模型建立方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及语音识别、深度学习、自然语言处理等人工智能领域。语音识别方法包括：对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终序列单元；基于所述最终序列单元，获得语音识别结果。本公开可以实现高并行高精度的语音识别。以实现高并行高精度的语音识别。以实现高并行高精度的语音识别。

技术研发人员：梁鸣心付晓寅贾磊王海峰
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.09.24
技术公布日：2022/1/3

完整全部详细技术资料下载

当前第2页1 2