音频识别方法、音频识别模型的训练方法、装置和设备与流程

文档序号：31705577发布日期：2022-10-01 10:54阅读：来源：国知局

技术特征：
1.一种音频识别方法，包括：对目标音频数据的音频特征进行截断，得到至少一个第一音频序列特征，其中，至少一个所述第一音频序列特征对应的时长为预设时长；根据所述音频特征的尖峰信息，得到与所述第一音频序列特征对应的尖峰子信息，其中，所述尖峰子信息用于指示所述第一音频序列特征对应的尖峰；对所述第一音频序列特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果，其中，所述解码操作的执行次数与所述第一音频序列特征对应的所述尖峰的数量一致；以及根据至少一个所述第一音频序列特征的识别结果，得到所述目标音频数据的目标文本数据。2.根据权利要求1所述的方法，其中，至少一个所述第一音频序列特征为k个所述第一音频序列特征，第k个第一音频序列特征的识别结果包括i个识别子结果，所述第k个第一音频序列特征对应的所述尖峰的数量为i个，i为不小于1的整数，k为不小于1且不大于k的整数，k为大于1的整数。3.根据权利要求2所述的方法，其中，所述对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的第i-1个解码参数信息，对所述第k个第一音频序列特征执行第i次解码操作，得到所述第k个第一音频序列特征的第i个解码参数信息和所述第k个第一音频序列特征的第i个所述识别子结果，其中，i为大于1且不大于i的整数。4.根据权利要求2所述的方法，其中，所述对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的初始解码参数信息，对所述第k个第一音频序列特征执行第1次解码操作，得到所述第k个第一音频序列特征的第1个解码参数信息和所述第k个第一音频序列特征的第1个所述识别子结果。5.根据权利要求3所述的方法，其中，i为大于1的整数，所述对所述第k个第一音频序列特征执行第i次解码操作包括：根据所述第k个第一音频序列特征的第i-1个解码参数信息，对所述第k个第一音频序列特征执行第i次解码操作，得到所述第k个第一音频序列特征的第i个解码参数信息和所述第k个第一音频序列特征的第i个所述识别子结果。6.根据权利要求5所述的方法，其中，所述对所述第k个第一音频序列特征进行第i次解码操作还包括：在k小于k的情况下，将所述第k个第一音频序列特征的第i个解码参数信息作为第k+1个第一音频序列特征的初始解码参数信息。7.根据权利要求1所述的方法，其中，所述对所述第一音频序列特征执行至少一次解码操作包括：响应于确定所述第一音频序列特征满足识别起始条件，根据第一预设解码参数信息，对所述第一音频序列特征执行至少一次解码操作，得到起始解码参数信息和所述第一音频序列特征的识别结果。8.根据权利要求1所述的方法，其中，所述根据至少一个所述第一音频序列特征的识别
结果，得到所述目标音频数据的目标文本数据包括：响应于从所述音频特征截断出第二音频序列特征，根据第二预设解码参数信息，对所述第二音频序列特征执行至少一次解码操作，得到所述第二音频序列特征的识别结果，其中，所述第二音频序列特征满足识别结束条件；以及根据至少一个所述第一音频序列特征的识别结果和所述第二音频序列特征的识别结果，得到所述目标文本数据。9.根据权利要求2所述的方法，其中，所述对所述第一音频序列特征执行至少一次解码操作包括：对所述第k个第一音频序列特征进行编码，得到第k个初始音频序列编码特征；根据所述第k个初始音频序列编码特征，得到第k个目标音频序列编码特征；以及对所述第k个目标音频序列编码特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果。10.根据权利要求9所述的方法，其中，所述根据所述第k个初始音频序列编码特征，得到第k个目标音频序列编码特征包括：根据与所述第k个第一音频序列特征相关的历史特征和所述第k个初始音频序列编码特征，得到所述第k个目标音频序列编码特征。11.根据权利要求9所述的方法，其中，所述对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的第1个识别子结果和所述第k个初始音频序列编码特征，得到所述第k个第一音频序列特征的第1个历史子特征；根据所述第k个第一音频序列特征的第i个识别子结果和所述第k个初始音频序列编码特征，得到所述第k个第一音频序列特征的第i个历史子特征，其中，i为大于1且不大于i的整数；以及将所述第k个第一音频序列特征的i个历史子特征以及与所述第k个第一音频序列特征相关的历史特征融合，得到与第k+1个第一音频序列特征相关的历史特征。12.根据权利要求1所述的方法，其中，所述根据所述音频特征的尖峰信息，得到与所述第一音频序列特征对应的尖峰子信息包括：根据所述音频特征，得到所述音频特征的尖峰信息，其中，所述尖峰信息用于指示与所述音频特征对应的尖峰，所述尖峰与一个预设值对应；以及根据所述尖峰信息和所述第一音频序列特征，得到与所述第一音频序列特征对应的尖峰子信息。13.根据权利要求12所述方法，其中，所述预设值用于指示所述尖峰与语义单元对应，不同所述尖峰对应的预设值是相同的。14.根据权利要求12所述的方法，其中，所述音频特征包括n个音频子特征，所述音频子特征与一个时刻对应，n为不小于1的整数，所述根据所述音频特征，得到所述音频特征的尖峰信息包括：对所述音频特征进行时间掩码处理，得到时间掩码特征，其中，所述时间掩码特征与第1个所述音频子特征至第n个所述音频子特征对应，n为大于1且小于n的整数；以及根据所述时间掩码特征，得到与n个所述时刻对应的尖峰信息。
15.根据权利要求14所述的方法，其中，所述根据所述时间掩码特征，得到与n个所述时刻对应的尖峰信息包括：对所述时间掩码特征进行卷积，得到卷积后时间掩码特征；以及根据所述卷积后时间掩码特征，得到所述与n个所述时刻对应的尖峰信息。16.根据权利要求1所述的方法，其中，所述对目标音频数据的音频特征进行截断包括：对所述音频特征进行卷积，得到第一音频特征；以及对所述第一音频特征进行截断。17.根据权利要求16所述的方法，其中，所述对所述第一音频特征进行截断包括：响应于确定所述第一音频特征对应的时长满足预设时长条件，对所述第一音频特征进行截断。18.根据权利要求1所述的方法，其中，所述根据所述音频特征的尖峰信息，得到与所述第一音频序列特征对应的尖峰子信息包括：对所述音频特征进行卷积，得到第二音频特征；以及根据所述第二音频特征的尖峰信息，得到与所述第一音频序列特征对应的尖峰子信息。19.根据权利要求1所述的方法，其中，所述目标音频数据为多个，所述音频特征为多个，所述对所述第一音频序列特征执行至少一次解码操作包括：对分别来自于多个所述音频特征的第一音频序列特征并行地执行至少一次解码操作。20.根据权利要求2所述的方法，其中，所述第一音频序列特征包括j个音频序列子特征，j为大于1的整数；所述第k个第一音频序列特征包括第k-1个第一音频序列特征的第j-h个音频序列子特征，h为不小于0的整数。21.一种音频识别模型的训练方法，所述音频识别模型包括识别子模型，所述方法包括：利用所述识别子模型对样本音频数据的音频特征进行截断，得到至少一个第一音频序列特征，其中，至少一个所述第一音频序列特征对应的时长为预设时长；根据所述音频特征的样本尖峰信息，得到与所述第一音频序列特征对应的样本尖峰子信息，其中，所述样本尖峰子信息用于指示所述第一音频序列特征对应的样本尖峰；利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果，其中，所述解码操作的执行次数与所述第一音频序列特征对应的所述样本尖峰的数量一致；根据至少一个所述第一音频序列特征的识别结果，得到所述样本音频数据的样本文本数据；根据所述样本文本数据和所述样本音频数据的识别子标签，确定识别损失值；以及根据所述识别损失值，训练所述音频识别模型。22.根据权利要求21所述的方法，其中，至少一个所述第一音频序列特征为k个所述第一音频序列特征，第k个第一音频序列特征的识别结果包括i个识别子结果，所述第k个第一音频序列特征对应的所述样本尖峰的数量为i个，i为不小于1的整数，k为不小于1且不大于k的整数，k为大于1的整数。
23.根据权利要求22所述的方法，其中，所述识别子模型包括解码网络，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的第i-1个解码参数信息，利用所述解码网络对所述第k个第一音频序列特征执行第i次解码操作，得到所述第k个第一音频序列特征的第i个解码参数信息和所述第k个第一音频序列特征的第i个所述识别子结果，其中，i为大于1且不大于i的整数。24.根据权利要求22所述的方法，其中，所述识别子模型包括解码网络，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的初始解码参数信息，利用所述解码网络对所述第k个第一音频序列特征执行第1次解码操作，得到所述第k个第一音频序列特征的第1个解码参数信息和所述第k个第一音频序列特征的第1个所述识别子结果。25.根据权利要求23所述的方法，其中，i为大于1的整数，所述利用所述解码网络对所述第k个第一音频序列特征执行第i次解码操作包括：根据所述第k个第一音频序列特征的第i-1个解码参数信息，利用所述解码网络对所述第k个第一音频序列特征执行第i次解码操作，得到所述第k个第一音频序列特征的第i个解码参数信息和所述第k个第一音频序列特征的第i个所述识别子结果。26.根据权利要求25所述的方法，其中，所述利用所述解码网络对所述第k个第一音频序列特征进行第i次解码操作还包括：在k小于k的情况下，将所述第k个第一音频序列特征的第i个解码参数信息作为第k+1个第一音频序列特征的初始解码参数信息。27.根据权利要求21所述的方法，其中，所述识别子模型包括解码网络，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：响应于确定所述第一音频序列特征满足识别起始条件，根据第一预设解码参数信息，利用所述解码网络对所述第一音频序列特征执行至少一次解码操作，得到起始解码参数信息和所述第一音频序列特征的识别结果。28.根据权利要求21所述的方法，其中，所述识别子模型包括解码网络，所述根据至少一个所述第一音频序列特征的识别结果，得到所述样本音频数据的样本文本数据包括：响应于从所述音频特征截断出第二音频序列特征，根据第二预设解码参数信息，利用所述解码网络对所述第二音频序列特征执行至少一次解码操作，得到所述第二音频序列特征的识别结果，其中，所述第二音频序列特征满足识别结束条件；以及根据至少一个所述第一音频序列特征的识别结果和所述第二音频序列特征的识别结果，得到所述样本文本数据。29.根据权利要求22所述的方法，其中，所述识别子模型包括编码网络和解码网络，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：利用所述编码网络的第一前馈单元对所述第k个第一音频序列特征进行编码，得到第k个初始音频序列编码特征；利用所述编码网络的编码单元处理所述第k个初始音频序列编码特征，得到第k个目标音频序列编码特征；以及
利用所述解码网络对所述第k个目标音频序列编码特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果。30.根据权利要求29所述的方法，其中，所述利用所述编码网络的编码单元处理所述第k个初始音频序列编码特征，得到第k个目标音频序列编码特征包括：利用所述编码单元处理与所述第k个第一音频序列特征相关的历史特征以及所述第k个初始音频序列编码特征，得到所述第k个目标音频序列编码特征。31.根据权利要求29所述的方法，其中，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：根据所述第k个第一音频序列特征的第1个识别子结果和所述第k个初始音频序列编码特征，得到所述第k个第一音频序列特征的第1个历史子特征；根据所述第k个第一音频序列特征的第i个识别子结果和所述第k个初始音频序列编码特征，得到所述第k个第一音频序列特征的第i个历史子特征，其中，i为大于1且不大于i的整数；以及将所述第k个第一音频序列特征的i个历史子特征以及与所述第k个第一音频序列特征相关的历史特征融合，得到与第k+1个第一音频序列特征相关的历史特征。32.根据权利要求31所述的方法，其中，所述音频识别模型包括分类子模型，所述根据所述音频特征的样本尖峰信息，得到与所述第一音频序列特征对应的样本尖峰子信息包括：将所述音频特征输入所述分类子模型，得到所述音频特征的样本尖峰信息，其中，所述样本尖峰信息用于指示与所述音频特征对应的样本尖峰，所述样本尖峰与一个预设值对应；以及根据所述样本尖峰信息和所述第一音频序列特征，得到与所述第一音频序列特征对应的样本尖峰子信息。33.根据权利要求32所述方法，其中，所述预设值用于指示所述样本尖峰与语义单元对应，不同所述样本尖峰对应的预设值是相同的。34.根据权利要求32所述的方法，其中，所述音频特征包括m个音频子特征，所述音频子特征与一个时刻对应，m为不小于1的整数，所述将所述音频特征输入所述分类子模型，得到所述音频特征的样本尖峰信息包括：将所述音频特征输入所述分类子模型的时间掩码单元，得到时间掩码特征，其中，所述时间掩码特征与第1个所述音频子特征至第n个所述音频子特征对应，n为大于1且小于m的整数；以及根据所述时间掩码特征，得到与n个所述时刻对应的样本尖峰信息。35.根据权利要求34所述的方法，其中，所述根据所述时间掩码特征，得到与n个所述时刻对应的样本尖峰信息包括：将所述时间掩码特征输入所述分类子模型的卷积单元，得到卷积后时间掩码特征；以及根据所述卷积后时间掩码特征，得到所述与n个所述时刻对应的样本尖峰信息。36.根据权利要求21所述的方法，其中，所述利用所述识别子模型对样本音频数据的音频特征进行截断包括：
将所述音频特征输入所述音频识别模型的第一卷积子模型，得到第一音频特征；以及利用所述识别子模型对所述第一音频特征进行截断。37.根据权利要求36所述的方法，其中，所述对所述第一音频特征进行截断包括：响应于确定所述第一音频特征对应的时长满足预设时长条件，利用所述识别子模型对所述第一音频特征进行截断。38.根据权利要求21所述的方法，其中，所述根据所述音频特征的样本尖峰信息，得到与所述第一音频序列特征对应的样本尖峰子信息包括：将所述音频特征输入所述音频识别模型的第二卷积子模型，得到第二音频特征；以及根据所述第二音频特征的样本尖峰信息，得到与所述第一音频序列特征对应的样本尖峰子信息。39.根据权利要求21所述的方法，其中，所述样本音频数据为多个，所述音频特征为多个，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：利用所述识别子模型对分别来自于多个所述音频特征的第一音频序列特征并行地执行至少一次解码操作。40.根据权利要求22所述的方法，其中，所述第一音频序列特征包括j个音频序列子特征，j为大于1的整数；所述第k个第一音频序列特征包括第k-1个第一音频序列特征的第j-h个音频序列子特征，h为不小于0的整数。41.根据权利要求21所述的方法，其中，所述利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作包括：利用所述识别子模型分别对至少一个所述第一音频序列特征并行地执行至少一次解码操作。42.根据权利要求21所述的方法，其中，所述识别子标签用于指示与所述样本音频数据对应的文本数据。43.根据权利要求21所述的方法，其中，所述根据所述识别损失值，训练所述音频识别模型包括：根据所述样本尖峰信息和所述样本音频数据的分类子标签，确定分类损失值，其中，所述分类子标签用于指示与所述样本音频数据对应的真实尖峰，所述真实尖峰与一个语义单元对应；以及根据所述分类损失值和所述识别损失值，训练所述音频识别模型。44.一种音频识别装置，包括：第一截断模块，用于对目标音频数据的音频特征进行截断，得到至少一个第一音频序列特征，其中，至少一个所述第一音频序列特征对应的时长为预设时长；第一获得模块，用于根据所述音频特征的尖峰信息，得到与所述第一音频序列特征对应的尖峰子信息，其中，所述尖峰子信息用于指示所述第一音频序列特征对应的尖峰；第一解码模块，用于对所述第一音频序列特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果，其中，所述解码操作的执行次数与所述第一音频序列特征对应的所述尖峰的数量一致；以及第二获得模块，用于根据至少一个所述识别结果，得到所述目标音频数据的目标文本
数据。45.一种音频识别模型的训练装置，所述音频识别模型包括识别子模型，包括：第二截断模块，用于利用所述识别子模型对样本音频数据的音频特征进行截断，得到至少一个第一音频序列特征，其中，至少一个所述第一音频序列特征对应的时长为预设时长；第三获得模块，用于根据所述音频特征的样本尖峰信息，得到与所述第一音频序列特征对应的样本尖峰子信息，其中，所述样本尖峰子信息用于指示所述第一音频序列特征对应的样本尖峰；第二解码模块，用于利用所述识别子模型对所述第一音频序列特征执行至少一次解码操作，得到所述第一音频序列特征的识别结果，其中，所述解码操作的执行次数与所述第一音频序列特征对应的所述样本尖峰的数量一致；第四获得模块，用于根据至少一个所述识别结果，得到所述样本音频数据的样本文本数据；确定模块，用于根据所述样本文本数据和所述样本音频数据的识别子标签，确定识别损失值；以及训练模块，用于根据所述识别损失值，训练所述音频识别模型。46.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至43中任一项所述的方法。47.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至43中任一项所述的方法。

技术总结
本公开提供了一种音频识别方法，涉及人工智能技术领域，尤其涉及语音识别、深度学习和自然语言处理等技术领域。具体实现方案为：对目标音频数据的音频特征进行截断，得到至少一个第一音频序列特征，其中，至少一个第一音频序列特征对应的时长为预设时长；根据音频特征的尖峰信息，得到与第一音频序列特征对应的尖峰子信息；对第一音频序列特征执行至少一次解码操作，得到第一音频序列特征的识别结果，其中，解码操作的执行次数与第一音频序列特征对应的尖峰的数量一致；以及根据至少一个第一音频序列特征的识别结果，得到目标音频数据的目标文本数据。本公开还提供了一种音频识别模型的训练方法、装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。

技术研发人员：付晓寅杨明顺臧启光陈志杰徐扬凯王桂彬贾磊
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.09.02
技术公布日：2022/9/30

完整全部详细技术资料下载

当前第2页1 2