音频识别方法、电子设备及计算机可读存储介质与流程

文档序号：34551663发布日期：2023-06-28 02:23阅读：41来源：国知局

本发明涉及音频处理，尤其涉及一种音频识别方法、电子设备及计算机可读存储介质。

背景技术：

1、随着音频处理技术的迅速发展，越来越多用户喜爱对音频进行个性化处理后上传到音频平台上。例如用户可以将旋律过度自然的多首歌曲拼接起来，从而制作出串烧歌曲等。这类行为使得音频平台中音频的质量参差不齐，因此需要通过技术手段将串烧歌曲识别出来。

2、通常，可以采取指纹精确匹配的方式对音频是否为串烧歌曲进行识别。其中，若音频为非串烧的普通歌曲，则该音频的多个片段均会精确匹配到同一首歌曲。然而，若音频为串烧歌曲而言，则该音频的多个片段可以精确匹配到多首不同的歌曲。因此，可以通过匹配到的歌曲的数量确定出音频是否为串烧歌曲。然而，若指纹库中未存储有与该音频的某个片段精确匹配的歌曲，则有可能将该音频由串烧歌曲误识别为非串烧歌曲，从而导致音频识别的准确率较低。

技术实现思路

1、本技术实施例提供一种音频识别方法、电子设备及计算机可读存储介质，可以有效提升音频识别的准确率。

2、第一方面，本技术实施例提供了一种音频识别方法，该方法包括：

3、对目标音频进行切片操作得到多个音频片段，并获取每个所述音频片段的旋律指纹；

4、针对每个所述音频片段，在指纹库中查找与所述音频片段的旋律指纹相似度最高的前k个预存旋律指纹以及所述k个预存旋律指纹对应的匹配歌曲，得到所述音频片段的k个匹配歌曲；k为正整数；

5、基于相邻匹配歌曲之间的预设转移概率以及每个所述音频片段的k个匹配歌曲对应的相似度，从每个所述音频片段的k个匹配歌曲中确定每个所述音频片段的目标匹配歌曲；其中所述相邻匹配歌曲是指相邻所述音频片段各自对应的一匹配歌曲组成的歌曲对，所述匹配歌曲对应的相似度是所述匹配歌曲对应的预存旋律指纹与所述匹配歌曲对应的音频片段的旋律指纹之间的相似度；

6、根据每个所述音频片段的目标匹配歌曲，确定所述目标音频的音频识别结果，所述音频识别结果用于指示所述目标音频是否为串烧歌曲。

7、由于本技术采用了基于相似度的模糊匹配的方式，因此即便指纹库未存储有与某个音频片段精确匹配的歌曲，本技术也能针对每个音频片段得到与其模糊匹配的k个匹配歌曲。该方式通过保留每个音频片段的多个匹配歌曲，可以提升根据多个匹配歌曲确定目标匹配歌曲的准确率，进而提升音频识别的准确率。

8、在一种可能实施方式中，所述多个音频片段的数量为s，s为大于等于3的正整数；所述基于相邻匹配歌曲之间的预设转移概率以及每个所述音频片段的k个匹配歌曲对应的相似度，从每个所述音频片段的k个匹配歌曲中确定每个所述音频片段的目标匹配歌曲，包括：

9、基于所述相邻匹配歌曲之间的预设转移概率以及每个所述音频片段的k个匹配歌曲对应的相似度，构建多条解码路径并确定所述多条解码路径中每条解码路径的路径概率；其中，所述每条解码路径包括s-1个解码子路径，每个解码子路径用于指示：s个音频片段中的第m个音频片段的一个匹配歌曲，指向第m+1个音频片段的一个匹配歌曲；所述s个音频片段按照在所述目标音频中的位置依次排序，m为大于等于1且小于s的正整数；

10、将所述多条解码路径中路径概率最大的解码路径作为目标解码路径；

11、将所述目标解码路径中各个解码子路径指示的每个音频片段的匹配歌曲，作为每个所述音频片段的目标匹配歌曲。

12、基于该方式，可先根据多条解码子路径构建多条解码路径，再根据多条解码路径中路径概率最大的解码路径确定每个音频片段的目标匹配歌曲。

13、在一种可能实施方式中所述基于所述相邻匹配歌曲之间的预设转移概率以及每个所述音频片段的k个匹配歌曲对应的相似度，构建多条解码路径并确定所述多条解码路径中每条解码路径的路径概率，包括：

14、确定第1层级的多个解码子路径以及所述第1层级的各个解码子路径的子路径概率；

15、将i设置为2；基于所述相邻匹配歌曲之间的预设转移概率，k个第一待处理匹配歌曲对应的相似度，k个第二待处理匹配歌曲对应的相似度，确定第i层级的多个解码子路径以及所述第i层级的各个解码子路径的子路径概率；其中，所述第一待处理匹配歌曲是第i-1层级的一个解码子路径指示的第i个音频片段的匹配歌曲；所述第二待处理匹配歌曲是第i+1个音频片段的k个匹配歌曲中的一个匹配歌曲；

16、若i小于s-1，对i执行加1操作，返回执行所述基于所述相邻匹配歌曲之间的预设转移概率，k个第一待处理匹配歌曲对应的相似度，k个第二待处理匹配歌曲对应的相似度，确定第i层级的多个解码子路径以及所述第i层级的各个解码子路径的子路径概率的步骤；

17、若i等于s-1，将p设置为1；针对第s个音频片段的第p个匹配歌曲，按照下述步骤得到与所述第p个匹配歌曲对应的解码路径以及所述解码路径的路径概率：从第1层级至第s-1层级中每个层级的多个解码子路径中均选出一个解码子路径，并由选出的s-1个解码子路径构成所述第p个匹配歌曲对应的解码路径；第p个匹配歌曲对应的的解码路径中的第s-1层级的解码子路径指向第s个音频片段的第p个匹配歌曲；根据所述解码路径包含的各个解码子路径的子路径概率确定所述解码路径的路径概率；若p小于k，则对p执行加1操作，返回执行所述针对第s个音频片段的第p个匹配歌曲，按照下述步骤得到与所述第p个匹配歌曲对应的解码路径以及所述解码路径的路径概率的步骤；若p等于k，则结束流程。

18、基于该方式，可先依次构建第2层级～第s-1层级的解码子路径，再根据第1层级～第s-1层级的解码子路径构建解码路径。

19、在一种可能实施方式中，所述基于所述相邻匹配歌曲之间的预设转移概率，k个第一待处理匹配歌曲对应的相似度，k个第二待处理匹配歌曲对应的相似度，确定第i层级的多个解码子路径以及所述第i层级的各个解码子路径的子路径概率，包括：

20、将q设置为1，针对所述k个第二待处理匹配歌曲的第q个第二待处理匹配歌曲，按照下述步骤得到所述第i层级中所述第q个第二待处理匹配歌曲对应的解码子路径以及所述解码子路径的子路径概率：

21、根据所述相邻匹配歌曲之间的预设转移概率，确定从所述k个第一待处理匹配歌曲指向所述第q个第二待处理匹配歌曲的k个待处理转移概率；

22、基于所述k个第一待处理匹配歌曲对应的相似度、所述k个待处理转移概率以及所述第q个第二待处理匹配歌曲对应的相似度，计算指向所述第q个第二待处理匹配歌曲的各个目标解码子路径的子路径概率；

23、将子路径概率最大的目标解码子路径作为所述第i层级中所述第q个第二待处理匹配歌曲对应的解码子路径；

24、若q小于k，则对q执行加1操作，返回执行所述按照下述步骤得到所述第i层级中所述第q个第二待处理匹配歌曲对应的解码子路径以及所述解码子路径的子路径概率的步骤；若q等于k，则结束流程。

25、基于该方式，在构建第2层级～第s-1层级中各个层级的解码子路径时，可先根据上一层级的解码子路径构建多个目标解码子路径，再从多个目标解码子路径中选择子路径概率最大的路径作为一条解码子路径，从而使得各个层级的各条解码子路径均为子路径概率相对较大的子路径。

26、在一种可能实施方式中，若所述第一待处理匹配歌曲与所述第q个第二待处理匹配歌曲相同，则所述相邻匹配歌曲之间的预设转移概率是第一转移概率；

27、或者，若所述第一待处理匹配歌曲与所述第q个第二待处理匹配歌曲不同，则所述相邻匹配歌曲之间的预设转移概率是第二转移概率；所述第一转移概率大于所述第二转移概率。

28、基于该方式，可根据第一待处理匹配歌曲与待第二待处理匹配歌曲是否相同，确定相邻匹配歌曲之间的预设转移概率，进而确定出待处理转移概率。该方式确定出的待处理转移概率更为准确，可提高音频识别的准确率。

29、在一种可能实施方式中，所述确定第1层级的多个解码子路径以及所述第1层级的各个解码子路径的子路径概率，包括：

30、针对所述s个音频片段中的第二个音频片段的每一匹配歌曲，按照下述步骤确定一条解码子路径以及所述解码子路径的子路径概率：

31、判断所述匹配歌曲与所述s个音频片段中的第一个音频片段的任一匹配歌曲是否相同；

32、根据判断结果确定所述相邻匹配歌曲之间的预设转移概率，并根据所述相邻匹配歌曲之间的预设转移概率确定从所述第一个音频片段的任一匹配歌曲指向所述匹配歌曲的待处理转移概率；

33、基于k个所述待处理转移概率、所述第一个音频片段的k个匹配歌曲对应的相似度以及所述匹配歌曲对应的相似度，确定所述第1层级中所述匹配歌曲对应的解码子路径以及所述解码子路径的子路径概率。

34、基于该方式，可确定出第1层级的解码子路径。

35、在一种可能实施方式中，所述根据每个所述音频片段的目标匹配歌曲，确定所述目标音频的音频识别结果，包括：

36、若每个所述音频片段的目标匹配歌曲均相同，则确定所述目标音频的音频识别结果用于指示所述目标音频不是串烧歌曲；

37、若每个所述音频片段的目标匹配歌曲中存在至少两个目标匹配歌曲不相同，则确定所述目标音频的音频识别结果用于指示所述目标音频是串烧歌曲。

38、基于该方式，可以通过判断每个音频片段的目标匹配歌曲是否均相同，来确定出音频识别结果指示目标音频是否是串烧歌曲。

39、在一种可能实施方式中，所述方法还包括：

40、在所述目标音频的音频识别结果用于指示所述目标音频是串烧歌曲时，确定每个所述音频片段的目标匹配歌曲的版本标识；所述版本标识包括第一版本标识或者第二版本标识，所述第一版本标识用于指示相应的目标匹配歌曲为原唱歌曲，所述第二版本标识用于指示相应的目标匹配歌曲为改编歌曲；

41、若每个所述音频片段的目标匹配歌曲的版本标识均为所述第二版本标识，则所述目标音频的音频识别结果还用于指示所述目标音频是改编类型的串烧歌曲；

42、若每个所述音频片段的目标匹配歌曲的版本标识包括所述第一版本标识和所述第二版本标识，则所述目标音频的音频识别结果还用于指示所述目标音频是基于原唱和改编的混合类型的串烧歌曲。

43、基于该方式，可以根据目标匹配歌曲的版本标识，进一步确定出目标音频为何种类型的串烧歌曲。

44、在一种可能实施方式中，所述旋律指纹为嵌入向量，所述获取每个所述音频片段的旋律指纹，包括：

45、提取每个所述音频片段的频域特征；

46、将每个所述音频片段的频域特征输入预先训练完成的嵌入向量生成模型，得到每个所述音频片段的旋律指纹。

47、基于该方式，可以根据预先训练完成的嵌入向量生成模型，得到每个音频片段的旋律指纹。

48、在一种可能实施方式中，所述方法还包括：

49、获取训练音频集；所述训练音频集包括原唱歌曲、所述原唱歌曲对应的至少一首改编歌曲、以及至少一首参考歌曲，所述参考歌曲与所述原唱歌曲和所述改编歌曲不同；

50、对所述训练音频集中的每首歌曲依次进行切片操作，得到所述每首歌曲的n个歌曲片段，n为正整数，且所述原唱歌曲的第j个歌曲片段的歌曲内容与任一所述改编歌曲的第j个歌曲片段的歌曲内容相同，j为小于等于n的正整数；

51、提取所述每首歌曲的n个歌曲片段的频域特征，将所述每首歌曲的n个歌曲片段的频域特征输入初始嵌入向量生成模型，得到所述每首歌曲的n个歌曲片段的嵌入向量；

52、根据所述原唱歌曲的n个歌曲片段的嵌入向量和所述改编歌曲的n个歌曲片段的嵌入向量，确定第一向量距离；

53、根据所述原唱歌曲的n个歌曲片段的嵌入向量和所述参考歌曲的n个歌曲片段的嵌入向量，确定第二向量距离；

54、以减小所述第一向量距离且增大所述第二向量距离为训练目标，对所述初始嵌入向量生成模型进行训练，得到所述预先训练完成的嵌入向量生成模型。

55、基于该方式得到的预先训练完成的嵌入向量生成模型，可以为每个音频片段生成质量更高的旋律指纹，进而可以在针对每个音频片段的旋律指纹进行模糊匹配时，得到更为准确的k个匹配歌曲。

56、第二方面，本技术实施例提供了一种音频识别装置，该音频识别装置包括：

57、切片模块，用于对目标音频进行切片操作得到多个音频片段；

58、获取模块，用于获取每个所述音频片段的旋律指纹；

59、查找模块，用于针对每个所述音频片段，在指纹库中查找与所述音频片段的旋律指纹相似度最高的前k个预存旋律指纹以及所述k个预存旋律指纹对应的匹配歌曲，得到所述音频片段的k个匹配歌曲；k为正整数；

60、确定模块，用于基于所述音频片段之间预设的转移概率以及每个所述音频片段的k个匹配歌曲对应的相似度，从每个所述音频片段的k个匹配歌曲中确定每个所述音频片段的目标匹配歌曲；其中所述匹配歌曲对应的相似度是所述匹配歌曲对应的预存旋律指纹与所述匹配歌曲对应的音频片段的旋律指纹之间的相似度；根据每个所述音频片段的目标匹配歌曲，确定所述目标音频的音频识别结果，所述音频识别结果用于指示所述目标音频是否为串烧歌曲。

61、第三方面，本技术实施例提供了一种电子设备，所述电子设备包括存储器，处理器；所述存储器用于存储计算机程序，所述计算机程序包括程序指令；所述处理器用于从所述存储器调用所述程序指令，使得所述电子设备执行上述第一方面所述的方法。

62、第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使得所述处理器执行上述第一方面所述的方法。

63、第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行上述第一方面所述的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王武城孔令城赵伟峰姜涛周文江
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人