1.本技术实施例涉及音频处理技术领域,尤其涉及一种音频匹配方法、装置、设备、存储介质及程序产品。
背景技术:2.随着互联网行业的发展,音频作为主流的多媒体交互方式之一,其应用范围也越来越广。在音频的应用过程中,很多场景下都涉及到音频匹配的问题,如将获取到的一段音频与存储的音频进行比对,根据匹配结果以执行相应的功能,常见的包括歌曲音频的识别和匹配。
3.相关技术中,在进行音频的匹配处理时,通过提取和匹配音频频谱上的局部峰值组的方式得到匹配结果,该方法对噪声抗干扰能力较强,但是对于音频中变调、变速和变音色的抗干扰能力较弱。而另一种方式中,通过人工手动提取音频特征,然后通过时间序列匹配技术,衡量两个音频序列的相似度从而得到匹配结果,但是该种方式依赖大量的穷举和匹配,匹配精确度受制于手动提取特征的局限性。
技术实现要素:4.本技术实施例提供了一种音频匹配方法、装置、设备、存储介质及程序产品,解决了相关技术中,进行音频匹配时抗干扰能力弱,匹配结果精准度差的问题,不依赖大量的穷举操作,音频匹配结果可靠性强。
5.第一方面,本技术实施例提供了一种音频匹配方法,该方法包括:
6.获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征;
7.分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,所述卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练;
8.计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度;
9.根据所述全局相似度和所述局部相似度确定音频匹配结果。
10.第二方面,本技术实施例还提供了一种音频匹配装置,包括:
11.特征提取模块,配置为获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征;
12.特征识别模块,配置为分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,所述卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练;
13.相似度计算模块,配置为计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度;
14.匹配结果确定模块,配置为根据所述全局相似度和所述局部相似度确定音频匹配结果。
15.第三方面,本技术实施例还提供了一种音频匹配设备,该设备包括:
16.一个或多个处理器;
17.存储装置,用于存储一个或多个程序,
18.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本技术实施例所述的音频匹配方法。
19.第四方面,本技术实施例还提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本技术实施例所述的音频匹配方法。
20.第五方面,本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行本技术实施例所述的音频匹配方法。
21.本技术实施例中,获取待匹配音频和参考音频,确定待匹配音频的第一全局特征和第一局部特征,以及参考音频的第二全局特征和第二局部特征,再将确定出的特征输入至训练完成的卷积神经网络得到相应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,其中,该卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练,最后计算第一全局抽象特征和第二全局抽象特征的全局相似度,以及第一局部抽象特征和第二局部抽象特征的局部相似度,再根据全局相似度和局部相似度确定音频匹配结果,该种音频匹配处理方式,由于卷积神经网络训练过程中使用了经数据增广处理的音频样本,使得音频匹配时抗干扰能力强,同时采用基于对比学习的训练方式,以增强特征区分性,使得音频匹配结果的准确度提高。
附图说明
22.图1为本技术实施例提供的一种音频匹配方法的流程图;
23.图2为本技术实施例提供的一种卷积神经网络的结构示意图;
24.图3为本技术实施例提供的包含卷积神经网络训练过程的音频匹配方法的流程图;
25.图4为本技术实施例提供的一种构建正音频样本的方法的流程图;
26.图5为本技术实施例提供的一种音频匹配装置的结构框图;
27.图6为本技术实施例提供的一种音频匹配设备的结构示意图。
具体实施方式
28.下面结合附图和实施例对本技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本技术实施例,而非对本技术实施例的限定。另外还
需要说明的是,为了便于描述,附图中仅示出了与本技术实施例相关的部分而非全部结构。
29.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
30.本技术实施例中提供的音频匹配方法,可应用于各类需要进行音频匹配的场景。示例性的,如用户演唱一段歌曲音频后,后台基于该音频与后台存储的音频进行相似度匹配得出和用户演唱的音频一致的歌曲曲目。在另一个场景中,可以是歌曲演唱打分的场景,如对用户演唱的歌曲音频与对应歌曲曲目的原唱或者翻唱音频进行匹配度的识别,基于该匹配情况对演唱者进行打分。
31.图1为本技术实施例提供的一种音频匹配方法的流程图,具体包括如下步骤:
32.步骤s101、获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征。
33.在一个实施例中,对待匹配音频和参考音频进行匹配,以确定待匹配音频和参考音频的匹配程度。可选的,该参考音频可以是预先存储的可用于进行多个不同待匹配音频匹配的音频数据,待匹配音频为用户生成的音频数据。以歌曲打分场景为例,该参考音频可以是歌曲原唱者进行原唱歌曲音频,而待匹配音频可以是用户演唱的歌曲音频。
34.在一个实施例中,获取到待匹配音频和参考音频后,确定该待匹配音频的第一全局特征和第一局部特征,以及该参考音频的第二全局特征和第二局部特征。其中,第一全局特征反映了待匹配音频整体的音频特征情况,如整体的音调特征、节奏特征,第一局部特征反映了待匹配音频局部的音频特征情况;同理,第二全局特征反映了参考音频整体的音频特征情况,如整体的音调特征、节奏特征,第二局部特征反映了参考音频局部的音频特征情况。
35.可选的,上述的第一全局特征、第一局部特征、第二全局特征和第二局部特征可以是提取得到的对应音频的cqt(constant-q transform,恒q变换)特征、mel(mel spectrogram,梅尔频谱)频率特征或者mfcc(mel-scalefrequency cepstral coefficients,梅尔倒谱系数)特征,也可以是cqt特征、mel频率特征或者mfcc特征中的任意两种或多种的组合。
36.在一个实施例中,确定待匹配音频的第一全局特征和第一局部特征,以及参考音频的第二全局特征和第二局部特征的过程可以是:分别提取待匹配音频和参考音频对应的第一全局特征和第二全局特征,将第一全局特征和第二全局特征分别拆分为预设数量且长度相等的第一局部特征和第二局部特征。其中,特征提取的过程依据需要生成的特征种类使用对应的音频特征提取方式,以cqt特征为例,用一组恒q滤波器对时域音频信号进行滤波,得到非线性频域信号,再使用设置的信号特征提取函数以得到音频的cqt特征。在将全局特征拆分为局部特征时,将第一全局特征和第二全局特征分别拆分为等长度的预设数量的第一局部特征和第二局部特征,如将第一全局特征拆分为m个第一局部特征,将第二全局特征拆分为m个第二局部特征,如果拆分过程中长度不够,则采用自动补零的方式补齐特征
长度和特征数量。由此,以便于后续从音频的全局特征和局部特征进行分别对应的比对匹配,以提高匹配精度。
37.步骤s102、分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征。
38.在一个实施例中,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征后,将其输入预先训练完成的卷积神经网络中以分别得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征。可选的,该卷积神经网络包括多个卷积组模块、平均池化层和线性映射层,多个卷积组模块包括浅层卷积组模块和预设数量的结构一致且卷积通道数递增的卷积组模块。示例性的,图2为本技术实施例提供的一种卷积神经网络的结构示意图,如图2所示,其包括浅层卷积组模块stem,4个结构一致或相近的卷积通道数递增的卷积组模块block1、block2、block3和block4,以及平均池化层avg pool和线性映射层linear。其中,该卷积组模块block1、block2、block3和block4的通道数依次递增,用于提取高层语义信息。平均池化层用于特征聚合,解耦输出特征维度与音频长度,线性映射层输出固定维度的抽象特征。
39.在一个实施例中,该卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练。通过使用数据增广处理的音频样本,能够很好的提高其抗干扰性;通过基于对比学习的训练,可以显著增强特征的判别性,提高音频匹配结果的准确度。
40.步骤s103、计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度。
41.在一个实施例中,在得到第一全局抽象特征、第二全局抽象特征、第一局部抽象特征和第二局部抽象特征后,分别进行全局抽象特征和局部抽象特征的相似度比对,以最终确定匹配结果。
42.示例性的,以对待匹配音频和参考音频提取出的第一全局特征记为x
test
,第二全局特征记为x
ref
为例,对应输入至卷积神经网络模型,输出的第一全局抽象特征记为第一局部抽象特征记为其中,输出的第二全局抽象特征记为第二局部抽象特征记为其中,计算第一全局抽象特征与第二全局抽象特征的全局相似度,以及各个第一局部抽象特征和第二局部抽象特征的相似度为:s=[s0,s1,
…
,sm],其中],其中可选的,相似度度量函数可以是:
[0043][0044]
需要说明的时,上述相似度度量函数为一种示例性的相似度计算方式,还可以是
使用余弦相似度或者欧式距离、曼哈顿距离的方式计算得到。
[0045]
步骤s104、根据所述全局相似度和所述局部相似度确定音频匹配结果。
[0046]
在一个实施例中,计算得到全局相似度和局部相似度后,可选的,对该全局相似度和局部相似度进行融合,如加权平均后,与设置的相似度阈值进行比度,如果大于该相似度阈值,则表示待匹配音频和参考音频的匹配程度高,反之表示待匹配音频和参考音频的匹配程度低。在另一个实施例中,还可以是分别进行全局相似度和局部相似度与各自的相似度阈值进行比对,再综合二者比对结果的方式确定匹配结果。可选的,在确定匹配结果时,还可以是根据匹配程度给出具体的匹配程度数值,如80%匹配、90%匹配等。
[0047]
由上述方案可知,获取待匹配音频和参考音频,确定待匹配音频的第一全局特征和第一局部特征,以及参考音频的第二全局特征和第二局部特征,再将确定出的特征输入至训练完成的卷积神经网络得到相应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,其中,该卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练,最后计算第一全局抽象特征和第二全局抽象特征的全局相似度,以及第一局部抽象特征和第二局部抽象特征的局部相似度,再根据全局相似度和局部相似度确定音频匹配结果,该种音频匹配处理方式,由于卷积神经网络训练过程中使用了经数据增广处理的音频样本,使得音频匹配时抗干扰能力强,同时采用基于对比学习的训练方式,以增强特征区分性,使得音频匹配结果的准确度提高。
[0048]
图3为本技术实施例提供的包含卷积神经网络训练过程的音频匹配方法的流程图,给出一种卷积神经网络训练过程,具体包括:
[0049]
步骤s201、构建正音频样本与负音频样本,所述正音频样本的构建包括对原始音频的音调参数、节奏参数以及录制参数的增广处理,通过所述正音频样本与所述负音频样本对预设的卷积神经网络进行训练。
[0050]
在一个实施例中,进行卷积神经网络的训练时,训练使用的样本包括构建的正音频样本与负音频样本。可选的,针对正音频样本而言,以歌曲音频匹配场景为例,在直播唱歌或唱歌小游戏等自由演唱的场景中,用户演唱在音调、节奏等方面都与原唱存在差异。为了提升模型对这些变化的鲁棒性,构建正音频样本时,获取同一曲目不同演唱者的演唱版本,构成样本在音调、节奏、音色等方面的多样性,同时通过数据增广的方式覆盖尽可能多的变化。针对负音频样本而言,定义为任意不同曲目片段的音频,即使用和原本的歌曲不同的音频数据。通过构建正负音频样本,在训练过程中使用对比损失,增强模型特征的区分性,可提升后续歌曲校验的准确性。
[0051]
在一个实施例中,针对增广处理的得到的正音频样本的方式,示例性的,如图4所示,图4为本技术实施例提供的一种构建正音频样本的方法的流程图,具体包括:
[0052]
步骤s2011、获取原始音频,对所述原始音频进行全局的音高平移处理以及局部的音高扰动处理,得到包含音调参数增广处理的正音频样本。
[0053]
在一个实施例中,可以是在获取原始音频并提取对应的音频特征的情况下,对该音频特征进行全局的音高平移处理以及局部的音高扰动处理。具体可以是针对音频特征进行频率方向进行偏移,模拟音调偏高或偏低的情况以得到正音频样本。
[0054]
步骤s2012、对所述原始音频的节奏进行均匀和非均匀的偏移处理,得到包含节奏
参数增广处理的正音频样本。
[0055]
在一个实施例中,进行音频的节奏进行均匀和非均匀的偏移处理的过程可以是,通过整体的时序偏移模拟慢怕或抢拍,通过在时间轴拉伸和收缩模拟整体节奏偏快或偏慢,通过构造随机的两序列对齐路径,对演唱音频进行扭曲,模拟节奏的非均匀变化,以得到节奏参数增广处理的正音频样本。
[0056]
步骤s2013、在所述原始音频中叠加环境噪声,得到包含录制参数增广处理的正音频样本。
[0057]
在一个实施例中,通过叠加环境噪声模拟功放录制收录环境音,通过随机擦除模拟部分唱词和音符未发声,通过时序上的拼接模拟重复演唱,以得到包含录制参数增广处理的正音频样本。
[0058]
需要说明的时,上述生成的正音频样本可以是同时基于音调参数、节奏参数以及录制参数进行增广处理得到的正音频样本,也可以是其中的任意一个或多个的组合得到的正音频样本。在使用音调参数、节奏参数以及录制参数进行增广处理的过程中,并不区分正音频样本的生成顺序,其先后顺序并不限制。
[0059]
在一个实施例中,得到正音频样本和负音频样本后,相应的基于正音频样本与负音频样本,通过设置的对比损失函数进行预设的卷积神经网络的训练,可选的,该对比损失函数可以是:
[0060][0061]
其中,τ为超参,表示温度系数,fi、f
+
、f-分别为锚点样本、正音频样本和负音频样本的隐式表达,所述锚点样本包括任意的音频样本。训练过程中,通过对比损失学习的方式,可以在隐式表达空间上缩小样本fi与正样本f
+
的距离,拉开与负样本f-的距离,以增强特征表达的区分性。
[0062]
步骤s202、获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征。
[0063]
步骤s203、分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征。
[0064]
步骤s204、计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度。
[0065]
步骤s205、根据所述全局相似度和所述局部相似度确定音频匹配结果。
[0066]
由上述可知,在进行卷积神经网络的训练过程中,使用构建的正负样本进行训练,且采用对比学习的方式进行网络训练处理,增强特征表达的区分性,以及模型的抗扰动性,提高了基于该卷积网络模型进行音频匹配时输出抽象特征的精准度。
[0067]
在上述实施例的基础上,在进行正音频样本与负音频样本的构建时,还包括对获取到的原始音频进行预处理的过程,以对用户演唱的歌曲和原唱歌曲之间进行音频匹配场景为例,批量采集热门歌曲中相同曲目不同演唱者的相应演唱版本,利用音轨分离技术从音频中提取人声,通过唱歌检测技术定位非唱歌片段并进行去除,之后进行非原唱音频与原唱音频对齐,提取音频频谱特征,并计算任意非原唱片段与原唱片段的最佳匹配路径,对
非原唱音频序列进行规整,实现非原唱音频与原唱音频的对齐,借助音高提取技术,获得音频的音高序列,识别旋律重复的片段并进行去除,在根据预设的片段长度,将完整曲目裁剪成一定长度的无重叠音频片段,之后生成cqt特征和曲目id的关联数据,对裁剪后的音频片段提取cqt特征其中,84为每一帧的cqt特征维度,其中n为音频片段分帧的数量,可选的,采用滑窗口步长为512。对曲目id进行统一编码,可得到cqt特征和曲目片段id构成的成对数据在针对该cqt特征和曲目片段id构成的成对数据的基础上进行正音频样本的构建,以及后续的卷积神经网络的训练。由此,提高了模型训练效率已经显著提升训练效果。
[0068]
图5为本技术实施例提供的一种音频匹配装置的结构框图,该装置用于执行上述实施例提供的音频匹配方法,具备执行方法相应的功能模块和有益效果。如图5所示,该装置具体包括:特征提取模块101、特征识别模块102、相似度计算模块103和匹配结果确定模块104,其中,
[0069]
特征提取模块101,配置为获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征;
[0070]
特征识别模块102,配置为分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,所述卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练;
[0071]
相似度计算模块103,配置为计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度;
[0072]
匹配结果确定模块104,配置为根据所述全局相似度和所述局部相似度确定音频匹配结果。
[0073]
由上述方案可知,获取待匹配音频和参考音频,确定待匹配音频的第一全局特征和第一局部特征,以及参考音频的第二全局特征和第二局部特征,再将确定出的特征输入至训练完成的卷积神经网络得到相应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,其中,该卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练,最后计算第一全局抽象特征和第二全局抽象特征的全局相似度,以及第一局部抽象特征和第二局部抽象特征的局部相似度,再根据全局相似度和局部相似度确定音频匹配结果,该种音频匹配处理方式,由于卷积神经网络训练过程中使用了经数据增广处理的音频样本,使得音频匹配时抗干扰能力强,同时采用基于对比学习的训练方式,以增强特征区分性,使得音频匹配结果的准确度提高。
[0074]
在一个可能的实施例中,该装置还包括模型训练模块105,配置为在所述获取待匹配音频和参考音频之前,构建正音频样本与负音频样本,所述正音频样本的构建包括对原始音频的音调参数、节奏参数以及录制参数中的至少一种的增广处理;
[0075]
通过所述正音频样本与所述负音频样本对预设的卷积神经网络进行训练。
[0076]
在一个可能的实施例中,所述模型训练模块105,配置为下述至少一种或多种:
[0077]
获取原始音频,对所述原始音频进行全局的音高平移处理以及局部的音高扰动处
理,得到包含音调参数增广处理的正音频样本;
[0078]
对所述原始音频的节奏进行均匀和非均匀的偏移处理,得到包含节奏参数增广处理的正音频样本;
[0079]
在所述原始音频中叠加环境噪声,得到包含录制参数增广处理的正音频样本。
[0080]
在一个可能的实施例中,模型训练模块105,配置为:
[0081]
基于所述正音频样本与所述负音频样本,通过设置的对比损失函数进行预设的卷积神经网络的训练,所述对比损失函数包括:
[0082][0083]
其中,τ为超参,表示温度系数,fi、f
+
、f-分别为锚点样本、正音频样本和负音频样本的隐式表达,所述锚点样本包括任意的音频样本。
[0084]
在一个可能的实施例中,所述卷积神经网络包括多个卷积组模块、平均池化层和线性映射层,所述多个卷积组模块包括浅层卷积组模块和预设数量的结构一致且卷积通道数递增的卷积组模块。
[0085]
在一个可能的实施例中,所述特征提取模块101,配置为:
[0086]
分别提取所述待匹配音频和参考音频对应的第一全局特征和第二全局特征,将所述第一全局特征和所述第二全局特征分别拆分为预设数量且长度相等的第一局部特征和第二局部特征。
[0087]
图6为本技术实施例提供的一种音频匹配设备的结构示意图,如图6所示,该设备包括处理器201、存储器202、输入装置203和输出装置204;设备中处理器201的数量可以是一个或多个,图6中以一个处理器201为例;设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接,图6中以通过总线连接为例。存储器202作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本技术实施例中的音频匹配方法对应的程序指令/模块。处理器201通过运行存储在存储器302中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的音频匹配方法。输入装置203可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
[0088]
本技术实施例还提供一种包含计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种上述实施例描述的音频匹配方法,其中,包括:
[0089]
获取待匹配音频和参考音频,确定所述待匹配音频的第一全局特征和第一局部特征,以及所述参考音频的第二全局特征和第二局部特征;
[0090]
分别将所述第一全局特征、所述第一局部特征、所述第二全局特征和所述第二局部特征输入至预设的卷积神经网络得到对应的第一全局抽象特征、第一局部抽象特征、第二全局抽象特征和第二局部抽象特征,所述卷积神经网络训练过程中使用的正样本包括经数据增广处理的音频样本,训练过程包括基于对比学习的训练;
[0091]
计算所述第一全局抽象特征和所述第二全局抽象特征的全局相似度,以及所述第一局部抽象特征和所述第二局部抽象特征的局部相似度;
[0092]
根据所述全局相似度和所述局部相似度确定音频匹配结果。
[0093]
值得注意的是,上述音频匹配装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本技术实施例的保护范围。
[0094]
在一些可能的实施方式中,本技术提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本技术实施例所记载的音频匹配方法。所述程序产品可以采用一个或多个可读介质的任意组合实现。