本申请涉及音频处理领域,尤其涉及一种声纹检索方法、装置、电子设备及存储介质。
背景技术:
1、声纹识别技术属于生物识别技术的一种,是一项根据语音波形中所蕴涵的说话人信息,自动识别说话人身份的技术。声纹检索是通过声纹识别技术,在大量声纹数据中快速找到匹配或相似的声纹记录并输出topn候选排名的过程。
2、声纹检索在待识别语音与已建库声纹数据进行声纹模型比对时,将待识别语音整段进行特征提取、声纹建模,然后与已建库语音模型进行模型比对与打分并找到匹配或相似的声纹记录并输出topn候选排名。然而当待识别语音较长时整段建模会导致部分语音特征的缺失,影响检索结果相似度topn候选排名的准确性。
技术实现思路
1、有鉴于此,本申请实施例提供了一种声纹检索方法、装置、电子设备及存储介质,能够提高声纹检索的准确率。
2、本申请实施例的技术方案是这样实现的:
3、第一方面,本申请实施例提供一种声纹检索方法,所述方法包括:
4、通过预设的分段策略将待识别声音进行分段处理,得到m个待识别声音片段,其中,m为大于等于2的正整数;
5、对所述待识别声音以及所述m个待识别声音片段分别进行特征提取,基于所述特征提取的提取结果构建m+1个声纹模型;
6、分别对所述m+1个声纹模型中每个声纹模型进行声纹检索,得到m+1组topn候选排名结果,其中,所述m+1组topn候选排名结果中每组topn候选排名结果表征该声纹模型与声纹库中匹配度最高的n个目标声纹以及对应的匹配度;
7、基于所述每组topn候选排名结果中相同的目标声纹以及对应的匹配度对所述每个声纹模型对应的topn候选排名结果进行更新,并输出所述每个声纹模型更新后的topn候选排名结果。
8、第二方面,本申请实施例还提供一种声纹检索装置,所述装置包括:
9、分段模块,用于通过预设的分段策略将待识别声音进行分段处理,得到m个待识别声音片段,其中,m为大于等于2的正整数;
10、构建模块,用于对所述待识别声音以及所述m个待识别声音片段分别进行特征提取,基于所述特征提取的提取结果构建m+1个声纹模型;
11、检索模块,用于分别对所述m+1个声纹模型中每个声纹模型进行声纹检索,得到m+1组topn候选排名结果,其中,所述m+1组topn候选排名结果中每组topn候选排名结果表征该声纹模型与声纹库中匹配度最高的n个目标声纹以及对应的匹配度;
12、更新模块,用于基于所述每组topn候选排名结果中相同的目标声纹以及对应的匹配度对所述每个声纹模型对应的topn候选排名结果进行更新,并输出所述每个声纹模型更新后的topn候选排名结果。
13、第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的声纹检索方法。
14、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面任一项所述的声纹检索方法。
15、本申请实施例具有以下有益效果:
16、(1)提升声纹检索的准确率:通过分析待识别语音的长度,并据此进行精细的分段处理,每个分段都独立进行特征提取、声纹建模和声纹比对。这种方法有效避免了整段语音处理时可能因声纹特征分布不均或局部特征缺失而导致的性能下降问题。多组topn候选排名结果的产生,结合了对不同分段声纹特征的全面考虑,使得最终的排名结果更加准确,能够更精确地筛选出与待识别语音信息高度匹配的疑似命中候选结果。
17、(2)增强声纹检索的鲁棒性:不同的分段可能包含不同的声纹特征,有的分段可能更清晰地反映了说话人的特定特征,而有的分段则可能受到噪声或其他干扰的影响较小。通过综合多组分段的结果,可以消除单一分段中可能存在的误差或偏差,从而增强了声纹检索系统的鲁棒性,使其在不同环境下都能保持较高的识别准确率。
18、(3)提高检索效率和速度:虽然分段处理增加了处理步骤,但每个分段可以并行处理,且每个分段的特征提取和声纹比对相对独立,这有助于提高整体的检索效率。同时,通过多组结果的互补计算,可以在更短的时间内找到最匹配的候选结果,从而加快了检索速度。
19、(4)支持复杂场景下的应用:在实际应用中,待识别语音往往包含多种复杂因素,如背景噪声、语速变化、情感波动等。该方法通过分段处理和综合计算,能够更好地适应这些复杂场景,提高声纹检索的实用性和可靠性。
20、(5)提升用户体验:由于声纹检索准确率的提高,用户可以更快地获得准确的识别结果,从而减少了等待时间和误识别带来的困扰。
21、综上所述,该方法通过分段处理、多组结果综合计算等策略,有效解决了传统声纹检索中因整段语音处理而可能导致的性能下降问题,显著提高了声纹检索的准确率和鲁棒性,同时提升了检索效率和速度,为用户提供了更好的体验。
1.一种声纹检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设的分段策略基于分段长度、所述待识别声音中的声音数量、所述待识别声音中的有效语音中的至少一种确定。
3.根据权利要求2所述的方法,其特征在于,通过预设的分段策略将待识别声音进行分段处理,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述待识别声音以及所述m个待识别声音片段分别进行特征提取,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述特征提取的提取结果构建m+1个声纹模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述分别对所述m+1个声纹模型中每个声纹模型进行声纹检索,得到m+1组topn候选排名结果,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述每组topn候选排名结果中相同的目标声纹以及对应的匹配度对所述每个声纹模型对应的topn候选排名结果进行更新,包括:
8.一种声纹检索装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的声纹检索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的声纹检索方法。