音频检测方法及装置、存储介质与流程

文档序号:24292863发布日期:2021-03-17 00:41阅读:242来源:国知局
音频检测方法及装置、存储介质与流程

本公开涉及语音识别技术,尤其涉及一种音频检测方法及装置、存储介质。



背景技术:

随着语音识别技术的广泛应用,声纹识别等音频检测方式成为身份验证或者语音控制等的有效实现方式之一。例如,各种门禁系统、设备身份验证系统以及用户端登录验证系统等等,此外,还有各种智能终端及程序的语音输入、语音控制等,均可采用音频检测的方法来实现。采用音频检测对于用户来说操作简便,并且适用于绝大多数人群,因此可以被广泛应用。然而,声音容易通过录音重放等方式来冒充,从而降低了音频检测的安全性。



技术实现要素:

本公开提供一种音频检测方法及装置、存储介质。

根据本公开实施例的第一方面,提供一种音频检测方法,包括:

获取待检测音频中的语音段和非语音段;

提取所述语音段的第一音频特征和所述非语音段的第二音频特征;

利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;

利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;

根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。

在一些实施例中,所述获取待检测音频中的语音段和非语音段,包括:

利用第一识别方法,识别所述待检测音频中的第一静音段;

利用第二识别方法,识别所述待检测音频中的清音段和第二静音段;

确定所述清音段、所述第一静音段与所述第二静音段的并集为所述非语音段;

确定所述待检测音频中所述非语音段以外的音频段为所述语音段。

在一些实施例中,所述利用第一识别方法识别所述待检测音频中的第一静音段,包括:

利用vad(voiceactivitydetection,语音活动检测),对所述待检测音频进行能量检测;

确定所述待检测音频中能量小于预定阈值的音频段为所述第一静音段。

在一些实施例中,所述利用第二识别方法,识别所述待检测音频中的清音段和第二静音段,包括:

通过hmm(hiddenmarkovmodel,隐马尔科夫模型)生成所述待检测音频的音素数据集;

利用mfa(montrealforcedaligner,蒙特利尔强制对齐)方法,对所述音频数据集进行音素对齐;

获取音素对齐后的所述音频数据集中的所述清音段和所述第二静音段。

在一些实施例中,所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分,包括:

利用所述第一真实音模型对所述第一音频特征进行检测,得到第一真实音得分;

利用所述第一攻击音模型对所述第一音频特征进行检测,得到第一攻击音得分;

根据所述第一真实音得分和所述第一攻击音得分,确定所述第一检测得分。

在一些实施例中,所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;所述利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分,包括:

利用所述第二真实音模型对所述第二音频特征进行检测,得到第二真实音得分;

利用所述第二攻击音模型对所述第二音频特征进行检测,得到第二攻击音得分;

根据所述第二真实音得分和所述第二攻击音得分,确定所述第二检测得分。

在一些实施例中,所述提取所述语音段的第一音频特征和所述非语音段的第二音频特征,包括:

获取所述待检测音频的采集通道数量;

若所述采集通道数量满足预设数量条件,则采用cmvn(cepstralmeanandvariancenormalization,倒谱均值方差归一化)方法提取所述语音段的所述第一音频特征;

若所述采集通道数量满足预设数量条件,则采用cmvn方法提取所述非语音段的第二音频特征。

在一些实施例中,所述提取所述语音段的第一音频特征和所述非语音段的第二音频特征,包括:

根据所述待检测音频与预定语音内容的相关度,确定所述第一音频特征的提取频段;

提取所述语音段在所述提取频段的所述第一音频特征;

提取所述非语音段的第二音频特征。

在一些实施例中,在所述确定所述待检测音频是否属于目标音频之前,所述方法还包括:

根据预定音频数据中的语音数据,训练得到所述语音段检测模型;

根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型。

在一些实施例中,所述预定音频数据包括:预定真实音数据和预定攻击音数据;所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;

所述根据预定音频数据中的语音数据,训练得到所述语音段检测模型,包括:

根据所述预定真实音数据中的语音数据,训练得到第一真实音模型;

根据所述预定攻击音数据中的语音数据,训练得到第一攻击音模型;

所述根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型,包括:

根据所述预定真实音数据中的非语音数据,训练得到第二真实音模型;

根据所述预定攻击音数据中的非语音数据,训练得到第二攻击音模型。

根据本公开实施例的第二方面,提供一种音频检测装置,包括:

第一获取模块,用于获取待检测音频中的语音段和非语音段;

提取模块,用于提取所述语音段的第一音频特征和所述非语音段的第二音频特征;

第一检测模块,用于利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;

第二检测模块,用于利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;

第一确定模块,用于根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。

在一些实施例中,所述第一获取模块,包括:

第一识别子模块,用于利用第一识别方法,识别所述待检测音频中的第一静音段;

第二识别子模块,用于利用第二识别方法,识别所述待检测音频中的清音段和第二静音段;

第一确定子模块,用于确定所述清音段、所述第一静音段与所述第二静音段的并集为所述非语音段;

第二确定子模块,用于确定所述待检测音频中所述非语音段以外的音频段为所述语音段。

在一些实施例中,所述第一识别子模块,具体用于:

利用vad,对所述待检测音频进行能量检测;

确定所述待检测音频中能量小于预定阈值的音频段为所述第一静音段。

在一些实施例中,所述第二识别子模块,具体用于:

通过hmm生成所述待检测音频的音素数据集;

利用mfa方法,对所述音频数据集进行音素对齐;

获取音素对齐后的所述音频数据集中的所述清音段和所述第二静音段。

在一些实施例中,所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述第一检测模块,包括:

第一检测子模块,用于利用所述第一真实音模型对所述第一音频特征进行检测,得到第一真实音得分;

第二检测子模块,用于利用所述第一攻击音模型对所述第一音频特征进行检测,得到第一攻击音得分;

第三确定子模块,用于根据所述第一真实音得分和所述第一攻击音得分,确定所述第一检测得分。

在一些实施例中,所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;所述第二检测模块,包括:

第三检测子模块,用于利用所述第二真实音模型对所述第二音频特征进行检测,得到第二真实音得分;

第四检测子模块,用于利用所述第二攻击音模型对所述第二音频特征进行检测,得到第二攻击音得分;

第四确定子模块,用于根据所述第二真实音得分和所述第二攻击音得分,确定所述第二检测得分。

在一些实施例中,所述提取模块,包括:

第二获取模块,用于获取所述待检测音频的采集通道数量;

第一提取子模块,若所述采集通道数量满足预设数量条件,则用于采用cmvn方法提取所述语音段的所述第一音频特征;

第二提取子模块,若所述采集通道数量满足预设数量条件,则用于采用cmvn方法提取所述非语音段的第二音频特征。

在一些实施例中,所述提取模块,包括:

第五确定子模块,用于根据所述待检测音频与预定语音内容的相关度,确定所述第一音频特征的提取频段;

第三提取子模块,用于提取所述语音段在所述提取频段的所述第一音频特征;

第四提取子模块,用于提取所述非语音段的第二音频特征。

在一些实施例中,所述装置还包括:

第一训练模块,用于根据预定音频数据中的语音数据,训练得到所述语音段检测模型;

第二训练模块,用于根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型。

在一些实施例中,所述预定音频数据包括:预定真实音数据和预定攻击音数据;所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;

所述第一训练模块,具体用于:

根据所述预定真实音数据中的语音数据,训练得到第一真实音模型;

根据所述预定攻击音数据中的语音数据,训练得到第一攻击音模型;

所述第二训练模型,具体用于:

根据所述预定真实音数据中的非语音数据,训练得到第二真实音模型;

根据所述预定攻击音数据中的非语音数据,训练得到第二攻击音模型。

根据本公开实施例的第三方面,提供一种音频检测装置,所述装置至少包括:处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:

处理器用于运行所述可执行指令时,所述可执行指令执行上述任一实施例中的音频检测方法中的步骤。

根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任一实施例中的音频检测方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开实施例的方案,将待检测音频分为语音段和非语音段分别进行特征检测,考虑到了音频中语音段与非语音段所包含信息的差异性,从而有效提升音频检测的准确性,减少被重放录音攻击的概率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种音频检测方法的流程图一;

图2是根据一示例性实施例示出的一种音频检测方法的流程图二;

图3是根据一示例性实施例示出的一种音频检测方法的流程图三;

图4是根据一示例性实施例示出的一种音频检测方法的流程图四;

图5a是根据一示例性实施例示出的一种音频检测方法的流程图五;

图5b是根据一示例性实施例示出的一种音频检测方法中训练模型的方法流程图;

图6是根据一示例性实施例示出的一种音频检测装置的结构框图;

图7是根据一示例性实施例示出的一种切换网络的装置的实体结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频检测方法的流程图,如图1所示,包括以下步骤:

步骤s101、获取待检测音频中的语音段和非语音段;

步骤s102、提取所述语音段的第一音频特征和所述非语音段的第二音频特征;

步骤s103、利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;

步骤s104、利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;

步骤s105、根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。

当音频检测装置采集到待检测音频后,可通过语音活动检测的方式提取待检测音频终端语音段和非语音段。语音段是待检测语音中含有人声语言信息的音频片段,非语音段则为各种背景音、噪音以及音量较低的静音音频片段等。

在本公开实施例中,针对语音段和非语音段分别提取第一音频特征和第二音频特征。第一音频特征可以是语音音频的显著特征,例如,音频的频谱、能量分布以及变化规律等等。由于语音段音频包含人声信息,而非语音段则仅包含环境声、噪声以及电子设备发出的声音等信息,因此,音频特征与非语音段存在差异。

在本公开实施例中,针对语音段与非语音段采用不同的检测模型进行特征检测。对于检测模型,可以在训练的过程分别利用语音段和非语音段的预定音频分别进行训练,从而得到有针对性的模型。在进行音频检测时,则先根据待检测音频获取其中的语音段和非语音段,然后将语音段和非语音段的音频特征分别输入到对应的检测模型中进行检测。

这样,根据语音段和非语音段检测得到的得分,可以从二维的角度进行评判,最终确定待检测音频是否属于目标音频。

示例性地,在确定待检测音频是否属于目标音频时,可以根据第一检测得分与第二检测得分的加权平均,确定最终的得分,进而根据预定的得分标准来确定是否属于目标音频。

这里,目标音频是指真实人声输入的音频,包括属于目标用户的语音输入音频,或者语音输入内容属于预定内容的音频等。如果检测得出待检测音频不属于目标音频,则该音频可能为录音重放或者其他设备生成的音频。例如,在进行音频检测的身份验证等过程时,如果检测出待检测音频为目标音频,则通过验证;如果检测出待检测音频不属于目标音频,则验证失败。

通过上述方法,可以有效利用音频中的语音段和非语音段的不同特征,分别通过模型进行评分,进而得到更加准确的检测结果,有效提升了音频检测的准确性、鲁棒性;同时,减少被重放录音攻击的概率,提升了音频检测所应用场景的安全性能。

在一些实施例中,所述获取待检测音频中的语音段和非语音段,包括:

利用第一识别方法,识别所述待检测音频中的第一静音段;

利用第二识别方法,识别所述待检测音频中的清音段和第二静音段;

确定所述清音段、所述第一静音段与所述第二静音段的并集为所述非语音段;

确定所述待检测音频中所述非语音段以外的音频段为所述语音段。

在本公开实施例中,考虑到非语音段可能包含有静音部分和清音部分,因此可以分别进行检测。静音部分属于各频段的音频能量较低的部分,例如,在待检测音频中,说话过程中停顿的片段。通过能量检测或者音量检测等第一识别方法,可以将待检测音频中的第一静音段识别出来。

此外,考虑到很多语音中存在清音音素,在说话时声带不震动而是利用气流流动则会产生清音。清音音素与噪声类似,不容易检测出语音的信息,由于清音音素不容易通过音量或者能量检测识别出来,因此,在本公开实施例中,可以采用其他方法进行音素级别的识别,例如,对音频数据进行音素级别的对齐,得到具有清晰音素标签的对齐帧。进而获得上述清音段以及第二静音段。

通过上述方法识别出清音段、第一静音段和第二静音段后,就将待检测音频中的非语音段提取出来了,剩余的音频段则为语音段。

在一些实施例中,所述利用第一识别方法识别所述待检测音频中的第一静音段,包括:

利用vad,对所述待检测音频进行能量检测;

确定所述待检测音频中能量小于预定阈值的音频段为所述第一静音段。

这里,可利用基于能量的vad来进行语音活动的检测。vad包括基于能量的语音活动检测、基于频域的语音活动检测、基于能量倒谱的语音活动检测以及基于谐波的语音活动检测等方式。在本公开实施例中,可利用基于能量的方式进行语音活动检测,例如,根据待检测语音的应用场景中常见的语音能量可预定能量阈值,当待检测音频的能量小于该阈值时,认为没有语音活动,进而获得上述第一静音段。

基于能量的vad检测方式简便,不需要复杂的算法,易于实现,因而能够快速筛选出待检测音频中明显的静音段。

在一些实施例中,所述利用第二识别方法,识别所述待检测音频中的清音段和第二静音段,包括:

通过hmm生成所述待检测音频的音素数据集;

利用mfa方法,对所述音频数据集进行音素对齐;

获取音素对齐后的所述音频数据集中的所述清音段和所述第二静音段。

在本公开实施例中,上述第二识别方法为精确到音素级别的识别方法,通过hmm生成待处理的音素数据集,然后进行音素对齐,进而得到清晰的对齐帧。如此,可以将能量检测难以识别出的清音段以及夹杂在语音中零散的静音段识别处理。

在一些实施例中,所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分,包括:

利用所述第一真实音模型对所述第一音频特征进行检测,得到第一真实音得分;

利用所述第一攻击音模型对所述第一音频特征进行检测,得到第一攻击音得分;

根据所述第一真实音得分和所述第一攻击音得分,确定所述第一检测得分。

在本公开实施例中,上述第一真实音模型与第一攻击音模型可以为独立的两个模型。在进行检测时,可将待检测音频中的语音段的第一音频特征分别输入至这两个模型,并得到打分结果。第一真实音得分体现了语音段为真实人声发出的音频的概率,第一攻击音得分则体现了语音段为录音重放或者电子设备自动生成的音频的概率。语音段检测模型通过上述两个得分,可以确定第一检测得分。

这里,第一检测得分可以是对上述第一真实音得分与第一攻击音得分进行加权平均得到的分数,也可以是包含上述两个得分的得分集。

在一些实施例中,所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;所述利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分,包括:

利用所述第二真实音模型对所述第二音频特征进行检测,得到第二真实音得分;

利用所述第二攻击音模型对所述第二音频特征进行检测,得到第二攻击音得分;

根据所述第二真实音得分和所述第二攻击音得分,确定所述第二检测得分。

与对语音段的检测类似,这里,将待检测音频中的非语音段的第二音频特征分别输入至上述第二真实音模型和第二攻击音模型,并得到对应的两个得分。非语音段检测模型则通过上述两个得分,确定第二检测得分。

上述第一检测得分与第二检测得分最终可构成一个总的得分集合,也可以根据第一检测得分与第二检测得分的加权平均得到最终对待检测音频的打分。最终,可以根据检测的精度需求、应用场景以及历史数据等等确定的评判标准,判断待检测音频最终的得分是属于真实音的得分还是属于攻击音的得分。

在一些实施例中,所述提取所述语音段的第一音频特征和所述非语音段的第二音频特征,包括:

获取所述待检测音频的采集通道数量;

若所述采集通道数量满足预设数量条件,则采用cmvn方法提取所述语音段的所述第一音频特征;

若所述采集通道数量满足预设数量条件,则采用cmvn方法提取所述非语音段的第二音频特征。

在本公开实施例中,考虑到cmvn的作用是减少信道效应和加性噪声干扰,因此在多通道采集音频信号的情况下,可以进行cmvn处理,以提升音频特征提取的准确性,减少干扰带来的特征提取的偏差。对于单通道或者通道数量较少,不足以产生信道效应等干扰时采集的音频则无需进行上述cmvn处理。

示例性的,若所述待检测音频由通过至少两个音频采集通道采集,则根据语音段的cqcc(constant-qcepstralcoefficients,常量q倒谱系数)和cmvn,确定所述第一音频特征;并根据非语音段的imfcc(invertedmelfrequencycepstralcoefficients,逆梅尔倒谱系数)和cmvn,确定所述第二音频特征。若所述待检测音频由通过单个音频采集通道采集,则根据所述语音段的cqcc,确定所述第一音频特征,并根据非语音段的imfcc确定第二音频特征。

示例性地,预设数量条件可以为采集通道的数量大于或等于预定阈值,若采集通道的数量小于该预定阈值,则不满足该预设数量条件。例如,当采集通道数量大于或等于2时,满足预定数量条件;当采集通道数量等于1时不满足预定数量条件。

在一些实施例中,所述提取所述语音段的第一音频特征和所述非语音段的第二音频特征,包括:

根据所述待检测音频与预定语音内容的相关度,确定所述第一音频特征的提取频段;

提取所述语音段在所述提取频段的所述第一音频特征;

提取所述非语音段的第二音频特征。

这里,预定语音内容实质终端已经预存或者终端自动生成的文本信息,如果待检测音频不是针对该文本信息的语音,即相关度低于预定阈值,则可以确定所述语音段在预定的第一频段的cqcc。由于文本信息一般存在于较低的频段,因此,与预定文本信息无关的语音可以尽可能减少文本信息的影响,因此,可以提取较高频段的cqcc。例如,提取6khz(千赫兹)至8khz频段内的cqcc。

而对于与预定语音内容的文本相关的待检测音频,则可以保留文本信息,因而可以提取第二频段的cqcc。这里,第二频段可以是带宽大于上述第一频段且包含有第一频段的指定频段,也可以是终端能够检测的全部频段。

对于非语音段的第二音频特征,则不需要考虑是否会受到文本信息的影响,因此可以直接提取非语音段在终端能够检测的全部频段上的第二音频特征。

在一些实施例中,如图2所示,在所述确定所述待检测音频是否属于目标音频之前,所述方法还包括:

步骤s201、根据预定音频数据中的语音数据,训练得到所述语音段检测模型;

步骤s202、根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型。

在本公开实施例中,上述语音段检测模型与非语音段检测模型可以利用预定音频数据训练得到。在训练的过程中,可以将预定音频数据先划分为语音数据和非语音数据,例如,通过上述vad的方法将预定音频数据划分为语音数据和非语音数据。

这里,预定音频数据可以为录音重放数据,也可以为真实人声语音。也就是说,上述检测模型是通过与上述检测过程相对应的分类后的音频训练得到,因此更加符合待检测音频的音频特点,从而在检测时可以得到更加准确的结果。

在一些实施例中,所述预定音频数据包括:预定真实音数据和预定攻击音数据;所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;所述根据预定音频数据中的语音数据,训练得到所述语音段检测模型,包括:

根据所述预定真实音数据中的语音数据,训练得到第一真实音模型;

根据所述预定攻击音数据中的语音数据,训练得到第一攻击音模型;

所述根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型,包括:

根据所述预定真实音数据中的非语音数据,训练得到第二真实音模型;

根据所述预定攻击音数据中的非语音数据,训练得到第二攻击音模型。

这里,上述训练模型的过程中所使用的音频数据可以包括预定攻击音模型,例如录音重放数据和以及预定真实音数据,例如真实人声语音,通过不同的数据可以分别训练得到符合真实人声的模型以及攻击模型。

因此,在本公开实施例中,通过上述不同音频数据分别对语音段和非语音段数据进行训练,从而得到四个不同的模型,即第一真实音模型、第一攻击音模型、第二真实音模型以及第二攻击音模型。

在训练模型的过程中,可以根据预定真实音数据与预定攻击音数据分别获取语音段和非语音段,并进行特征提取,根据提取的特征分别进行模型训练。

示例性地,在利用预定真实音数据进行模型训练时,也可根据采集音频的麦克风通道数确定利用cmvn处理或直接采集音频特征。例如,当采集通道的数量大于或等于2时,通过cmvn处理并采集语音段和非语音段的音频特征cqcc及imfcc等。并将采集的特征作为上述第一真实音模型或者第二真实音模型的训练数据。

在利用预定攻击音数据进行模型训练时,可采集语音段和非语音段的音频特征cqcc及imfcc等,并将采集的特征作为上述第一攻击音模型或者第二攻击音模型的训练数据。

在进行检测时,可以将待检测音频划分为语音段和非语音段,然后将语音段的音频数据特征分别输入至上述第一真实音模型以及第一攻击音模型,从而分别得到该语音段属于真实音的概率得分以及属于攻击音的概率得分。将非语音段的音频数据特征分别输入至第二真实音模型以及第二攻击音模型,从而分别得到该非语音段属于真实音的概率得分以及属于攻击音的概率得分。

得到上述四组得分后,可以根据四组得分的状况综合判断待检测语音属于真实音的可能性;也可以通过预定的权重对上述四组得分进行加权平均,得到最终得分,并根据最终得分判断待检测语音属于真实音的可能性。

本公开实施例还提供如下示例:

声纹识别技术与人脸识别技术一样,需要进行活体检测,声音需要区分是真实的人声还是假冒的声音。攻击声纹身份系统的方式主要有:①波形拼接攻击;②录音重放攻击;③语音合成攻击;④语音转换攻击;⑤语音模仿攻击。其中,录音攻击是相对容易执行且难以检测的,不需要任何专业知识或专用硬件,只需要一部手机,攻击者只需录制目标说话人的语音进行播放,以目标人身份试图通过声纹识别系统的认证。

录音攻击中难以预测的变化:一般是指录制和播放引入的与真实语音相互交织与其他无关紧要的可变性来源,包括:录音和重放设备本身、环境噪声、说话内容以及说话者的语音身份等。

在一实施例中,使用非语音段检测录音重放攻击,直接使用采集到的全部语音,不做话音活动检测,因为非语音段也包含了录音和重放设备的信道信息,甚至不包含语音,更容易检测,但检测精度较低。

在另一实施例中,如图3所示,使用vad提取英文数据集中的非语音段,包括静音段和清音段,针对非语音段分别提取cqcc、mfcc(mel-frequencycepstralcoefficients,梅尔倒谱系数)以及mfs(mel-filterbank-slope,梅尔滤波斜率)等特征,分别使用gmm(gaussianmixturemodel,高斯混合模型)分别做分类,最后使用投票表决给出最后的分类结果。例如,只使用非语音英文中的清音和静音段来做录音重放攻击检测,结果eer(equalerrorrate,等错误率)相比使用整句话来做检测可以提升37%左右,但是有的待检测音频包含的清音和静音段持续时长不超过50%,导致该方法在短清音和静音的音频上表现不佳。语音可能全部是语音段,不包含非语音段或者非语音段时间很短,这种方法就会失效。

在一实施例中,声纹给定的文本是随机动态的内容,以此来防止录音攻击,比如,指示用户复述:预定标志词+4位随机动态数字。如图4所示,终端指示用户朗读指定次数(如5次)预定的语音文本;在进行验证时,终端给出提示文本,例如提示用户朗读上述预定的语音文本并朗读给出的随机数字;根据用户输入的语音信息,判断身份检测是否通过。但这种方式需要用户说出指定文本,文本每隔几秒刷新一次,增加记忆负担。

然而,通过上述方式没有采用技术手段防止重放攻击,只是在验证时更新动态文本并需要用户附属,即验证声纹身份时需要更复杂的步骤。

因此,本公开实施例提出的方法可以用于文本相关或者文本无关的声纹验证场景,充分利用语音和非语音的声学特征,增强声纹系统的鲁棒性。

因此,本公开实施例提出一种针对待检测语音,对非语音段和语音段的不同特性,分别提取不同的特征,然后用分类器做分类,对于两类分类器的结果做得分校准,改善最后的识别效果。

如图5a所示,本公开实施例提供如下音频检测方法,包括以下步骤:

1)特征处理:

①vad:

a.对获取的语音数据首先进行vad,识别待检测语音信号的静音段和非静音段,在本实例中使用基于信号能量的vad;

b.普通vad无法识别高能量的清音段和静音段,因此采用基于hmm的音素对齐方法进行进一步的检测。具体来说,训练得到hmm声学模型,然后对数据集所有数据进行蒙特利尔强制对齐,得到具有清晰音素标签的对齐帧。

c.取vad的静音段和hmm对齐的静音和清音检测结果的并集作为最终的非语音段,其余帧作为语音段。

②特征提取:对所有的非语音帧提取声学特征fea1,语音帧提取特征fea2。

如果是文本无关任务(即训练语音文本内容与测试语音不一致),针对语音帧数据,只取高频段的区域的特征,因为大多数的文本信息存在于低频段,只提取高频段的语音特征可以有效的降低文本的影响,本实例中,针对语音帧提取6k-8khz频段的cqcc特征high_cqcc,即fea2=high_cqcc;

如果是文本相关任务(即训练语音文本内容与测试语音保持一致),针对语音帧数据,提取全频段的特征,本实例中以cqcc(8000/2^9~8000hz)作为语音帧的全频段特征,即fea2=cqcc。

无论是文本相关还是文本无关的任务,针对非语音帧数据,都提取全频段的特征,因为无论是低频还是高频都包含录音重放信息,只是高频段包含更多的信息,所以本实例中使用的是逆梅尔倒谱系数,可以覆盖从低到高的全部频段,同时在高频段分辨率高,低频段分辨率低,即fea1=imfcc。

③倒谱均值方差归一化方法cmvn;

cmvn的作用是减少信道效应和加性噪声干扰,从理论上讲,cmvn有害于检测重放攻击的任务。

但是针对不同的数据集,cmvn表现不同,在本实例中分为以下两种情况:

第一种数据集:真实语音数据集通过n(n>=2)种麦克风通道采集:对特征执行cmvn操作;

第二种数据集:真实语音数据集通过n(n=1)种麦克风通道采集:特征不执行cmvn操作;

针对不同数据集和在不同任务上,使用的特征如下表1所示:

表1

2)模型训练:

上述几种数据集对应的特征分别输入至对应的模型,模型的训练过程则如图5b所示,上述使用训练集的真实语音的语音帧和非语音帧训练模型,得到真实语音的非语音帧模型gmmsil_gen和语音帧模型gmmvoice_gen,同理,使用训练集的重放语音的语音帧和非语音帧训练模型,得到假冒语音的非语音模型gmmsil_spo和语音帧模型gmmvoice_spo。

3)打分校准:

①针对测试集语音,针对非语音帧和语音帧,分别使用model_sil和model_voice进行打分得到score_sil和score_voice;

②整理语音段和非语音段在不同模型上的所有得分,使用一种开源的说话人得分校准方法对语音段和非语音段的最终得分进行融合和校准。该方法主要通过线性变换优化两个模型的对数似然比分数,从而改善eer结果。

本公开实施例的上述方案,支持本文无关和文本相关任务的声纹身份验证系统的录音重放攻击检测;

分别提取非语音帧和语音帧数据的不同特征,然后使用得分校准的方式改善声纹识别的鲁棒性,对比针对完整一句话提取一个特征的识别效果,有明显改善。

③以下为实验结果,使用asvspoof2017-v2(自动说话人识别欺骗攻击与防御对策挑战赛)数据(第二种数据集,文本相关任务),只使用训练集训练gmm,结果指标为eer表2对整句语音进行gmm建模,基于不同特征下的eer结果,表3是分别对语音段和非语音段提取特征并进行gmm建模,进行得分校准后的eer结果,在验证集上达到了最好的结果,eer=16.10%。

表2

表3

图6是根据一示例性实施例示出的一种音频检测装置的结构框图,如图6所示,所述装置600包括:

第一获取模块601,用于获取待检测音频中的语音段和非语音段;

提取模块602,用于提取所述语音段的第一音频特征和所述非语音段的第二音频特征;

第一检测模块603,用于利用预定的语音段检测模型对所述第一音频特征进行检测,得到第一检测得分;

第二检测模块604,用于利用预定的非语音段检测模型对所述第二音频特征进行检测,得到第二检测得分;

第一确定模块605,用于根据所述第一检测得分和所述第二检测得分,确定所述待检测音频是否属于目标音频。

在一些实施例中,所述第一获取模块,包括:

第一识别子模块,用于利用第一识别方法,识别所述待检测音频中的第一静音段;

第二识别子模块,用于利用第二识别方法,识别所述待检测音频中的清音段和第二静音段;

第一确定子模块,用于确定所述清音段、所述第一静音段与所述第二静音段的并集为所述非语音段;

第二确定子模块,用于确定所述待检测音频中所述非语音段以外的音频段为所述语音段。

在一些实施例中,所述第一识别子模块,具体用于:

利用vad,对所述待检测音频进行能量检测;

确定所述待检测音频中能量小于预定阈值的音频段为所述第一静音段。

在一些实施例中,所述第二识别子模块,具体用于:

通过hmm生成所述待检测音频的音素数据集;

利用mfa方法,对所述音频数据集进行音素对齐;

获取音素对齐后的所述音频数据集中的所述清音段和所述第二静音段。

在一些实施例中,所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述第一检测模块,包括:

第一检测子模块,用于利用所述第一真实音模型对所述第一音频特征进行检测,得到第一真实音得分;

第二检测子模块,用于利用所述第一攻击音模型对所述第一音频特征进行检测,得到第一攻击音得分;

第三确定子模块,用于根据所述第一真实音得分和所述第一攻击音得分,确定所述第一检测得分。

在一些实施例中,所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;所述第二检测模块,包括:

第三检测子模块,用于利用所述第二真实音模型对所述第二音频特征进行检测,得到第二真实音得分;

第四检测子模块,用于利用所述第二攻击音模型对所述第二音频特征进行检测,得到第二攻击音得分;

第四确定子模块,用于根据所述第二真实音得分和所述第二攻击音得分,确定所述第二检测得分。

在一些实施例中,所述提取模块,包括:

第二获取模块,用于获取所述待检测音频的采集通道数量;

第一提取子模块,若所述采集通道数量满足预设数量条件,则用于采用cmvn方法提取所述语音段的所述第一音频特征;

第二提取子模块,若所述采集通道数量满足预设数量条件,则用于采用cmvn方法提取所述非语音段的所述第二音频特征。

在一些实施例中,所述提取模块,包括:

第五确定子模块,用于根据所述待检测音频与预定语音内容的相关度,确定所述第一音频特征的提取频段;

第三提取子模块,用于提取所述语音段在所述提取频段的所述第一音频特征;

第四提取子模块,用于提取所述非语音段的第二音频特征。

在一些实施例中,所述装置还包括:

第一训练模块,用于根据预定音频数据中的语音数据,训练得到所述语音段检测模型;

第二训练模块,用于根据所述预定音频数据中的非语音数据,训练得到所述非语音段检测模型。

在一些实施例中,所述预定音频数据包括:预定真实音数据和预定攻击音数据;所述语音段检测模型包括:第一真实音模型和第一攻击音模型;所述非语音段检测模型包括:第二真实音模型和第二攻击音模型;

所述第一训练模块,具体用于:

根据所述预定真实音数据中的语音数据,训练得到第一真实音模型;

根据所述预定攻击音数据中的语音数据,训练得到第一攻击音模型;

所述第二训练模型,具体用于:

根据所述预定真实音数据中的非语音数据,训练得到第二真实音模型;

根据所述预定攻击音数据中的非语音数据,训练得到第二攻击音模型。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种装置700的框图。例如,装置700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7,装置700可以包括以下一个或多个组件:处理组件701,存储器702,电源组件703,多媒体组件704,音频组件705,输入/输出(i/o)接口706,传感器组件707,以及通信组件708。

处理组件701通常控制装置700的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件701可以包括一个或多个处理器710来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件701还可以包括一个或多个模块,便于处理组件701和其他组件之间的交互。例如,处理组件701可以包括多媒体模块,以方便多媒体组件704和处理组件701之间的交互。

存储器710被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘或光盘。

电源组件703为装置700的各种组件提供电力。电源组件703可以包括:电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件704包括在所述装置700和用户之间提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件704包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件705被配置为输出和/或输入音频信号。例如,音频组件705包括一个麦克风(mic),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件708发送。在一些实施例中,音频组件705还包括一个扬声器,用于输出音频信号。

i/o接口706为处理组件701和外围接口模块之间提供接口,上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件707包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件707可以检测到装置700的打开/关闭状态、组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件707还可以检测装置700或装置700的一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件707可以包括接近传感器,被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件707还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件707还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件708被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如wifi、2g或3g,或它们的组合。在一个示例性实施例中,通信组件708经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件708还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术或其他技术来实现。

在示例性实施例中,装置700可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器702,上述指令可由装置700的处理器710执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述任一实施例所提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1