说话人验证方法、电子设备及存储介质与流程

文档序号:26544900发布日期:2021-09-07 23:09阅读:207来源:国知局
说话人验证方法、电子设备及存储介质与流程

1.本发明涉及人工智能技术领域,尤其涉及一种说话人验证方法、电子设备及存储介质。


背景技术:

2.随着深度学习的发展,说话人验证系统得到了很大的改进。现有技术中提出了不同的体系结构,不同的损耗和不同的训练策略,以提高在不同条件下的系统性能。然而,当说话人验证系统应用于中仍然存在一些尚未解决的挑战,例如,音频时间短和跨语言问题。


技术实现要素:

3.本发明实施例提供一种说话人验证方法、电子设备及存储介质,用于至少解决上述技术问题之一。
4.第一方面,本发明实施例提供一种说话人验证方法,包括:
5.对训练样本集中的训练数据进行预处理;
6.基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练;
7.采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征;
8.基于所述说话人嵌入特征完成说话人验证。
9.在一些实施例中,所述训练样本集中包括训练数据和测试数据,所述对训练样本集中的训练数据进行预处理,包括:将所述训练数据和所述测试数据分割为预设长度的音频片段。
10.在一些实施例中,所述对训练样本集中的训练数据进行预处理还包括:对所述训练样本集中的训练数据进行在线数据增强处理。
11.在一些实施例中,所述方法还包括:采用文本无关数据预先训练得到说话人嵌入提取器。
12.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:
13.采用多任务方式对所述说话人嵌入提取器进行说话人分类和短语分类以完成对微调处理。
14.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:采用说话人分类和短语分类的联合标签对所述预训练之后的说话人嵌入提取器进行微调处理。
15.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:
16.对预训练之后的说话人嵌入提取器进行可感知短语的多头训练和可感知短语的
对比训练。
17.第二方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项说话人验证方法。
18.第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项说话人验证方法。
19.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项说话人验证方法。
20.本发明实施例通过对训练样本集中的训练数据进行预处理;基于预处理之后的训练样本对预先训练得到的说话人嵌入提取器进行微调训练;采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征;基于所述说话人嵌入特征完成说话人验证,提升了对说话人验证的性能。
附图说明
21.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本发明的说话人验证方法的一实施例的流程图;
23.图2为本发明的说话人验证方法的另一实施例的流程图;
24.图3a为本发明中对说话人嵌入提取器进行微调的一实施例的示意图;
25.图3b为本发明中对说话人嵌入提取器进行微调另的一实施例的示意图;
26.图4a为本发明中对说话人嵌入提取器进行微调的另一实施例的示意图;
27.图4b为本发明中对说话人嵌入提取器进行微调的另一实施例的示意图;
28.图5为本发明的电子设备的一实施例的结构示意图。
具体实施方式
29.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
31.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以
位于包括存储设备在内的本地和远程计算机存储介质中。
32.在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
33.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
34.如图1(图片需要更改)所示,本发明的实施例提供一种说话人验证方法,包括:
35.s10、对训练样本集中的训练数据进行预处理;
36.s20、基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练;示例性地,说话人嵌入提取器是基于大规模文本无关数据预训练得到的。
37.s30、采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征。
38.s40、基于所述说话人嵌入特征完成说话人验证。
39.本发明实施例通过对训练样本集中的训练数据进行预处理;基于预处理之后的训练样本对大规模文本无关数据预训练得到的说话人嵌入提取器进行基于文本信息的微调训练;采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征;基于所述说话人嵌入特征完成说话人验证,提升了对说话人验证的性能。
40.在一些实施例中,所述训练样本集中包括训练数据和测试数据,所述对训练样本集中的训练数据进行预处理,包括:将所述训练数据和所述测试数据分割为预设长度的音频片段。
41.在一些实施例中,所述对训练样本集中的训练数据进行预处理还包括:对所述训练样本集中的训练数据进行在线数据增强处理。
42.在一些实施例中,所述方法还包括:采用文本无关数据预先训练得到说话人嵌入提取器。
43.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:采用多任务方式对所述说话人嵌入提取器进行说话人分类和短语分类以完成对微调处理。示例性地,利用2个分类器,1个用来进行说话人分类,一个用来进行文本分类。
44.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提
取器进行基于文本信息的微调训练,包括:采用说话人分类和短语分类的联合标签对所述预训练之后的说话人嵌入提取器进行微调处理。示例性地,采用1个分类器,对“说话人x文本”联合标签进行分类。
45.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:对预训练之后的说话人嵌入提取器进行可感知短语的多头训练和可感知短语的对比训练。示例性地,可以利用10个分类器,分别对不同文本的语句进行说话人分类。或者加入对比学习的策略,拉近相同文本相同说话人的相似度,降低相同文本不同说话人的相似度。
46.如图2所示,本发明的实施例提供一种说话人验证系统,包括:
47.数据预处理程序模块10,用于对训练样本集中的训练数据进行预处理;
48.提取器预训练程序模块20,用于基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练;
49.特征提取程序模块30,用于采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征;
50.验证程序模块40,用于基于所述说话人嵌入特征完成说话人验证。
51.本发明实施例通过对训练样本集中的训练数据进行预处理;基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练;采用微调训练得到的说话人嵌入提取器对待验证说话人音频进行处理得到说话人嵌入特征;基于所述说话人嵌入特征完成说话人验证,提升了对说话人验证的性能。
52.在一些实施例中,所述训练样本集中包括训练数据和测试数据,所述对训练样本集中的训练数据进行预处理,包括:将所述训练数据和所述测试数据分割为预设长度的音频片段。
53.在一些实施例中,所述对训练样本集中的训练数据进行预处理还包括:对所述训练样本集中的训练数据进行在线数据增强处理。
54.在一些实施例中,所述系统还用于:采用文本无关数据预先训练得到说话人嵌入提取器。
55.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:采用多任务方式对所述说话人嵌入提取器进行说话人分类和短语分类以完成对微调处理。示例性地,利用2个分类器,1个用来进行说话人分类,一个用来进行文本分类。
56.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:采用说话人分类和短语分类的联合标签对所述预训练之后的说话人嵌入提取器进行微调处理。示例性地,采用1个分类器,对“说话人x文本”联合标签进行分类。
57.在一些实施例中,所述基于预处理之后的训练样本对预训练得到的说话人嵌入提取器进行基于文本信息的微调训练,包括:对预训练之后的说话人嵌入提取器进行可感知短语的多头训练和可感知短语的对比训练。示例性地,可以利用10个分类器,分别对不同文本的语句进行说话人分类。或者加入对比学习的策略,拉近相同文本相同说话人的相似度,降低相同文本不同说话人的相似度。
58.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
59.为更加清楚的介绍本发明的技术方案,也为更直接地证明本发明的可实时性以及相对于现有技术的有益性,以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。
60.摘要:本文介绍了我们提交给短时说话人验证(sdsv,short

duration speaker verification)挑战2021的用于文本相关和文本无关说话人验证系统。在这个挑战中,我们探索了不同的嵌入提取器来提取鲁棒的说话人嵌入的效果。对于与文本无关的任务,我们采用了自适应分数正则从而提高跨语言验证条件下的系统性能。对于与文本相关的任务,我们主要关注大规模域外数据预训练的模型的在域内数据上进行微调的策略。为了提高说同一短语的不同说话人之间的区别,我们提出了几种新颖的利用文本信息的微调策略和神经网络概率线性判别分析。通过以上几种训练策略,系统性能得以进一步提高。最后,我们融合了基于不同训练策略系统的分数得到了融合系统,并且在任务1中评测指标达到0.0473,任务2中则达到0.0581。
61.1、介绍
62.在本发明中,sdsv挑战2021包括两个任务。任务1是与文本相关的任务,说话人验证系统应同时验证测试说话人的身份和口语短语。任务2是与文本无关的任务,系统应仅考虑说话人身份。特别是,sdsv挑战引入了一种新的挑战性验证条件,即task2的跨语言验证,其中一位发言者可以在注册和测试阶段说不同的语言。
63.sdsv 2021是sdsv系列的第二个挑战,在最后一个挑战中提出了许多竞争性系统。对于最后一个挑战中与文本无关的任务,jenthe等人。提出了一种新的数据挖掘策略hpm并引入了自适应呼吸,以提高系统的跨语言验证的鲁棒性。peng等。引入了贪婪融合算法以进一步提高融合系统的性能。此外,团队主要专注于文本相关任务的后端优化。
64.在这一挑战中,我们首先探索了性能良好的不同网络结构,并对所有可用数据进行了训练。然后,我们重点研究域内数据微调策略,以进一步提高系统性能。为了解决独立于文本的任务中的跨语言验证问题,我们训练了另一种语言识别网络,将语言信息引入自适应分数正则过程。对于依赖文本的任务,我们实施了不同的方法来增加目标试验和不同的非目标验证对之间的区别。我们使用asr系统在测试阶段对说话人短语进行分类,并直接过滤掉短语不匹配(说话人说出错误的验证短语)验证对。为了更好地区分讲同一短语的不同说话人,我们提出了几种新颖的相位感知微调策略和短语感知神经网络概率线性判别分析。基于这样的训练策略,我们系统的性能将进一步提高。
65.本文的其余部分安排如下:第2节介绍了此挑战中使用的数据集。第3节介绍了我们的嵌入提取器网络结构和提出的微调策略。实验结果和相应的分析在第4节中给出。最后,在第5节中得出结论。
66.2、数据集
67.sdsv挑战赛限制了训练条件,该系统仅能使用指定的数据集来进行训练。sdsv挑战的主要训练和评估数据是在伊朗的真实环境中录制的“deepmine”数据集。该数据集的采集协议的目的就是为了在录制过程中加入各种真实的噪声。数据集的主要语言是波斯语,而大多数参与者也参加了英语分区。
68.·
任务1域内数据:该数据集可以用于构建与文本相关的说话人验证系统。它包含来自963个不同说话人的101k条语音。所有话语的内容是固定的,包括五个波斯语短语和五个英语短语。
69.·
任务2域内数据:对话语内容没有限制的数据集。它包含从588个说话人中收集的125k条语音,而其中一些说话人只有波斯语短语。
70.除了域内训练数据外,其他允许在训练过程中使用的开放数据集如下所述:
71.voxceleb:voxceleb 1&2包含来自7245名说话人的超过一百万条音频,这些话语是从上传到youtube的视频中收集的。
72.librispeech:一个数据集,包含来自2338位说话人的281k条语音。它来自有声读物,大部分语言是美国英语。
73.common voice farsi:这是一种由多种语言组成的转录语音集合。在此挑战中仅使用了波斯语的一部分。
74.2.2、评估
75.任务1&2的评估数据都是deepmind域内数据的一部分。
76.·
在任务1中,每个验证对都包括一个测试段以及一个模型标识符,该模型标识符指示三条注册音频和在这些发音中说出的短语id。这些试验可以分为tc,tw,ic和iw四种基本类型。依赖文本的说话人验证系统应接受tc验证对,并拒绝其他三种类型的冒用验证对。
77.·
在任务2中,注册数据由一到几种波斯语可变长度话语组成,而测试话语可能来自其他语言(英语)。对于此任务,如果注册和测试的话语均来自同一说话人,且系统不考虑语言不匹配,则系统应接受试用。
78.sdsv采用的主要指标是归一化最小检测代价(mindcf),该函数定义为虚假警报和未命中概率的加权总和。
79.3、方法
80.在本节中,我们将介绍系统中使用的嵌入提取器,微调策略和几种后处理方法。在我们的实验中,首先以独立于文本的方式对嵌入提取器进行关于task1和task2的所有可用数据的训练。然后,我们使用域内数据微调预训练的模型。最后,使用后处理方法可以进一步提高系统性能。
81.3.1、说话人嵌入提取器
82.为了构建用于sdsv挑战的健壮的说话人验证系统,所有数据集(包括voxceleb,common voice farsi,librispeech和deepmind领域内数据)都经过组合,以训练说话人嵌入提取器。为了减少训练数据与测试数据之间的持续时间不匹配,在训练阶段,所有发声都随机分为2秒的片段。我们使用的声学特征是40维fbank,帧长为25ms,移位为10ms。为了增加训练数据的数量和多样性,我们在训练过程中应用在线数据增强。来自musan语料库的加性噪声和rir的脉冲响应被用于增强。
83.在我们的系统中,我们主要采用三种不同的说话人验证架构,包括resnet34,
ecapatdnn和dpn68。
84.resnet34:resnet凭借其对复杂数据结构的高效建模,在说话人验证方面取得了卓越的性能。我们使用现有技术中介绍的resnet34作为基于resnet的网络结构。在这种网络结构中,输入特征由初始卷积层和4个残差块处理,然后下一个统计池层将帧级特征聚合为段级表示形式。最终,一个256维的全连接层将其转换为一个固定的矢量来表示说话人。
85.ecapa

tdnn:ecapa

tdnn在说话人验证系统中取得了非常好的效果,并已用于voxsrc2020获奖系统。在实验中,我们将ecapa

tdnn的通道数设置为1024。带有和不带有全局上下文的通道注意力的都被尝试了,我们分别将相应的架构表示为ecapa和ecapa

glob。
86.dpn68:dpn(双路径网络)首先在现有技术中的说话人验证任务中应用,它同时利用了resnet和densenet的优势。在这里,我们将dpn68架构用作我们系统中的嵌入提取器之一。
87.加性角余量softmax损失(aam)用于优化所有嵌入提取器。比例参数和aam损失间隔分别设置为32和0.2。每个模型我们都会训练165个epoch,并且在训练过程中学习率从0.1指数下降到1e

5。
88.3.2、域内微调
89.在本节中,我们将基于上一节中介绍的预训练模型介绍我们的微调策略,以进一步提高域内评估集上的系统性能。
90.3.2.1、任务1的文本相关模式微调
91.为了将短语信息编码为说话人嵌入,并进一步扩大说同一短语的不同说话人的距离,我们针对任务1以文本相关的方式微调嵌入提取器。策略介绍如下:
92.说话人+短语:如图所示。如图3a所示,在微调阶段,有两个单独的头用于说话人和短语分类,我们以多任务方式微调训练嵌入提取器。
93.说话人
×
短语:同一说话人说的不同短语中的语音被认为是不同的类别。如图3b所示,只有一个分类头,但同时考虑了说话人和短语信息。
94.由于短语的分类需要句子的所有信息,因此在训练过程中不会对输入进行分块,并且将同一批中的可变长度输入零填充为相同长度。
95.3.2.2、task1和task2的文本无关模式微调
96.在我们的实验中,可以通过第3.3.3节中介绍的asr系统过滤掉task1中的短语不匹配验证对(iw和tw)。因此,该模型仅需要验证两段音频的说话人身份,所以task1也可以视为文本无关的任务。对于任务1和任务2的常规微调方法,我们使用aam softmax优化域内数据的预训练模型。
97.尤其是对于任务1,为了增强模型在相同短语的情况下区分说话人的能力,我们提出了两种可感知短语的文本无关的微调策略,包括可感知短语的多头训练(pmt)和可感知短语的对比训练(pct)。
98.pmt:对于任务1,所有短语都是从一组固定的10个短语中提取的,这些短语由5个波斯语和5个英语短语组成。如图4a所示,不同的说话人分类头用于不同短语的发声,通过这种训练策略,可以扩大同一短语中不同说话人之间的距离。
99.pct:如图4b所示,在这种微调策略中,我们引入了可以与aam softmax损失共同优化的对比学习损失。在我们的实验中,采用广义的端到端损失来计算对比损失,我们在训练
批次中为每个说话人采样了两种话语。为了改善不同说话人说同一短语的区别,我们限制同一批中的所有话语都来自同一短语。
100.3.3、后期处理
101.3.3.1、语言的自适应分数正则
102.任务2最困难的是跨语言验证。为了使不同话语之间的语言不匹配程度最小化,我们将语言信息引入到自适应分数正则化(as

norm)中,该公式由等式1定义。每个注册模型的同类群组由注册模型和测试话语的语言,其中同类群组的语言与测试话语的语言相同。为了检测测试语音的语言,在任务2的域内数据上训练了基于tdnn的语言标识。
[0103][0104]
3.3.2、短语感知神经plda
[0105]
神经plda(nplda)已成功应用于2020年sdsv挑战赛的nict系统。为了增强nplda的在文本相关任务上的效果,我们将nplda的输入对约束在同一个短语内,以提高同一短语中不同说话人的区分能力短语。我们的nplda是通过在task2域内数据上训练的短语相关plda模型初始化的,除学习率=5e

5和训练轮数=5之外,其他参数的设置与默认配置相同。
[0106]
3.3.3、asr系统
[0107]
对于与文本相关的任务1,训练了一个asr系统以过滤来自不同短语的注册和测试话语的试验。我们使用了espnet librispeech基于conformer的联合ctc注意自动语音识别模型(asr)。首先在librispeech数据集上训练asr系统,然后在task1域内数据上对其进行微调。在评估过程中,我们使用asr系统识别这些短语,并根据其与参考文献的levenshtein编辑距离对每个语音段进行文本内容分类。根据asr生成的词组标签,我们通过将得分设置为非常低的值来直接过滤掉iw和tw验证对。请注意,实验中提供的task1的所有结果均基于此asr系统进行了修改。
[0108]
4、实验
[0109]
4.1、任务1:文本相关的说话人验证
[0110]
4.1.1、预训练模型
[0111]
首先在所有可用数据集上对第3.1节中介绍的所有嵌入提取器进行预训练,并将相应结果列在表1中。从结果中可以看出,使用余弦相似性度量的resnet34获得最佳性能。与基于ecapa

tdnn的模型相比,dpn68还具有更好的性能,但比resnet34差。此外,在大多数情况下,余弦评分方法的性能优于plda,我们以下部分中仅提供余弦结果以供分析。
[0112]
表1:任务1的预训练模型的结果比较
[0113][0114]
4.1.2、域内微调
[0115]
文本相关模式:表2说明了3.2.1中引入的不同文本相关模式微调策略的比较。从基于resnet34的实验结果可以看出,微调将改善与文本相关的任务。尤其是,“说话人+短语”在这些结果中表现最佳。
[0116]
表2:任务1的文本相关模式微调
[0117][0118]
表3:任务2的主要结果。使用aam softmax对任务2的域内数据进行微调。
[0119][0120]
与文本无关的模式:本节对我们提出的与文本无关的模式的词组感知微调策略进行了研究,结果如表4所示。很明显,所有微调系统的性能均优于预训练模型。在此表中,我们还列出了针对所有模型的pct(短语感知的对比训练)和pmt(短语感知的多头训练)的微调结果。与常规的域内数据微调方法相比,pct和pmt都在eer和mindcf方面均实现了出色的性能改进。此外,采用pct策略的resnet34在所有模型中均表现最佳。
[0121]
表4:任务1的与文本无关的短语感知微调在任务1上也进行了不带pct和pmt的常规微调,以进行比较,其中以文本无关模式使用aam softmax训练域内数据。
[0122][0123]
4.1.3、短语感知神经plda
[0124]
如表1所示,与余弦相似度相比,plda无法提供令人满意的性能。为了进一步提高融合系统的性能,我们还训练了第3.3.2节中介绍的nplda,以改善可在最终融合系统中使用的plda的结果。我们基于pct策略进行了微调的模型进行了调查,该模型在第4.1.2节中
获得了最佳结果,相应的nplda结果见表5在mindcf上,可与余弦后端结果相媲美。
[0125]
表5:nplda任务1的结果
[0126][0127]
4.2、任务2:与文本无关的说话人验证
[0128]
表2中列出了task2的主要结果。在task2中,所有嵌入提取器也都首先在所有可用数据集上进行了预训练,然后在域内数据上进行了微调。根据结果,我们可以看到dpn68在所有模型中均达到了最佳结果。此外,与预先训练的模型相比,使用域内数据进行微调可以显着提高性能。此外,我们还对asnorm进行了实验。使用asnorm的dpn68取得最好的mindcf,0.0752。
[0129]
4.3、融合结果
[0130]
表6:dev和eval集上的融合结果
[0131][0132]
最后,对来自所有系统(包括不同模型,后端和微调策略)的分数进行加权求和,以获得融合系统,然后我们使用开发集进行融合权重调整。融合系统对开发集和评估集的结果如表6所示。从表中可以看出,融合系统可以进一步提高性能。我们的主要论文是由融合系统产生的,在mindcf上,task1(排名3)达到0.0473,task2(排名8)达到0.0581。
[0133]
5、结论
[0134]
在本文中,我们详细介绍了我们提交到sdsv challenge 2021的任务1和2的系统。我们在实验中探索了几种强大的嵌入提取器。对于与文本无关的任务,使用了语言标识符用于将语言信息引入asnorm。对于文本相关任务,我们使用asr系统过滤iw和tw验证对。我们提出了几种基于文本信息的微调策略和后处理方法,以增强模型验证相同词组的不同说话人的能力。基于这些强大的系统,我们的最终融合系统在task1和task2上分别获得了第三和第八名。
[0135]
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项说话人验证方法。
[0136]
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指
令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项说话人验证方法。
[0137]
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行说话人验证方法。
[0138]
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现说话人验证方法。
[0139]
图5是本技术另一实施例提供的执行说话人验证方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
[0140]
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
[0141]
执行说话人验证方法的设备还可以包括:输入装置530和输出装置540。
[0142]
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
[0143]
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的说话人验证方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例说话人验证方法。
[0144]
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据说话人验证装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至说话人验证装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0145]
输入装置530可接收输入的数字或字符信息,以及产生与说话人验证装置的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
[0146]
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的说话人验证方法。
[0147]
上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
[0148]
本技术实施例的电子设备以多种形式存在,包括但不限于:
[0149]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0150]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
[0151]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0152]
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0153]
(5)其他具有数据交互功能的电子装置。
[0154]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0155]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0156]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1