1.一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述方法包括训练阶段和转换阶段,
2.根据权利要求1所述的基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述训练阶段包括以下步骤,
3.根据权利要求1所述的基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述转换阶段包含以下步骤:
4.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.2)中,使用从wavlm-large的第6层提取的特征,该特征为每20ms的16khz音频生成一个向量,根据当前音频文件的说话人,从相同说话人的其他音频文件中构建匹配池和合成池,并且使用快速余弦距离计算方法,评估当前音频特征与匹配池中特征的相似性,最后选择最匹配的特征,并将其合成为最终的特征表示。
5.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.3)中,所述的wav2vec2-large-robust-12-ft-emotion-msp-dim模型是基于wav2vec2.0框架的变种,通过大量的未标注语音数据进行预训练,并在标注数据上进行微调,以提升情感识别任务的性能,通过该预训练模型来提取情感特征,其提取过程包括以下步骤:
6.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.5)中采用hifigan-v1声码器来训练,并且以自监督特征和情绪特征作为输入。
7.根据权利要求3所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(2.2)匿名池的构建和伪说话人的生成是匿名化过程中的关键步骤,其构建过程包括以下步骤:
8.根据权利要求6所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征于:在语音合成阶段,除了利用语音和情绪特征的融合输入外,还对损失函数进行了调整,将生成的语音输入到一个情绪特征提取器中,这是一个被设计用来捕捉输入的情绪特征的网络,以获得情绪特征,将合成的语音情绪向量与原始语音的情绪向量进行了比较,从而迫使模型在对输入的反应中产生相同的情绪,所采用的损失函数的结构如下:
9.根据权利要求7所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:构建匿名池的说话人数量n=30,随机选择m=4个说话人来提供语音嵌入。