一种基于情感迁移和特征插值的说话人匿名化方法

文档序号:40486605发布日期:2024-12-31 12:54阅读:来源:国知局

技术特征:

1.一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述方法包括训练阶段和转换阶段,

2.根据权利要求1所述的基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述训练阶段包括以下步骤,

3.根据权利要求1所述的基于情感迁移和特征插值的说话人匿名化方法,其特征在于,所述转换阶段包含以下步骤:

4.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.2)中,使用从wavlm-large的第6层提取的特征,该特征为每20ms的16khz音频生成一个向量,根据当前音频文件的说话人,从相同说话人的其他音频文件中构建匹配池和合成池,并且使用快速余弦距离计算方法,评估当前音频特征与匹配池中特征的相似性,最后选择最匹配的特征,并将其合成为最终的特征表示。

5.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.3)中,所述的wav2vec2-large-robust-12-ft-emotion-msp-dim模型是基于wav2vec2.0框架的变种,通过大量的未标注语音数据进行预训练,并在标注数据上进行微调,以提升情感识别任务的性能,通过该预训练模型来提取情感特征,其提取过程包括以下步骤:

6.根据权利要求2所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(1.5)中采用hifigan-v1声码器来训练,并且以自监督特征和情绪特征作为输入。

7.根据权利要求3所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:步骤(2.2)匿名池的构建和伪说话人的生成是匿名化过程中的关键步骤,其构建过程包括以下步骤:

8.根据权利要求6所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征于:在语音合成阶段,除了利用语音和情绪特征的融合输入外,还对损失函数进行了调整,将生成的语音输入到一个情绪特征提取器中,这是一个被设计用来捕捉输入的情绪特征的网络,以获得情绪特征,将合成的语音情绪向量与原始语音的情绪向量进行了比较,从而迫使模型在对输入的反应中产生相同的情绪,所采用的损失函数的结构如下:

9.根据权利要求7所述的一种基于情感迁移和特征插值的说话人匿名化方法,其特征在于:构建匿名池的说话人数量n=30,随机选择m=4个说话人来提供语音嵌入。


技术总结
本发明公开了一种基于情感迁移和特征插值的说话人匿名化方法,包括特征提取、特征插值和语音合成阶段,首先采用了WavLM模型从原始语音信号中提取语音特征。这些特征表示捕捉了输入数据中的多种属性,如语音信号中的语音和文本等特征;然后在情感特征提取阶段,采用wav2vec2‑large‑robust‑12‑ft‑emotion‑msp‑dim模型来提取情绪特征。在特征插值阶段,对表征说话人信息的特征进行重组。最后在语音合成阶段,利用修改后的HIFI‑GAN模型来合成保持情感信息的匿名化语音。本方法利用自监督特征提升了对情绪信息的捕获能力,从而在匿名化的过程中能够在不破坏语音内容的同时更好地维持情绪特征,实现了高质量的说话人匿名化过程。

技术研发人员:邵曦,谭涛
受保护的技术使用者:南京邮电大学
技术研发日:
技术公布日:2024/12/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1