语音IVR交互中基于声纹辨识用户身份的方法与流程

文档序号：35704966发布日期：2023-10-12 04:57阅读：82来源：国知局

本发明涉及声纹识别领域，尤其涉及语音ivr交互中基于声纹辨识用户身份的方法。

背景技术：

1、ivr表示交互式语音应答，是一种功能强大的电话自动服务系统，可以用预先录制或tts文本转语音技术合成语音进行自动应答；声纹，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同；

2、现有技术cn110619880a公开了一种声纹处理系统及用户识别方法,包括：获取用户的第一语音音频数据，将所述第一语音音频数据换成第一声纹数据；获取用户的第二语音音频数据，将所述第二语音音频数据转换成第二声纹数据，其中，所述第二语音音频数据为所述用户的响应移动终端的语音音频数据；比较所述第一声纹数据与所述第二声纹数据，根据所述比较结果识别与所述第二声纹数据对应的用户；

3、存在以下问题：

4、(1)对于混合声纹特征之间的分离不明显，对声纹特征的辨别能力较差。

技术实现思路

1、为了解决上述问题，本发明提出语音ivr交互中基于声纹辨识用户身份的方法，以更加确切地解决上述所述的问题。

2、本发明通过以下技术方案实现的：

3、本发明提出语音ivr交互中基于声纹辨识用户身份的方法，包括：

4、s1：接收ivr交互中混合语音数据，获取所述混合声纹特征的混合声纹特征，基于所述声纹特征构建对应的混合声纹特征向量；

5、s2：将混合声纹特征向量输入预先训练的背景信道模型，构建出混合语音数据中的当前声纹鉴别向量；

6、s3：基于当前声纹鉴别向量与交互声纹数据库中的声纹特征向量进行相似度匹配得到匹配得分，根据匹配得分进行判决；若匹配得分大于或等于阈值，则根据映射关系查询交互声纹数据库中的声纹特征对应身份，辨识出用户身份，若小于阈值，继续进行匹配，直至达到预设匹配次数上限则停止。

7、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述接收ivr交互中混合语音数据的步骤中，包括：

8、基于接收ivr交互中混合语音数据进行预加重；

9、根据使用交叠分段的分帧方法对待混合语音数据进行分帧；

10、施加汉明窗以及区分语音帧和非语音帧并舍弃非语音帧。

11、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述语音帧包括当前声纹鉴别语音信息和背景音信息。

12、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述背景信道模型的步骤中，包括：

13、步骤一：对获取的混合声纹特征向量中的语音帧向量x(t)首先进行预处理，并将预处理后的语音帧x(t)平均分为l段；

14、步骤二：对每一段经预处理过的语音帧向量x(t)＝(x1,x2,…,xn)进行快速傅里叶变换；经傅里叶变换后语音帧向量转换为复值声纹特征向量，可通过下式表示：

15、

16、其中，表示为背景信道模型的分解矩阵，s＝(s1,s2,…,sm)表示当前声纹鉴别向量矩阵；设置语音帧向量矩阵与当前声纹鉴别向量矩阵数目相同，即n＝m。

17、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述步骤二的步骤后，包括：

18、步骤三：对于每一段复值声纹特征向量根据频域复值ica算法进行语音帧进行线性分离；

19、其算法步骤如下：

20、w的更新迭代式可通过下式表示：

21、w(n+1)＝e{zg[wt(n)z]-g[w(n)z]}×w(n)，

22、其中，e{.}表示迭代期望运算，g{.}表示迭代任意非二次函数，w(n+1)表示n+1时刻迭代分解矩阵，w(n)表示n时刻迭代分解矩阵,e{zg[wt(n)z]-g[w(n)z]}表示n+1时刻与n时刻的迭代期望运算差值，z表示迭代收敛步长，t表示迭代次数；

23、若w(n+1)＝w(n)，则结束迭代，否则继续进行；

24、步骤四：迭代完成后将背景信道模型的分解矩阵w经ifpt变换回到时域：

25、w′←ifft(w)，

26、其中，w′表示时域分解矩阵；

27、步骤五：进行时域求解：

28、s＝wx(t)；

29、在时域求解过程中，包括将l段预处理后的语音帧向量x(t)逐段进行盲分离，调整输出向量的次序使各输出通道的信号保持一致,并顺序连接即可求解得到最后的时域声纹输出信号，即当前声纹鉴别向量矩阵。

30、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述基于当前声纹鉴别向量与交互声纹数据库中的声纹特征向量进行相似度匹配得到匹配得分的步骤中，包括：

31、使用余弦相似度函数计算测试当前声纹鉴别向量与交互声纹数据库中用户的样本声纹特征向量相似度得到评估分数；

32、根据评估分数得到每段语音对应的评估分数向量；

33、再通过softmax层将分数向量进行归一化。

34、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述s3的步骤后，包括：

35、若达到预设匹配次数上限仍然没有匹配到已注册人员的声纹特征向量时，进行语音提示播报。

36、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述交互声纹数据库通过对多个设备采集日常通话的语料进行学习得到，采集到的每条语音数据的特征值；交互声纹数据库包含声纹特征对应的用户身份。

37、进一步的，所述的语音ivr交互中基于声纹辨识用户身份的方法，所述特征值包括频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调和音量特征向量上的特征值。

38、本发明的有益效果：

39、(1)本发明提出的将混合声纹特征向量输入预先训练的背景信道模型，构建出混合语音数据中的当前声纹鉴别向量；对获取的混合声纹特征向量x(t)首先进行预处理，消除混合声纹特征向量的二阶相关性，并使其均值为零的协方差矩阵为单位阵，并将预处理后的混合声纹特征向量x(t)平均分为l段；对每一段经预处理过的混合声纹特征向量进行快速傅里叶变换；经傅里叶变换后混合声纹特征向量转换为复值声纹特征向量；对于每一段复值声纹特征向量根据频域复值ica算法进行混合声纹特征线性分离进行迭代，迭代完成后将背景信道模型的分解矩阵w经ifpt变换回到时域；最后进行时域求解得到当前声纹鉴别向量矩阵，得到预先训练生成的背景信道模型为通过对大量语音数据的挖掘与比对训练得到，这一模型可以在最大限度保留用户的声纹特征的同时，精确刻画用户说话时的背景声纹特征，并能够在识别时将这一特征去除，而提取用户声音的固有特征，能够较大地提高用户身份验证的准确率，并提高身份验证的效率。

40、(2)本发明提出的交互声纹数据库通过对多个设备采集日常通话的语料进行学习得到，采集到的每条语音数据的特征值；交互声纹数据库包含声纹特征对应的用户身份；用户不需要前期专门地阅读大量的训练文本来录入声纹特征从而建立声纹特征库，而可由日常通话的语料以及即时通信消息中的语音数据作为用户的声纹特征的训练样本，从而节省了用户录入声纹特征的时间，提高了操作的便利性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林古山
技术所有人：北京微呼科技有限公司
我是此专利的发明人

上一篇：移动LED显示屏的节目处理方法、系统和装置与流程
上一篇：一种火灾现场无线红外热测温与成像系统的制作方法