一种声纹识别方法、系统、设备及存储介质与流程

文档序号:30986041发布日期:2022-08-03 01:32阅读:251来源:国知局
一种声纹识别方法、系统、设备及存储介质与流程

1.本技术各实施例属于通信和信号处理技术领域,特别是涉及一种声纹识别方法、系统、设备及存储介质。


背景技术:

2.每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。
3.目前绝大多数银行都有开展信用卡业务,信用卡的申请也是非常的方便,申请门槛低。但是在信用卡申请的过程中存在部分信用不良的群体假冒或者伪造身份申请信用卡的情况,银行一般是通过视频或者电话方式确认用户身份,人工审核费时费力,还有可能出错,是银行信用卡业务主要风险之一。


技术实现要素:

4.本技术实施例的目的在于提供一种声纹识别方法、系统、设备及存储介质,使用声纹识别技术辅助银行的信用卡业务,帮助业务员审核客户的身份,提升业务审核效率,识别假冒伪造身份,从而解决背景技术中的问题。
5.为了解决上述技术问题,本技术实施例提供的声纹识别方法、系统、设备及存储介质的技术方案具体如下:
6.本技术实施例公开了一种声纹识别方法,所述方法包括以下步骤:
7.实时获取语音数据;
8.对获取的语音数据进行预处理;
9.对预处理后的语音数据进行特征提取;
10.将提取到的特征按照现有的数据场景输入模型a或模型b,得到建模后的声学特征;
11.将建模后的声学特征部署到服务器上。
12.在上述任一方案中优选的实施例,所述实时获取语音数据,包括:
13.分别采集电话信道语音场景和视频语音场景。
14.在上述任一方案中优选的实施例,所述对获取的语音数据进行预处理,包括:
15.采样量化,将获取的语音数据,以8khz的采样速率数字化,输入到后端服务器;
16.预加重,将输入到后端服务器声音经过8khz的采样速率的采样后转成数字语音信号,然后通过一阶高通滤波器来作预加重处理以突显高频部分;
17.取音框,取256点为一个音框,音框与音框之间重迭128点,即每次位移128点后再取256点作为下一个音框;
18.加窗,针对每一个音框乘上汉明窗以消除音框两端的不连续性,将音框通过低通滤波器。
19.在上述任一方案中优选的实施例,所述将输入到后端服务器声音经过8khz的采样速率的采样后转成数字语音信号,其传递函数为:h(z)=1-az-1
,h(z)为输出信号,z为输入信号,a为滤波系数。
20.在上述任一方案中优选的实施例,所述a的取值为0.95。
21.在上述任一方案中优选的实施例,所述对预处理后的语音数据进行特征提取,包括:
22.使用改进型mel频率倒谱系数方法提取特征,其中,计算方式如下:f为输入频率,将音频文件通过短时傅里叶变换得到,γ为频率调节系数。
23.与现有技术相比,本技术实施例的声纹识别方法,使用声纹识别技术辅助银行的信用卡业务,帮助业务员审核客户的身份,提升业务审核效率,识别假冒伪造身份。
24.第二方面,一种声纹识别系统,包括:
25.获取模块,用于实时获取语音数据;
26.处理模块,用于对获取的语音数据进行预处理;
27.提取模块,用于对预处理后的语音数据进行特征提取;
28.建模模块,用于将提取到的特征按照现有的数据场景输入模型a或模型b,得到建模后的声学特征;
29.部署模块,用于将建模后的声学特征部署到服务器上。
30.与现有技术相比,本技术实施例的声纹识别系统,使用声纹识别技术辅助银行的信用卡业务,帮助业务员审核客户的身份,提升业务审核效率,识别假冒伪造身份。
31.第三方面,一种声纹识别设备,包括:
32.存储器,用于存储计算机程序;
33.处理器,用于执行所述计算机程序时实现所述的声纹识别方法的步骤。
34.第四方面,一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的声纹识别方法。
附图说明
35.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一组件分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的组件件或组件分,本领域技术人员应该理解的是,这些附图未必是按比例绘制的,在附图中:
36.图1为本技术实施例声纹识别方法的流程示意图。
37.图2为本技术实施例声纹识别方法的cnn网络模型结构示意图。
38.图3为本技术实施例声纹识别系统示意图。
39.图4为本技术实施例声纹识别设备示意图。
具体实施方式
40.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一组件分的实施例,而不是全组件的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
41.实施例
42.如图1所示,本技术实施例提供了一种声纹识别方法,所述方法包括以下步骤:
43.步骤1:实时获取语音数据;
44.步骤2:对获取的语音数据进行预处理;
45.步骤3:对预处理后的语音数据进行特征提取;
46.步骤4:将提取到的特征按照现有的数据场景输入模型a或模型b,得到建模后的声学特征;
47.步骤5:将建模后的声学特征部署到服务器上。
48.在本发明实施例所述的声纹识别方法中,所述实时获取语音数据,包括:
49.分别采集电话信道语音场景和视频语音场景。
50.在本发明实施例所述的声纹识别方法中,所述对获取的语音数据进行预处理,包括:
51.采样量化,将获取的语音数据,以8khz的采样速率数字化,输入到后端服务器;
52.预加重,将输入到后端服务器声音经过8khz的采样速率的采样后转成数字语音信号,然后通过一阶高通滤波器来作预加重处理以突显高频部分;
53.取音框,取256点为一个音框,音框与音框之间重迭128点,即每次位移128点后再取256点作为下一个音框;
54.加窗,针对每一个音框乘上汉明窗以消除音框两端的不连续性,将音框通过低通滤波器。
55.在本发明实施例所述的声纹识别方法中,所述将输入到后端服务器声音经过8khz的采样速率的采样后转成数字语音信号,其传递函数为:h(z)=1-az-1
,h(z)为输出信号,z为输入信号,a为滤波系数。在上述任一方案中优选的实施例,所述a的取值为0.95。
56.在本发明实施例所述的声纹识别方法中,所述对预处理后的语音数据进行特征提取,包括:
57.使用改进型mel频率倒谱系数方法提取特征,其中,计算方式如下:
58.f为输入频率,将音频文件通过短时傅里叶变换得到,γ为频率调节系数。
59.在本发明实施例所述的声纹识别方法中,首先,需要针对当前应用场景收集客户语音数据,银行的话务系统正常都会有保存录音的功能,直接用历史保存的语音就可以了,标记好说话人id,区分语音来源,银行在保存录音的时候,会同时对录音的来源做标记,通过文件命名的方式区分就可以了,比如视频场景的语音数据保存为:视频_说话人id_xxxx.wav,电话场景语音数据保存为:电话_说话人id_xxxx.wav,分为视频场景和电话场景
语音数据,因为使用场景不一样,语音的编解码机制也不一样,会影响后面声纹识别的准确率,所以数据需要分开收集还有分开训练模型。然后利用收集好的客户语音数据通过深度学习方法训练声纹模型。将训练好的声纹识别模型部署到服务器上,建立白名单和黑名单机制,将所有信用不良群体用户加入黑名单库,将现有信用良好客户加入白名单库,新用户群体则标记为新用户,暂时不入库。在信用卡的审核阶段,需要通过抓包服务器抓取客户电话或者视频中的语音流,调用服务器上声纹引擎接口,检索声纹库中的数据,判断该用户是属于白名单用户还是黑名单用户还是新用户群体,业务员根据声纹引擎的检索结果作进一步的判断。
60.在本发明实施例所述的声纹识别方法中,首先进行声纹模型训练,过程如下:输入语音-》预处理-》特征提取-》训练-》模型产生-》模型存储
61.输入语音:需要采集两个应用场景的语音数据集,分别为电话信道语音场景和视频语音场景,预处理过程为:(1)采样量化:语音信号通常以8khz或更高的采样速率数字化,每个采样至少用8比特表示,此步骤一般是在前端设备进行,比如手机或者固定电话,输入到后端服务器的语音流已经是量化后的;(2)预加重:声音经过8khz或更高的采样速率的采样后转成数字语音信号,接着通过一个一阶高通滤波器来作预加重处理以突显高频部分,其传递函数为:h(z)=1-az-1
,h(z)为输出信号,z为输入信号,a为滤波系数,a的值一般为0.95左右;(3)取音框:取256点为一个音框(32ms),音框与音框之间重迭128点(16ms),即每次位移128点后再取256点作为下一个音框,这样可避免音框之间的特性变化太剧烈;(4)加窗:针对每一个音框乘上汉明窗以消除音框两端的不连续性,避免分析时受到前后音框的影响;(5)最后,将音框通过低通滤波器,可去除异常高起的噪声特征提取:使用改进型mel频率倒谱系数(mel-frequencycepstrumcoefficients,简称mfcc)方法提取特征,通过增加频率调节系数γ,通过调整该值,可以增加提取的语音特征的鲁棒性,表达式如下:f为输入频率,将音频文件通过短时傅里叶变换得到,log
10
是以10为底的对数函数,1和700为常数系数;训练:通过叠加了一个cnn网络(如图3所示),取得了良好的训练效果,改进后的模型将原有的识别准确率从85%提高到了90%。
62.在本发明实施例所述的声纹识别方法中,实际应用场景下,使用流程如下:
63.部署两套声纹模型,一套是针对电话信道场景,称为模型a。一套是针对视频场景,称为模型b。
64.需要收集语音资料,建立内部的白名单声纹库还有黑名单声纹库,要求注册语音有效时长大于等于30s。白名单声纹库由现有的信用良好的客户组成,黑名单声纹库由历史记录中信用不良的客户组成。电话信道场景和视频场景根据模型a和模型b分别建立两套声纹库,模型a建立的白声纹库称为a1,模型a建立的黑声纹库称为a2。模型b建立的白声纹库称为b1,模型b建立的黑声纹库称为b2。
65.在信用卡的审核过程中,一般会有固定的话术用来确定客户的身份,要求客户语音有效时长需要大于15s。同时需要通过抓包服务器抓取信用卡审核过程中客户的语音流数据,包括电话信道或者视频的语音流,保存成wav数据格式。
66.对保存下来的语音流提取mfcc特征,将提取到的mfcc特征按照现有的数据场景输入模型a或者模型b,得到建模后的声学特征,在对应的a1、a2声纹库或者b1、b2声纹库里面
检索,检索到语音存在a1或者b1里面,则将该用户id命名为green_spkid。检索到语音存在a2或者b2里面,则将该用户标记为red_spkid。在所有声纹库中未检索到结果,则将该客户命名为yellow_spkid。
67.具体检索规则如下:对余弦相识度公式做改造,新增参数m,使用该方法逐一比对两条语音并且进行打分,当同一个声纹库里面的top1的打分结果高于阈值x时,认为两条语音为同一个人,相比较于传统的余弦相识度计算方法,模型的识别准确率从90%提升到了95%,改造后的余弦相识度计算方法公式如下所示:95%,改造后的余弦相识度计算方法公式如下所示:其中,m=i=1nai+bi2n;
68.其中,a
·
b为向量a和向量b的内积;
69.||a||为向量a的模长,||b||为向量b的模长;
70.为向量a和向量b的内积的计算公式;
71.为向量a的模长计算公式;
72.为向量b的模长计算公式。
73.如图3所示,第二方面,一种声纹识别系统,包括:
74.获取模块,用于实时获取语音数据;
75.处理模块,用于对获取的语音数据进行预处理;
76.提取模块,用于对预处理后的语音数据进行特征提取;
77.建模模块,用于将提取到的特征按照现有的数据场景输入模型a或模型b,得到建模后的声学特征;
78.部署模块,用于将建模后的声学特征部署到服务器上。
79.第三方面,如图4所示,一种声纹识别设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如所述声纹识别方法的步骤。
80.其中,处理器用于控制该测量设备的整体操作,以完成上述的声纹识别方法中的全部或部分步骤。存储器用于存储各种类型的数据以支持在该测量设备的操作,这些数据例如可以包括用于在该测量设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件用于该测量设备与其他设备之间进行有线或无线通信。无
线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g、4g或5g,或它们中的一种或几种的组合,因此相应的该通信组件可以包括:wi-fi模块,蓝牙模块,nfc模块。
81.在一示例性实施例中,测量设备可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的声纹识别方法。
82.在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的声纹识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由测量设备的处理器执行以完成上述的声纹识别方法。
83.相应于上面的方法实施例,本公开实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种声纹识别方法可相互对应参照。
84.第四方面,一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的声纹识别方法的步骤。
85.该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
86.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中组件分或者全组件技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1