一种声纹门禁系统及其应用的制作方法

文档序号:6661870阅读:398来源:国知局
专利名称:一种声纹门禁系统及其应用的制作方法
技术领域
本发明属于电子门禁系统领域,具体涉及一种声纹门禁系统。
背景技术
目前市场上的门禁系统主要采用卡,密码,生物识别等身份鉴别手段,此类方式存在诸多不足,主要表现在以下几个方面1.使用不便。卡需随身携带,易丢失。指纹识别技术往往需要人与仪器直接接触,不卫生。
2.安全性不高。尤其卡,密码类技术,易伪造和盗用。
3.成本昂贵。例如虹膜,掌形,人像的采集设备昂贵。

发明内容
本发明就是为了避免以上不足,提供一种通过人的语音来辨别人的身份的,使用不便、安全可靠、成本低廉的声纹门禁系统。
本发明的发明目的可以通过以下技术手段实现一种声纹门禁系统,包括微处理器1、指示灯、键盘模块、内存、数据存储器、语音芯片、串行通讯接口模块和包括语音预处理模块、语音识别模块和语音训练模块的程序存储器;微处理器2、门磁模块、防拆模块、报警模块和开锁模块;其中微处理器1分别连接指示灯和键盘模块,且与程序存储器、内存、数据存储器、语音芯片和串行通讯接口模块互相连接;微处理器2分别连接门磁模块、防拆模块、报警模块和开锁模块;微处理器1和微处理器2互相连接。
语音芯片包括包括麦克风的语音采集模块和包括扬声器的语音提示模块;微处理器采用DSP芯片;串行通讯模块采用RS232串行通讯接口模块;数据存储器采用NANDFLASH存储器;程序存储器采用SPIFLASH存储器。
声纹门禁系统的操作步骤为(1)启动声纹门禁系统,初始化硬件;(2)语音预处理模块处理经语音采集模块采集的声音,若满足条件,产生包括大帧特征、DTW模板特征和DCT模板特征数据;(3)语音识别模块通过文件系统调用数据存储器中的声纹模板,并将其与语音预处理模块产生的数据进行比较,若满足条件,则通过开锁模块执行开门操作;(4)在训练工作状态下,语音训练模块重复调用语音预处理模块,产生包括大帧特征、DTW模板特征和DCT模板特征数据,然后通过训练产生声纹模板,最后通过文件系统将其保存到数据存储器中。
语音预处理模块包括以下步骤(1)通过声音自动检测模块检测声音,若不存在声音则继续声音检测;(2)若经声音自动检测模块检测存在声音,则判别声音长度是否满足要求,若不满足要求则返回第一步;(3)若声音长度经判别满足要求,判别声音是否为人的语音,若不为人的语音则返回第一步;(4)若声音经判别为人的语音,则对语音进行特征提取,产生包括大帧特征、DTW模板特征和DCT模板特征数据。
语音识别模块包括以下步骤(1)通过文件系统依次调用数据存储器中的声纹模板,计算声纹模版中的DCT模板特征与经语音预处理模块处理得到的DCT模板特征之间的绝对值距离,筛选出距离最小的前N个声纹模板;(2)计算经DCT预选后得到的N个声纹模板中的DTW模板特征与经语音预处理模块处理得到的DTW模板特征之间的绝对值距离,筛选出距离最小声纹模板;(3)判断经DTW预选后得到的声纹模板的大帧数是否符合要求,若不符合,则启动语音预处理模块的声音自动检测模块;(4)若声纹模板的大帧数符合要求,则读取声纹模板的数据,进行人工神经网络识别,若识别未通过,则启动语音预处理模块的声音自动检测模块;(5)若人工神经网络识别通过则通过开锁模块执行开门操作。
语音训练模块包括以下步骤(1)语音预处理模块被调用N次,分析处理每次产生的数据,得到包括大帧特征、DTW模板特征和DCT模板特征数据;(2)通过背景模型和人工神经网络训练由特征提取模块得到的数据,生成声纹模板;(3)通过文件系统将声纹模板保存到数据存储器中。
语音预处理模块的声音自动检测模块包括以下步骤(1)分配内存;(2)通过语音芯片录音;(3)进行高通语音滤波;(4)判断所录声音的静音阈值长度与语音阈值长度,若不满足要求,返回第二步;(5)若所录声音的静音阈值长度与语音阈值长度满足要求,则采集到一个语音指令。
语音预处理模块的人的语音判断包括以下步骤(1)语音数据归一;(2)对归一后数据加窗;(3)加窗数据补零;(4)对补零后数据进行傅利叶变换,得到幅度谱;(5)对幅度谱分别进行正弦波参数计算和SEEVOC包络计算;(6)计算基频特征,得到每帧的基频特征;(7)求信噪比;(8)求浊音概率特征;(9)通过浊音概率特征统计大于阈值的帧;(10)若大于阈值的帧占总帧数的百分比大于等于设定值,则为人的语音,若小于设定值则不为人的语音。
人的声音是人与生俱来的特征,采用人体特有的声纹作为识别技术,不存在遗失、遗忘和输入错误等问题,使门禁系统的使用大为简便,且声音的输入不存在人和仪器的直接接触,方便卫生。又由于人的声音极难模仿,使门禁系统的安全性得到极大的提高。由于仪器的生产采用普通的元器件,且绝大多数功能通过软件实现,使本产品成本低廉。


图1为声纹门禁系统结构示意图;图2为语音预处理模块流程图;图3为语音训练模块流程图;图4为语音识别模块流程图;图5为基频特征和浊音概率特征提取图;图6为使用浊音概率特征进行非语音过滤图;图7为功能模块图;图8为硬件初始化流程图;图9为开锁模块电路图;具体实施方式
一种声纹门禁系统,包括微处理器1、指示灯、键盘模块、内存、数据存储器、语音芯片、串行通讯接口模块和包括语音预处理模块、语音识别模块和语音训练模块的程序存储器;微处理器2、门磁模块、防拆模块、报警模块和开锁模块;其中微处理器1分别连接指示灯和键盘模块,且与程序存储器、内存、数据存储器、语音芯片和串行通讯接口模块互相连接;微处理器2分别连接门磁模块、防拆模块、报警模块和开锁模块;微处理器1和微处理器2互相连接。
语音芯片包括包括麦克风的语音采集模块和包括扬声器的语音提示模块;微处理器采用DSP芯片;串行通讯模块采用RS232串行通讯接口模块;数据存储器采用NANDFLASH存储器;程序存储器采用SPIFLASH存储器。
语音预处理模块、语音识别模块和语音训练模块为程序存储器中程序。
RS232通讯接口模块通过通讯电缆连接PC机。
启动声纹门禁系统,初始化硬件的过程,当给系统上电时,数字信号处理器加载初始化代码,初始化基本部件,如,DSP工作频率、SDRAM工作频率、外部接口速度。初始化基本部件成功后,DSP开始加载自主开发的嵌入式程序,该程序初始化CODEC、UART、键盘接口、定时器以及各个IO接口,初始化成功后,该程序从NANDFLASH中加载全局设置参数、反相特征以及反相测试特征等,启动语音采集模块和语音提示模块,开始语言检测和识别。
参见图2、图3、图4、图5、图6、图7和图8,详细说明本发明的功能模块组成,所述的系统由底层程序模块、应用程序模块、算法模块组成,底层程序模块由键盘模块、文件系统模块、语音采集模块、语音提示模块、RS232通讯接口模块组成、应用程序模块实现复杂的业务功能,直接控制开锁模块,算法模块由预处理模块、训练模块、识别模块组成。
参见图2、图3、图4、图5、图6、图7和图8,详细说明本发明的实现原理和工作流程。
所述的语音采集模块利用麦克风采集语音,将语音信号转换成数字信号并滤波,把滤波后的语音数字信号传送至所述的语音预处理模块,所述的语音预处理模块对语音文件进行语音分析处理,并输出语音的微特征参数供训练模块或识别模块使用,所述的训练模块接收语音预处理后的数据,对外部键盘输入的身份标识号码对应的语音样本进行训练,首先利用动态时间归整算法训练将训练样本集规整成一个特征向量,形成动态时间归整模板,再通过离散余弦变换训练对动态时间归整模板进行一次离散余弦变换,形成离散余弦变换模板,最后通过人工神经网络训练利用训练对象的语音样本和非训练对象的语音样本来分割一个多维的频谱空间,使得用户语音样本所占据的频谱空间被映射到用户的输出,而非用户语音样本所占据的频谱空间被映射到非用户的输出,形成用户独有的声纹模板,保存到数据存储器中,所述的识别模块根据所述的微特征参数利用离散余弦变换算法形成当前被识别对象的离散余弦特征样本,将该特征样本和对所有已训练对象的离散余弦模板比对,从而得到与被识别人特征接近的已训练者身份标识号,形成预选对象集,再利用动态时间归整算法比对离散余弦变换算法预选的已训练对象,得到与被识别人特征最接近的唯一一个已训练对象身份标识,进入人工神经网络声纹识别进行说话人确认,否则识别提前结束,人工神经网络声纹识别通过语音信号特征模糊动态集合的聚类,并利用单层感知机网络实现已聚类的激励群到说话人的转换,从而识别出说话人;所述的键盘模块用于进行全局操作,包括训练用户、删除用户、开门方式修改等,所述的RS232通讯接口模块用于与PC进行通讯,通讯内容包括识别结果下载及程序更新等,所述的开锁模块根据识别模块的识别结果决定是否提供开门操作,所述的语音提示模块用于提示使用者操作流程和操作状态反馈,作为人机交互界面的输出模块。
本发明具体的各模块的实现原理和工作过程如下所述一、键盘模块在进行管理员操作中,需要输入用户ID(身份标识)号及操作方式,如新建用户等操作。在密码开门、密码加语音、密码或语音开门方式下,开门时需要密码,键盘可作为密码的输入窗口。
二、语音采集模块在语音采集模块中利用麦克风采集语音,将语音信号转换成数字信号并滤波,把滤波后的语音数字信号传送至语音预处理模块。
三、语音预处理模块语音预处理模块接收到语音信号后,将对语音信号做分析处理,并提取语音微特征,为训练或开锁作准备。语音预处理及特征提取过程如图5所示。
具体语音预处理及特征提取过程包括以下内容1.语音滤波在语音数据输入以后,为了减少低频噪声对语音的干扰,首先要对数据进行高通滤波,高通滤波的方法使用下面的公式,P(i)=0.92727435*P(i)-1.8544941*P(i-1)-0.91140240*P(i-2)+0.92727435*P(i-2)+1.9059465*P(i-1)(请在权利要求中强调一下)2.语音压缩在语音数据输入以后,为了减少运算数据量,首先要对数据进行压缩,压缩的方法就是每10ms的语音采样(按照16kHz采样率就是160个点)压缩成一个数据点,压缩方法是求这10ms内采样数据的最大值。这样压缩之后的数据代表了语音的包络波形。另外为了满足实时检测的需要,每60ms就有一批新的语音被追加6秒的FIFO队列缓冲区,这就意味着算法每隔60ms就对最近6秒的语音数据检测一次是否存在一次完整的语音命令输入。
3.语音口令实时自动检测本优选实施例可实时自动检测声音信号,当检测到符合语音口令的声音信号时才启动语音识别或训练,否则不做处理。
本优选实施例的语音口令实时自动检测具体过程是首先为程序分配一段能存储6秒钟语音的内存,也就是说程序一直在录入语音,但最多保存最近6秒的语音。当程序每接收一次数据时,先把它加到这段内存里,如果已经存满,则从存储的语音的前端开始删除,确保新接收的数据能够加进来。然后把这段内存里的语音数据以10ms为一个压缩点,压缩点是取10ms内最大的数据。本优选实施例中定义了两个参数,一个是静音阈值(低于此值为静音),一个是语音阈值(高于此值为语音)。如果在语音的末端检测到有一段语音它低于静音阈值并且足够长的话,则认为静音信号出现,如果检测到这个信号,则意味着口令已经结束,否则,继续录音。在检测到静音信号的前提下,系统判断大于静音阈值的长度和大于语音阈值的长度在符合对口令的要求长度范围内,则认为这段语音是用户的一个语音口令,保存这段语音进行接下来的语音识别或训练。
4.预滤波抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰,同时抑制50Hz的电源工频干扰。
5.非语音信号过滤扫描数字化后的语音口令数据,将非语音信号噪音等剪辑掉。
6.预加重提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析。
7.加帧一般每秒的帧数约为33~100帧,视实际情况而定。
8.加窗为了避免倒谱中的基音峰变得不清晰甚至消失,本优选实施例采用汉明窗。
经过上面介绍的过程,语音信号就被分割成一帧一帧的加过窗函数的短信号,在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,最后得到由每一帧组成参数组成的语音特征参数的时间序列。
9.语音特征参数提取语音特征参数的选择是整个系统中的基础,对语音识别率有着极其重要的影响。
本发明的优选实施例采用多种语音特征提取技术,包括MFCC(梅尔刻度式倒频谱参数)、基频相关特征、浊音概率、DTW特征以及DCT特征等。利用神经网络的自学习能力,可以克服声纹特征的动态性和复杂性,自组织地完成对个性声纹特征的提取。传统方法只提取少数语音特征参数,而采用本技术可以提取多种语音特征参数,从而有效提高识别的正识率。提取到个性声纹特征后,再将各连续的特征参数转化为输入神经元的激活或抑制信号。
10.非语音的屏蔽算法的选择,关系到门禁系统的使用环境,对语音识别率有着极其重要的影响。
本发明的优选实施例采用多种非语音屏蔽技术,包括CAMDF、正弦波基频分析、浊音概率等技术来进行非语音过滤四、训练模块训练模块包括DTW(动态时间归整)、DCT(离散余弦变换)训练和人工神经网络训练两部分。由于用来参与训练的语音包含的文字固定且时间较短,声纹识别和文本及语言就存在较强的相关性,即同一个人说不同的语言和词语会被认为是不同的人。用户可以利用这个特点随时更换口令,以提高声纹门禁系统的安全性。更换口令,需首先删除原有口令,再重新训练即可。
(一)DTW、DCT模板训练1.DTW和DCT算法(1)DTW算法在对语音口令的识别中,最为简单有效的方法是采用动态时间归整算法DTW完成模板的匹配。该算法基于动态规划的思想,解决了发音长短不一的匹配问题。
DTW算法计算两个长度不同的模板之间的相似程度,或称失真距离。假设测试和参考模板分别用T和R表示,按时间顺序含有N帧和M帧的语音参数,每帧特征数据为K维,则T、R分别为N×K和M×K的矩阵。失真距离越小,表示T和R越接近。本优选实例为了使DTW的比对有意义,限定了测试和参考模板帧长度的比值必须介于1/2和2之间,这个区域即为“合法搜索区域”,该约束可以省掉不需要计算的部分。
搜索路径采用以下公式对于点(i,j)的距离D(i,j)=|t(i)-r(j)|+min{D(i-2,j-1),D(i-1,j-1),D(i-1,j-2)}。
本优选实例采用两帧中各个对应特征数据之差的绝对值之和作为两帧的距离,即|t(i)-r(j)|=Σk=1K|t(i)k-r(j)k|,]]>其中K为每帧的特征维数。
(2)DCT算法DCT算法,即对输入信号进行离散余弦变换。
2.DTW、DCT训练(1)录制语音口令录制同一语音口令若干遍的语音,本优选实例采用的是10遍。
(2)语音预处理,形成训练样本集由“语音预处理模块”对语音信号进行预处理,每个语音口令语音数据形成一个训练样本,组成训练样本集,按照时间先后保存训练样本集中的各个训练样本。
(3)DTW模板训练a.求训练样本集中各训练样本帧数的平均值。
b.将帧数与平均帧数值最近的训练样本作为“初始模板”。
c.利用DTW算法将其他训练样本规整为与“初始模板”同样长度的样本,舍弃与“初始模板”距离大于一个“最大距离阈值”的训练样本。
d.计算各训练样本每个对应帧的各个特征元素的平均值,最后形成的样本即为“DTW模板”,它是一个长度为L×K的特征向量,其中L为模板帧数,K为每帧的特征数据维数。
(4)DCT模板训练对DTW模板做DCT变换形成DCT模板,它是一个长度为P×K的特征向量,其中P为DCT数,K为每帧的特征数据维数。本优选实例中DCT数参考值为4,即取0-3阶DCT系数。
(二)人工神经网络训练所谓人工神经网络训练,就是利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来分割一个多维的频谱空间,使得对象语音样本所占据的频谱空间被映射到对象的输出,而非对象语音样本所占据的频谱空间被映射到非对象的输出,也就是将对象和其语音在频谱空间的分布区域建立关联。从数学模型上说,就是利用这些语音训练样本来调整一个复杂的神经网络权值,使得对象的语音样本映射到对象的激励输出,非对象的语音样本映射到对象的抑制输出。某对象A的语音,经语音特征参数提取,根据特征参数值调整权值使对象A的输出受到激励,同时使非对象A的输出受到抑制,之后得到对象A的输出和非对象A的输出。
1.人工神经网络初始训练(1)录制语音口令,形成训练样本集由用户通过声纹门禁系统录制若干遍开门口令,本优选实例采用的是10遍,即语音钥匙(语音钥匙一般为6-8个字)。
由“语音预处理模块”对语音口令进行预处理,每个语音口令语音数据形成一个训练样本,组成训练样本集,按照时间先后保存训练样本集中的各个训练样本。
(2)创建背景模型背景模型中包含大量随机语音样本,主要用于在训练中建立非对象语音样本所占据的频谱空间向非对象的输出映射的关联。背景模型在声纹门禁系统出厂之前创建。
(3)开门口令训练对预处理后的语音数据通过训练模块提取人工神经网络特征进行训练,训练后形成用户独有的声纹编码。为了获得理想的识别效果,要求用户每次训练时以不同的语气输入相同的语音钥匙口令。
a.人工神经网络特征提取人工神经网络训练和识别具有相同的特征提取方法,特征提取部分又分峰位查找、特征处理、特征定位三部分。
(a)峰位查找根据输入的语音,输出语音的幅度累加和特征、语音的过零率特征、语音的MFCC的2阶特征,由“语音的幅度累加和特征”和“语音的1阶、2阶特征”按照幅度权重、倒谱权重系数,进行相加或相减,得到4组特征数据(波形划分特征),依次把“波形划分特征”和“语音的过零率特征”输入到一个容器中,输入4组峰位划分信息,把这4组峰位划分信息进行合并,然后按照峰位的最小间距信息去除分布过密的峰位,最后得到一组准确的峰位信息。
(b)特征处理根据输入的语音,输出对应的MFCC特征(1-12阶)。
(c)特征定位根据峰位查找中得到的“峰位信息”和“MFCC特征”,输出每个峰位的对应大帧特征,本优选实例中每个大帧覆盖10个小帧的区域,在大帧的定位过程中使用了幅度累加和法,所谓的幅度累加和法就是设当前位置为i,使用一个10个小帧大小的窗口从i-9到i滑动,求出这之间的窗口区域的最大幅度和,然后把这个窗口的起始位置作为大帧的起始位置,从大帧的起始位置开始的10个小帧特征,作为当前峰位的大帧特征,并且只使用其中的奇数小帧。
b.训练模板利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来调整一个复杂的神经网络权值,使得对象的语音样本映射到对象的激励输出,非对象的语音样本映射到对象的抑制输出,完成人工神经网络模板的训练。
c.确定人工神经网络阈值确定每个对象的阈值有2种方法,一种是使用固定值作为阈值;另一种方法就是通过识别其它口令来确定阈值,本优选实例使用了前者。
(4)保存训练结果训练过程结束,声纹编码随即被保存在数据存储器中,以备开门使用。
2.人工神经网络累加训练在人工神经网络模板已存在的情况下进行人工神经网络的累加训练,以提高模板的时间适应性。累加训练发生在使用声纹门禁系统过程中一次识别后识别阈值偏低时。通过累加训练过程可增强声纹模板的时间适应性,从而提高用户开门的正识率、降低误识率。具体训练过程如下(1)录制累加训练口令,并预处理形成训练样本。
(2)重构训练样本集将新的训练样本添加至训练样本集中,如果当前的训练样本总数超过了最大训练样本数(本优选实例采用的参考值是10),则删除时间最早的训练样本。
(3)同人工神经网络模板初始训练(2)-(4)。
五、识别模块识别模块包括DCT、DTW识别和人工神经网络识别两部分。通过DCT、DTW识别,系统将识别出读入语音口令对应的最接近的已训练对象的身份确认编号,而进一步通过人工神经网络识别,确认当前说话人是否是该身份确认编号对应用户。
(一)DCT、DTW识别
1.录制语音口令录制读入的语音口令。
2.形成DTW特征样本和DCT特征样本由“语音预处理模块”对语音信号进行预处理,分别形成DTW特征样本和DCT特征样本。
3.DCT预选将DCT特征样本和已存在的所有用户的DCT模板比对,即计算特征样本和各DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和),筛选出距离最小的前N个用户。
4.DTW预选将DTW特征样本和DCT比对中距离最小的前N个用户的DTW模板比对,即计算DTW特征样本和各DTW模板之间的绝对值距离(各个对应特征数据之差的绝对值之和),筛选出距离最小的用户。该用户即为进行人工神经网络识别的用户。
(二)人工神经网络识别本发明的优选实施例利用建立在一种神经网络算法基础上的多层聚类神经网络完成语音信号特征模糊动态集合的聚类,以及已聚类的激励群到说话人的转换,实现激励群映射到说话人输出。
当有语音波形输入时,首先由输入层神经网络得到预处理后的语音频谱特征,并将其转化为输入神经元的激活或抑制信号。使用这些神经元的激活或抑制信号去同步激励所有待识别对象的输出,采用能量反传网络完成已聚类的激励群到说话人的转换,实现激励群映射到说话人输出。在正确训练的情况下,只有目标对象的输出被激励,而所有非目标对象的输出被抑制,从而可以快速地识别出目标对象。
多层神经网络框架,每一层和上一层是全连接。每个中间层网络神经元的个数大致与输入层神经元的个数相同。
本发明的优选实施例采用能量反馈和Hebb学习规则。具体的原理如下设每个神经元的能量计算为e=b-y其中,b是每个神经元的能量反馈值,对于输出层而言,就是强制指导状态;y是每个神经元的输出。
对于中间层(用m表示)第j个神经元,其反馈值来自于其下层网络(用n表示),反馈值的计算为下式,其中ω为连接权值bjm=Σkγ·ωjk·ekn]]>对于m层的第j个神经元,其输入值x来自于上层网络p,计算公式为xjm=Σkλ·ωkj·ykp]]>每个神经元的输出和输入关系为y=f(xt,xt-1)其中,f是一种非线性函数,并且与当前输入和过去输入相关。因此,神经网络的输出不仅依赖当前帧的输入,同时也与过去的输入有关。这种输入记忆功能可以克服神经网络算法不能有效处理时序问题的缺陷。识别系统在根据语音特征映射到某个对象时,不是完全根据当前语音帧,而是根据当前帧和之前的许多帧,大致相当于几百毫秒的语音长度。这种特性与生物听觉特征类似之处。
权值改变算法如下
Δωjk=α·yj·yk+β·yj·ek其中,第一项为Hebb学习项,作用在于特征聚类,越接近最后输出层,此项作用越小。Hebb学习项可以使同时出现的特征之间的激励作用加强,从而使这些同时出现的特征之间形成一种有关联的激励群。有关联的激励群实际上是一种分布式联想记忆功能,可以起到抵抗噪声、恢复畸变的功能。
第二项为反馈能量学习项,是一种基于能量的反传学习算法。越接近最后输出层,此项作用越大。基于能量反馈的学习算法与BP网络有点类似。但比BP网络在算法上和训练上更方便,更容易理解,更容易实现。同时,权值改变只与能量相关,只与连接的前后两个神经元节点相关,因此,算法的实现更容易,速度更快。
本发明的优选实施例采用识别可信度的中标方法,当识别可信度超过设定阈值时,则认为说话人中标,即说话人是合法用户。
六、开锁模块利用识别结果控制门禁锁具,如果说话人为已注册(即其语音样本已经训练过)的对象,那么开锁装置就驱动锁具打开,否则说话人声音对锁具将不起任何作用,即无相应动作。
七、语音提示模块本发明采用了语音提示作为人机界面的交互方式,提高了产品的人性化程度。语音提示为提前录取的真人语音,操作过程中,语音提示遇到相关按键,会即时中断,以方便用户继续操作。
八、RS232通讯接口模块为了方便程序的更新和识别结果的输出,本模块提供了标准RS232通讯接口,用于与PC的通讯。
九、门磁模块门磁模块检测门的状态,即门是开的还是关的,这样系统可以根据门的状态,决定是不是给出忘记关门提醒等。
十、防拆模块当系统被拆除时,防拆模块把信号传给报警模块,并启动报警功能。
十一、报警模块接收防拆模块的信号,决定是否启动报警功能。
十二、指示灯用指示灯表示系统的状态。
十三、文件系统模块文件系统模块提供数据的存入和读取。
权利要求
1.一种声纹门禁系统,其特征在于包括微处理器1、指示灯、键盘模块、内存、数据存储器、语音芯片、串行通讯接口模块和包括语音预处理模块、语音识别模块和语音训练模块的程序存储器;微处理器2、门磁模块、防拆模块、报警模块和开锁模块;其中微处理器1分别连接指示灯和键盘模块,且与程序存储器、内存、数据存储器、语音芯片和串行通讯接口模块互相连接;微处理器2分别连接门磁模块、防拆模块、报警模块和开锁模块;微处理器1和微处理器2互相连接。
2.如权利要求1所述的一种声纹门禁系统,其特征在于语音芯片包括包括麦克风的语音采集模块和包括扬声器的语音提示模块;微处理器采用DSP芯片;串行通讯模块采用RS232串行通讯接口模块;数据存储器采用NANDFLASH存储器;程序存储器采用SPIFLASH存储器。
3.如权利要求1所述的一种声纹门禁系统,其特征在于操作步骤为(1)启动声纹门禁系统,初始化硬件;(2)语音预处理模块处理经语音采集模块采集的声音,若满足条件,产生包括大帧特征、DTW模板特征和DCT模板特征数据;(3)语音识别模块通过文件系统调用数据存储器中的声纹模板,并将其与语音预处理模块产生的数据进行比较,若满足条件,则通过开锁模块执行开门操作;(4)在训练工作状态下,语音训练模块重复调用语音预处理模块,产生包括大帧特征、DTW模板特征和DCT模板特征数据,然后通过训练产生声纹模板,最后通过文件系统将其保存到数据存储器中。
4.如权利要求1所述的一种声纹门禁系统,其特征在于语音预处理模块包括以下步骤(1)通过声音自动检测模块检测声音,若不存在声音则继续声音检测;(2)若经声音自动检测模块检测存在声音,则判别声音长度是否满足要求,若不满足要求则返回第一步;(3)若声音长度经判别满足要求,判别声音是否为人的语音,若不为人的语音则返回第一步;(4)若声音经判别为人的语音,则对语音进行特征提取,产生包括大帧特征、DTW模板特征和DCT模板特征数据。
5.如权利要求1所述的一种声纹门禁系统的操作方法,其特征在于语音识别模块包括以下步骤(1)通过文件系统依次调用数据存储器中的声纹模板,计算声纹模版中的DCT模板特征与经语音预处理模块处理得到的DCT模板特征之间的绝对值距离,筛选出距离最小的前N个声纹模板;(2)计算经DCT预选后得到的N个声纹模板中的DTW模板特征与经语音预处理模块处理得到的DTW模板特征之间的绝对值距离,筛选出距离最小声纹模板;(3)判断经DTW预选后得到的声纹模板的大帧数是否符合要求,若不符合,则启动语音预处理模块的声音自动检测模块;(4)若声纹模板的大帧数符合要求,则读取声纹模板的数据,进行人工神经网络识别,若识别未通过,则启动语音预处理模块的声音自动检测模块;(5)若人工神经网络识别通过则通过开锁模块执行开门操作。
6.如权利要求3所述的一种声纹门禁系统的操作方法,其特征在于语音训练模块包括以下步骤(1)语音预处理模块被调用N次,分析处理每次产生的数据,得到包括大帧特征、DTW模板特征和DCT模板特征数据;(2)通过背景模型和人工神经网络训练由特征提取模块得到的数据,生成声纹模板;(3)通过文件系统将声纹模板保存到数据存储器中。
7.如权利要求4所述的一种声纹门禁系统,其特征在于声音自动检测模块包括以下步骤(1)分配内存;(2)通过语音芯片录音;(3)进行高通语音滤波;(4)判断所录声音的静音阈值长度与语音阈值长度,若不满足要求,返回第二步;(5)若所录声音的静音阈值长度与语音阈值长度满足要求,则采集到一个语音指令。
8.如权利要求4所述的一种声纹门禁系统,其人的语音判断包括以下步骤(1)语音数据归一;(2)对归一后数据加窗;(3)加窗数据补零;(4)对补零后数据进行傅利叶变换,得到幅度谱;(5)对幅度谱分别进行正弦波参数计算和SEEVOC包络计算;(6)计算基频特征,得到每帧的基频特征;(7)求信噪比;(8)求浊音概率特征;(9)通过浊音概率特征统计大于阈值的帧;(10)若大于阈值的帧占总帧数的百分比大于等于设定值,则为人的语音,若小于设定值则不为人的语音。
全文摘要
一种声纹门禁系统,包括微处理器1、指示灯、键盘模块、内存、数据存储器、语音芯片、串行通讯接口模块和程序存储器;微处理器2、门磁模块、防拆模块、报警模块和开锁模块;其中微处理器1分别连接指示灯和键盘模块,且与程序存储器、内存、数据存储器、语音芯片和串行通讯接口模块互相连接;微处理器2分别连接门磁模块、防拆模块、报警模块和开锁模块;微处理器1和微处理器2互相连接。采用人体特有的声纹作为识别技术,不存在遗失、遗忘和输入错误等问题,使用方便,且声音的输入不存在人和仪器的直接接触,方便卫生。人的声音极难模仿,使门禁系统的安全性提高。仪器的生产采用普通元器件,绝大多数功能通过软件实现,使本产品成本低廉。
文档编号G07C9/00GK101064043SQ20061002623
公开日2007年10月31日 申请日期2006年4月29日 优先权日2006年4月29日
发明者吴田平 申请人:上海优浪信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1