用于电话的基于音素的非特定人语音拨号器的制作方法

文档序号:7632875阅读:243来源:国知局
专利名称:用于电话的基于音素的非特定人语音拨号器的制作方法
技术领域
本实用新型发明属于语音技术领域,尤其涉及采用数字信号处理器或微处理器的语音识别、语音编解码的语音拨号器的设计。
背景技术
语音技术(包括语音识别、语音编解码等)在上世纪九十年代逐步成熟,语音拨号类的产品在市场上开始出现。目前国际上,特别是欧美市场已经可以买到多种语音拨号产品。如美国QualComm公司在他们提供的CDMA手机芯片中嵌入了名为PureVoice的语音识别引擎,能够完成100词的特定人人名拨号功能和30词的英文数码和固定命令识别;美国Sensory公司推出的RSC-164~364系列语音识别芯片,以MCU为核心处理单元,可以进行100词级别的拨号应用,识别率能够达到95%以上。这些产品大部分采用特定人语音识别算法,事先需要对每个使用的用户进行训练,识别的词条数目一般在100条左右,识别性能随着识别词条数目的增加会有明显的下降,在不同的噪声环境中,以及不同时间,不同的用户生理、心理状态下,系统的性能都会受到明显的影响;也有部分产品为了方便用户使用,采用了基于整词的非特定人语音识别芯片,此类芯片事先训练好识别词表,不需要用户在使用前训练,在一定程度上方便了使用,但是其识别词表一旦固定之后就不能在线更新,无法应用于类似于电话这样的要求识别词表随时变化的装置,并且此类芯片对一些读音易混淆的词条如“李宁”、“李平”、“李佳”、“李佳家”的分辨力比较差,对于噪声也比较敏感。
而基于音素的非特定人语音识别算法采用基于统计模型的方法,系统开发者事先采集大量的语音数据进行训练,得到声学模型。在识别阶段,机器将用户的输入语音特征与通过声学模型构建的识别网络进行匹配解码,得到识别结果。对于用户而言,不需要引入繁琐的训练过程,而且识别词表可以随时更新,同时还具有一定的抗噪和抗混淆能力,大大方便了用户的使用。

发明内容
本实用新型的目的旨在克服已有技术的不足,将基于音素的非特定人语音识别芯片用于电话的语音拨号装置。使其不仅能够识别易混淆汉语语音,且语音识别率高,达到实用水平,而且具有集成度高,综合性能比好,成本低,体积小,重量轻等突出特点。
本实用新型提出的一种用于电话的基于音素的非特定人语音拨号器,包括一个壳体;设置在壳体内部的固化有基于音素的非特定人语音识别、语音合成与语音解码程序的语音处理芯片、闪烁存储器、数据接口芯片;以及嵌在壳体表面的键盘、数据接口插座和音频接口插座;其特征在于,所说的语音处理芯片通过数据线、地址线和控制线与闪烁存储器相连,完成数据存储功能;所说的语音处理芯片与所说的音频接口插座相连,完成音频数据输入输出功能;所说的语音处理芯片与所说的键盘相连;用于控制按键操作;所说的数据接口芯片一方面与所说的语音处理芯片相连,另一方面与所说的数据接口插座相连,与PC机进行通讯。
本实用新型采用基于音素的非特定人语音处理芯片,实现了用于电话的基于音素的非特定人语音拨号器,具有如下特点1、在语音处理芯片上实现了基于音素的非特定人语音识别功能,在500词条识别任务下,识别率达到95%以上;2、识别词条无需事先训练,可以通过数据接口传送到拨号器中;3、采用高性能语音解码算法实现语音提醒功能;4、具有语音提示与语音回放功能,通过语音提示用户进行操作;5、每个人名词条下可以存放几组电话号码,包括手机号码、家庭电话、办公电话等。在检索到人名之后,可以进行第二次检索进行最终确认;6、具有体积小、重量轻、识别率高等突出特点,给使用者带来极大方便。


图1为本实用新型实施例的外观示意图。
图2为本实用新型实施例的总体结构图。
具体实施方式
本实用新型设计的一种用于电话的基于音素的非特定人语音拨号器的实施例,结合附图详细说明如下本实施例的外观示意图如图1所示。壳体可以分为底座1和按键操作台2两部分;其中,音频接口插座3、数据接口插座4和电源接口5嵌入于壳体的底座外表面,键盘6嵌入于壳体的按键操作台外表面。电话可以置于本实施例壳体的底座上方(图中未示出),方便用户使用。
本实施例的总体结构如图2所示,其组成为U1语音处理芯片(本实施例采用Infineon公司生产的UniSpeech芯片);U2闪烁存储器(本实施例采用SST公司生产的SST39VF1681芯片);U3音频接口插座;U4键盘(本实施例采用普通的按键和插座产品);U5数据接口芯片(本实施例采用MAXIM公司生产的MAX3232芯片);U6数据接口插座(本实施例采用普通的产品)。
本实施例的电路连接与功能说明如下1、语音通过电话的LINE线由音频接口插座U3输入到U1的ADC中,实现语音信号模/数转换功能。
2、经过数字化的语音信号在U1中,通过语音识别处理,输出结果通过U1的DAC将数字语音信号转换成模拟信号输出语音,再通过音频接口插座U3播放到LINE线上。
3、在识别处理过程中,U1语音处理芯片要向U2闪烁存储器读写程序与数据。因此U1与U2之间有双向数据、地址和控制信号线的连接。
4、在与PC机通讯过程中,U1语音处理芯片通过数据接口芯片U5和数据接口插座U6与PC机连接,进行数据的传输,因此U1与U5之间有数据线连接。
5、在整个拨号器工作中,U1起总控作用,对U4键盘进行控制,因此U1与U4进行连接。
本实施例的系统控制与语音处理过程说明如下1、语音处理芯片对整个拨号器起到总控作用,控制整个工作流程。
2、输入的数字语音信号进入到语音处理芯片后,进行语音识别处理本实施例在训练过程中,通过对事先采集到的大量的语音数据进行基于统计的EM训练,得到系统的声学模型。在识别阶段,机器将用户的输入语音特征与通过声学模型构建的识别网络进行匹配解码,得到识别结果。这样,用户只需要输入待识别词条的汉字,而无需进行预先训练就能开始识别,识别集的规模可以达到1000词,在600词的识别任务下,本实用新型实施例的识别率能够达到97%。
3、识别的结果以及操作提示音通过语音压缩解码算法合成提示音提示给用户。
本实用新型实施例的使用方法如下(1)输入过程为首先输入用于语音识别的词表信息,然后输入电话号码信息,每人可存储3个电话号码,包括手机号码、家庭电话、办公电话。输入可以通过串行数据接口下载到拨号器中。
(2)检索过程为摘机后通过语音识别查找到待呼叫的用户,在检索到人名之后,可以进行第二次检索查找电话类别,最终确认后拨出电话号码。
权利要求1.一种用于电话的基于音素的非特定人语音拨号器,包括一个壳体;设置在壳体内部的固化有基于音素的非特定人语音识别、语音合成与语音解码程序的语音处理芯片、闪烁存储器、数据接口芯片;以及嵌在壳体表面的键盘、数据接口插座和音频接口插座;其特征在于,所说的语音处理芯片通过数据线、地址线和控制线与闪烁存储器相连;所说的语音处理芯片与所说的音频接口插座相连;所说的语音处理芯片与所说的键盘相连;所说的数据接口芯片分别与所说的语音处理芯片和所说的数据接口插座相连。
专利摘要本实用新型涉及用于电话的基于音素的非特定人语音拨号器,属于语音技术领域,包括一个壳体;设置在壳体内部的固化有基于音素的非特定人语音识别、语音合成与语音解码程序的语音处理芯片、闪烁存储器、数据接口芯片;以及嵌在壳体表面的键盘、数据接口插座和音频接口插座;所说的语音处理芯片通过数据线、地址线和控制线与闪烁存储器相连;语音处理芯片与所说的音频接口插座相连;语音处理芯片与所说的键盘相连;数据接口芯片分别与所说的语音处理芯片和所说的数据接口插座相连。本实用新型不仅能够识别易混淆汉语语音,且语音识别率可以达到95%以上,达到实用水平,而且具有集成度高,综合性能比好,成本低,体积小,重量轻等突出特点。
文档编号H04M1/27GK2836356SQ200520132638
公开日2006年11月8日 申请日期2005年11月11日 优先权日2005年11月11日
发明者刘志 申请人:北京凌声芯语音科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1