专利名称:基于组合特征的汉语声韵母可视化方法
技术领域:
本发明涉及一种汉语音声母和韵母的可视化方法,特别涉及ー种基于组合特征的汉语声韵母可视化方法。
背景技术:
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的ー种依托。而对聋哑人来说,语言交流变成一件很难实现的事情,一部分聋哑人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑。研究表明,人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统,视觉系统是ー个高度并行的信息接收和处理系统,人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连,形成ー个高度并行的信道,视觉信道接受信息的速率是很高的,据测量和估算,看电视时的信息接收速率大致可达到
2x IO4み/S,这比听觉系统听语音时的信息接收速度高出上千倍,因此人们相信人类
所获得的信息有70%是通过视觉获得的说法。所以对于聋哑人人来说,这无疑就是ー个很大的助手,听觉的缺陷由视觉来补偿,语音不仅能听见,还可以通过多种其他形式使聋哑人“看,,见。1947年R. K. Potter和G. A. Kopp等人就提出了一种可视化方法一语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L. C. Stewart等人提出了有色谱图和1984年G. M. Kuhn等人提出了对聋人进行训练的实时的语谱图系统,以及1986年P. E. Stern、1998年F. Plante和2008年R. Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。此外,还有ー些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化,有效地剖析了人的发音过程,但就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语
曰
发明内容
本发明所要解决的技术问题是提供一种简单便于记忆且高鲁棒性的基于组合特征的语音可视化方法,通过该方法可帮助聋哑人进行语言训练,建立、完善听觉认知、形成正确的言语反射,重建听觉言语链,可以最大可能的恢复自身的语音功能。本发明的技术解决方案是
一种基于组合特征的汉语声韵母可视化方法,包括以下步骤
I、语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;
2、特征提取
(2. I)计算出预处理后的语音信号的帧数作为其音长特征;
(2. 2)采用频域峰值幅度大小和平均幅度大小的ー种对比关系表示谐振强度特征,对于分巾贞后的语音信号,姆巾贞语音信号的谐振强度为
权利要求
1. 一种基于组合特征的汉语声韵母可视化方法,其特征是 1.1、语音信号预处理 通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测; I. 2、特征提取 (a)计算出预处理后的语音信号的帧数作为其音长特征; (b)采用频域峰值幅度大小和平均幅度大小的一种对比关系表示谐振强度特征,对于分帧后的语音信号,每帧语音信号的谐振强度为
2.根据权利要求I所述的基于组合特征的汉语声韵母可视化方法,其特征是所述图像合成时,先获得宽度信息和长度信息确定图像大小,然后在图像位置添加主颜色信息,最后用图案信息置换相应位置的主颜色信息,获得相应的语音图像。
3.根据权利要求I所述的基于组合特征的汉语声韵母可视化方法,其特征是所述语音信号预处理时,采样量化由处理单元以11.025kHz的采样频率、16bit的量化精度进行;预加重是通过一阶数字预加重滤波器实现,其预加重滤波器的系数取值为O. 93-0. 97 ;分帧加窗是以帧长256点的标准进行,并对分帧后的数据加汉明窗处理,端点检测是利用短时能零积法进行。
4.根据权利要求I或2所述的基于组合特征的汉语声韵母可视化方法,其特征是所述图像宽度信息=音长特征乂 k, k的取值以使显示的图像最利于观察者观察识别为原则。
5.根据权利要求I或2所述的基于组合特征的汉语声韵母可视化方法,其特征是所述图像长度信息=各帧谐振强度特征平均值X r,r的取值以使显示的图像最利于观察者观察识别为原则。
6.根据权利要求I所述的基于组合特征的汉语声韵母可视化方法,其特征是所述声母图像的图案为白色质地,所述韵母图像的图案为黑色质地。
7.根据权利要求I所述的基于组合特征的汉语声韵母可视化方法,其特征是所述采用频域峰值幅度大小和平均幅度大小的对比关系表示谐振强度特征时,以256个点为一帧。
全文摘要
一种基于组合特征的汉语声韵母可视化方法,步骤为语音信号预处理;计算出预处理后语音信号的帧数作为其音长特征,采用频域峰值幅度大小和平均幅度大小的对比关系表示谐振强度特征,得到每帧信号的共振峰特征值,计算出鲁棒特征参数WPTC1~WPTC20和PMUSIC-MFCC1~PMUSIC-MFCC12;采用音长特征和谐振强度特征分别对图像宽度信息和图像长度信息进行编码;采用共振峰特征对主颜色信息进行编码;所述32个特征参数作为神经网络的输入,神经网络的输出即为相应的图案信息,依次对应着23个声母和24个韵母;把宽度、长度、主颜色与图案信息融合在一幅图像中在显示屏上显示。优点是可帮助聋哑人进行语言训练,建立、完善听觉认知,形成正确的言语反射,恢复自身的语音功能。
文档编号G10L21/06GK102820037SQ201210252989
公开日2012年12月12日 申请日期2012年7月21日 优先权日2012年7月21日
发明者韩志艳, 伦淑娴, 王健, 于忠党, 郭艳东, 尹作友, 郭兆正, 王巍, 韩建群, 苏宪利 申请人:渤海大学