一种基于共振峰频率的汉语普通话复韵母可视化方法

文档序号：2823734阅读：405来源：国知局

专利名称：一种基于共振峰频率的汉语普通话复韵母可视化方法
技术领域：
本发明涉及一种汉语普通话复韵母的可视化方法，特别是一种基于共振峰频率的复韵母可视化方法，属于语音可视化领域。
背景技术：
语音是人类发音器官发出的具有区别意义功能的声音，在人们的日常生活中是不可或缺的。但对于听力受损人群来说，由于接收不到充足的声音信息，流利顺畅的交流对他们来说常常是很困难的。研究表明，在人们对外界的感知过程中，获取信息最多的是视觉，其次才是听觉，而且视觉和听觉的结合比任何单一感官感知获取的信息都要多。另外，经验也告诉我们，图表是人们表达思想、传递信息最方便、最直观的方法之一，所以人们也试图从视觉上来感知语音，或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音可视化方法，即利用视觉元素来表现语音，达到“通过视觉感知语音”的目的，为听力受损人群有效感知语音、练习正确发音提供实际帮助。本发明之前，很多语音可视化方法都是基于人脸模型或发音器官。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小，舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量，如虚拟人脸合成、机器自动唇读等等。国际标准MPEG-4定义了人脸定义参数FDP (Facial Definition Parameter)、人脸动画参数FAP (facial animation parameter)和人脸动画参数度量单位FAPU(Facial Animation Parameter Unit)，其中FAP参数的优点已经使它成为人脸动画的国际标准，而且它通过定义人脸动画参数单位FAPU(facial animation parameter unit)规范了不同人脸差异，使得同样的参数可以在不同的人脸模型上做出相似的人脸表情。基于发音器官的运动变化以及面部表情的变化来实现语音可视化的方法较为人性化，有效地剖析了人体的发音过程，有助于听力受损人群练习发音。但是，对于软腭、下颚这些内部发音器官发出的音就难以通过视觉有效地表现出来。同时，就其语音可懂度而言，还难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动而准确、有效地感知语音。此外，视觉效果比较单一，表现力不强。此外，还有一些学者研究了人类的听觉特性，试图通过分析听觉器官的听觉机理，利用相应的听觉模型来获取语音信号之间的区别特征信息并加以可视化实现。但是，对于人类听觉特性的研究目前还处于初步阶段，我们所能利用的信息还非常有限。

发明内容
本发明所要解决的技术问题是要提供一种语音的可视化方法，通过将不同语音特征整合为单一图像，使图像具有可读性。这类方法采用不同的颜色、图标和不同的图标大小，以图像的方式在视觉上表示语音。与基于发音器官模型、人脸模型相比，基于语音特征整合的语音可视化方法具备良好的可读性、可懂度。无论听力受损人群还是普通人，在一个相对较短的训练之后，都可以直观地识别出对应发音的可视化图像。通过阅读该发明的可视化图像，我们可以很容易地把汉语普通话中双元音复韵母区分开来。本发明的技术方案是一种基于共振峰频率的汉语普通话复韵母语音可视化方法，包括以下步骤一、特征提取，具体方法为(1)对原始复韵母进行预滤波，消除工频干扰；(2)对预滤波之后的复韵母进行分帧、预加重、加窗与端点检测，确定复韵母的起始端点和结束端点；(3)提取起始端点和结束端点之间每帧信号的前三个共振峰频率F1、F2、F3 ；二、复韵母可视化实现步骤，具体方法为用横坐标表示第一共振峰频率F1，纵坐标表示两个共振峰频率之间的比值，对于每一帧，计算F2/F1和F3/F2的值，并将点(F1，F2/ F1)和(F1，F3/F2)分别用不同图标或不同颜色表示在坐标图上。坐标图上每个点的半径随帧数规律的增大或缩小，从而可以在坐标图上直观的反映出共振峰轨迹随时间的变化方向。有益效果(1)本发明将复韵母通过图像直观的进行表示，利用第一共振峰F1随时间的变化趋势及F2/F1与F3/F2随时间的变化趋势和相对位置关系来区分不同的汉语普通话复韵母发音。汉语普通话复韵母之间的图像差异明显，因此可以对复韵母语音信号进行准确区分。对于某些特定的复韵母，还可以通过两条轨迹的稀疏度和两条轨迹的交叠情况，更加准确地进行区分。(2)本发明只提取语音信号的短时平均能量、前三个共振峰频率等简单的语音声学参数，易于实现。

图1为汉语普通话复韵母语音可视化系统框图。
图2为共振峰频率求解流程图。
图3为男声汉语普通话复蔑J母ai语羞^视化效果示例图。
图4为女声汉语普通话复蔑J母ai语羞^视化效果示例图。
图5为男声汉语普通话复蔑J母ao语羞^视化效果示例图。
图6为女声汉语普通话复蔑J母ao语羞^视化效果示例图。
图7为男声汉语普通话复蔑J母ia语羞^视化效果示例图。
图8为女声汉语普通话复蔑J母ia语羞^视化效果示例图。
图9为男声汉语普通话复蔑J母ve语羞^视化效果示例图。
图10为女声汉语普通话复■韵母ve语:昏可视化效果示例图。
图11为男声汉语普通话复■钩母ua语:昏可视化效果示例图。
图12为女声汉语普通话复■韵母ua语:昏可视化效果示例图。
具体实施例方式下面结合附图，具体说明本发明的具体实施例。图1所示是实现了本发明所述方法的一个系统框图，主要分为两大块特征提取模块和可视化效果图形生成模块。一、特征提取模块，该模块实现了本发明的特征提取步骤。首先，将语音信号进行预滤波、分帧、加窗等预处理。然后直接提取每帧语音信号的短时能量、前3个共振峰频率，舍弃复韵母后半部分最后某些帧的共振峰频率之后进行相应的线性时间轴变换和平滑处理。(1)语音信号的短时能量其中，m是窗的起点，N是窗长(点数)。(2)利用LPC技术求解共振峰频率如图2所示，首先，利用LPC技术得到语音系统的传输函数H(Z)。一个数字滤波器的传输函数H(Z)的多项式的根对应着系统频率传输特性曲线的极点和零点。根据这一理论，这里的语音的传输函数H(Z)是全极型的，只有分母多项式，即其中M为线性预测阶数。令A(Z) = 0，可求出此多项式的M/2对共轭复根Zi = ηβ (3)ζ: = ψ~ 式中，是复根的模，Qi是幅角，。理论推导表明，它们与共振峰频率Fi有如下关系Fi = θ J2 π Ti (4)式中Ti是采样周期。对一般语音分析来说，M取值为10-18。(2)线性时间轴变换处理对于二合元音，对其区分起决定作用的是其起始段和中间过渡段的共振峰频率，因此我们首先舍弃复韵母后半部分某些帧的共振峰频率。由于不同复韵母的共振峰轨迹长度不同，由于不同复韵母的轨迹长度不同，我们需要对共振峰轨迹进行规整。规整后的共振峰长度本文取50帧，如果舍弃部分帧之后帧数小于50，就不再进行压缩，当帧数大于50时，规整系数为coeff =共振峰轨迹原始长度/规整后共振峰轨迹长度(5)设原先共振峰轨迹的η个结点为X1 < X2 < . . . . <χη,其对应的共振峰频率值为 Yi (i = l，2，....n)。规整后的共振峰轨迹的m个结点为对<4 < … <<，其对应的共振峰频率为 ZiG = l，2，....m)。为了得到规整后的共振峰轨迹<结点的频率值，首先将<结点映射到原始的共振峰频率上，得到相应的位置Xi，且Xl=Coeff^X0i (6)由于Xi在大多数情况下为非整数，我们就选取在Xi最靠近的两个点Xp1和xi+1的频率值计算规整后共振峰轨迹<的频率值
(7)(4)中值滤波平滑处理中值平滑处理是一种采用滑动窗的直方图统计处理的方法。其基本原理是设 {x(n)}为输入信号，{y(n)}为中值滤波器的输出，窗长为2L+1，那么处的输出值y (^) 就是将窗的中心移到％处时的窗内输入样点的中值。所谓的中值就是2L+1个输入样本
x (n。-L)，x (n。-L+l)，......，x (n。)，x (n。+l)，x (n。+2)，......，x (n。+L)进行统计，求出一个
累计直方图，其中1/2分位数就是中值。中值滤波可以纠正个别奇异点而不影响周围的样点的值。线性平滑是用滑动窗进行线性滤波处理，即例如三点窗的值可取{0. 25,0.5,0. 25}。线性平滑在纠正输入信号中不平滑处样点值的同时，也使附近各样点的值做了修改，以上两种平滑技术可以结合起来使用。二、可视化效果实现模块图3——图12所示为汉语普通话中双元音零声母韵母/ai/、/a0/、/ia/、/Ve/和/ ua/的可视化效果图，其中对应每个韵母又包括男声的发音和女声的发音。用横坐标表示第一共振峰频率F1，纵坐标表示两个共振峰频率之间的比值，对于每一帧，计算F2/F1和F3/ F2的值，并将点(Fl，F2/F1)和(Fl，F3/F2)分别用不同图标或不同颜色表示在坐标图上。在本实施例中，在每个视图中分别用红色的圆点和蓝色的菱形点表示F2/F1和F3/F2的相应图标。为了反映共振峰轨迹随时间的变化顺序，各个图标的半径按以下规律变化屯=3+i°_6(i表示第i个图标，屯为第i个图标直径)(10)在图像上反映了第一共振峰F1随时间的变化趋势以及Fl、F2、F3三者之间的关系，利用F1是否按照从大到小的变化顺序、F3/F2与F2/F1是否按照从大到小的变化趋势以及在视图中F3/F2的值是否大于F2/F1的值来区分不同汉语普通话双元音韵母发音，对于某些特定的复韵母，还可以看出它们的F2/F1轨迹分布比较稀疏，F3/F2轨迹和F2/F1轨迹在末尾处发生交叠，这都为我们更为准确地区分复韵母提供了附加的信息。具体方法为从图中可以看出，各个发音F1的变化趋势以及F2/F1和F3/F2的变化趋势及位置关系差异明显，人眼比较容易将它们分成几大类。个别发音的F2/F1和F3/F2轨迹呈现不连续，这主要是由于某些帧的共振峰提取错误所致。利用本发明所述方法，将汉语普通话复韵母语音信号表示成可以直观区分的坐标图，可以为听力受损人群有效感知语音、练习正确发音提供实际帮助。以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
一种基于共振峰频率的汉语普通话复韵母语音可视化方法，其特征在于，包括以下步骤一、特征提取，具体方法为(1)对原始复韵母进行预滤波，消除工频干扰；(2)对预滤波之后的复韵母进行分帧、预加重、加窗与端点检测，确定复韵母的起始端点和结束端点；(3)提取起始端点和结束端点之间每帧信号的前三个共振峰频率F1、F2、F3；二、复韵母可视化实现步骤，具体方法为用横坐标表示第一共振峰频率F1，纵坐标表示两个共振峰频率之间的比值，对于每一帧，计算F2/F1和F3/F2的值，并将点(F1，F2/F1)和(F1，F3/F2)分别用不同图标或不同颜色表示在坐标图上。
2.根据权利要求1所述的一种基于共振峰频率的汉语普通话复韵母语音可视化方法，，其特征在于，坐标图上每个点的半径随帧数规律的增大或缩小，从而可以在坐标图上直观的反映出共振峰轨迹随时间的变化方向。
全文摘要
本发明涉及一种基于共振峰频率的汉语普通话复韵母语音可视化方法，包括以下步骤一、特征提取，对原始复韵母进行预滤波、分帧、预加重、加窗与端点检测，并提取每帧信号的前三个共振峰频率F1、F2、F3；二、复韵母可视化实现步骤，用横坐标表示第一共振峰频率F1，纵坐标表示两个共振峰频率之间的比值，对于每一帧，计算F2/F1和F3/F2的值，并将点(F1，F2/F1)和(F1，F3/F2)分别用不同图标或不同颜色表示在坐标图上。本发明将复韵母通过图像直观的进行表示，可以准确的对复韵母的语音信号进行区分，且只提取语音信号的短时平均能量、前三个共振峰频率等简单的语音声学参数，易于实现。
文档编号G10L21/06GK101894566SQ20101023484
公开日2010年11月24日申请日期2010年7月23日优先权日2010年7月23日
发明者严静雨, 匡镜明, 王晶, 赵胜辉申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵胜辉;严静雨;王晶;匡镜明
技术所有人：北京理工大学
我是此专利的发明人

上一篇：利用频域滤波后处理进行音频暂态信号预回声抑制的方法
上一篇：信道译码方法、系统及装置的制作方法