专利名称:汉语声控电脑打字机的制作方法
技术领域:
本发明属语言通讯和电子打字机技术。
要求计算机<俗称电脑>听懂人类的自然语言是当前世界上尚未完全解决的重大难题,而语言的计算机识别是解决这一难题的关键。对于特定人的孤立字、词、小词汇的语音识别技术,目前国内外都已经比较成熟。对于英语、德语、和日语的几百个孤立字、词的较大词汇集的语言识别系统都已经出现。美国IBM(国际商业机器)公司从1978年就开始研制大词汇集的英语声控电脑打字机,在1986年的IEEE(美国电子电气工程师协会)国际信息论会议上,IBM公司以F.Jelinek(F.杰林尼克)为首的研究小组推出一种英语语音识别系统,在IBM-PC/AT微型计算机上实现了5,000个字、词的识别〔F.Jelinek,“Speechrecognitionbystatisticalmethods”,Abstractsofpapers,1986.IEEE.ISIT.(F.杰林尼克,“统计方法的语音识别”,一九八六年IEEE国际信息论会议论文摘要)〕。但是,对于汉语的大词汇集的语音识别,在本发明前,一直还没有得到解决。目前市场上的中、外文电子打字机,如美国IBM公司的IBM5550多功能中文电脑,中国北京四通集团公司最新推出的MS-2402中、外文电子打字机,都只是通过键盘手工操作来输入汉字。
本发明的目的就是为了解决汉语大词汇集的语音识别问题,创造出一种操作方便、打印快捷的具有语言直接输入的汉语声控电脑打字机。
本发明的汉语声控电脑打字机的系统方框图如图1所示,主要由建立在微型计算机系统基础上的语言输入及其识别、中文字词库、屏幕显示和中文打印机等部分组成。其基本工作过程如下首先检测出语言信号中音节的端点,并找出音节中声母与韵母的分界点,然后分别对声母部分和韵母部分作声母分类识别和韵母及声调识别,识别出的声母、韵母和声调送到检索、显示、打印控制软件,通过检索中文字、词库找出相应的汉字词,在屏幕上显示识别出的汉字并在打印机上打印出来。
一、语音识别语音识别是本发明的最关键技术。其根据是汉语语音的每个音节都是由声母、韵母和声调三要素组成,采用独立识别21个声母、36个韵母、和5个声调(阴、阳、上、去、轻)的方法,实现了大词汇集的识别。对语音进行识别之前,首先必须找出语音的起始点和终止点,以区分有声和无声情况。语音音节始、终点的位置,主要依据能量和过零率,用硬件电话作实时判决。同时进行声、韵母的划分,找出声、韵母的分界点。
1.声、韵母的划分声母和韵母的分界点是根据声、韵母的频域特征和能量特征来划分的。塞音(b、d、g、p、t、k)的能量集中在200Hz以下的频段擦音(zh、ch、sh、z、c、s、j、q、x、f、h)的高频能量丰富,1KHz以下不再含有它们的成分;鼻音能量小;元音的能量主要集中在200Hz~1KHz的频域中。我们用200Hz高通滤波器和1KHz低通滤波器(均采用6阶切比雪夫滤波器)组成200Hz~1KHz带通滤波器来滤除辅音,通过整流和积分求出相应的能量,再通过比较器适当设置门限来找到元音的起始点,这就是声母、韵母的分界点。
声、韵母划分方框图如图2所示。语音处理及声、韵母划分电路原理图如图3a)、图3b)所示。其工作过程如下集成电路IC1~IC3组成放大器,语音信号由S输入,经放大器放大后的信号分三路处理,一路经IC4~IC7组成的3.4KHz低通滤波器后,再经IC8组成的跟随器进入晶体管BG1构成的电平位移电路,然后输进到模/数(A/D)变换器;第二路是找出音节起始点,放大后的信号经IC9~IC11组成的3阶1.5KHz~15KHz的高频提升电路,使高频声母(辅音)信号在此电路得到加强,再经IC12、IC13、IC14分别组成的全波整流器、积分器、比较器。适当调节电位器R42,D点便可输出音节起始点判断信号;第三路是找声、韵母分界点及音节终止点。放大后的信号经由IC15~IC18组成的200Hz切比雪夫高通滤波器和由IC19~IC22组成的1KHz低通滤波器滤波,再经IC23组成的整流器和IC24组成的积分电路,最后经IC25组成的滞后比较器比较,从E点输出声、韵母划分点和音节终止点的控制信号。
2.韵母的识别韵母识别方框图如图4所示。其工作过程如下首先对输入信号求LPC系数(线性预测系数)ai,然后求解代数方程Σi = 010]]>aiZi=0,(i=0、1、2……10)。从所得的根中很容易地确定其走向,便可对韵母进行分类、识别。汉语韵母总共可分为下列七类第一类全部单元音和三元音韵母/uei/、/iou/的简化读法/ui/、/iu/第二类/ai/、/ao/第三类/ia/、/ua/第四类/ei/、/ou/第五类/ie/、/ue/、/uo/第六类/iao/、/uai/第七类/iou/、/uei/同一类中的元素以F2走向为区别特征。如下面所示,/ai/和/ao/的F1走向是相同的,但F2走向不同。
3.声母的分类识别汉语声母分类识别主要根据声母的平均过零率、时域波形周期性、音长、发音能量变化和声、韵母过渡音的过零率等特征把声母分成不送气塞音(b、d、g)、送气塞音(p、t、k)、浊辅音(m、n、l、r)、不送气塞擦音(z、zh、j)、送气塞擦音(c、ch、q)和擦音(s、sh、x、f、h)六类。声母分类识别流程图如图5所示,其工作过程如下首先根据音长T分出不送气塞音(b、d、g),然后根据过零率Cz分出非擦音和擦音;在非擦音中,根据音长T分出(b、d、g)和(m、n、l、r),根据周期性DT分出(m、n、l、r),再根据过渡音的过零率下降率Kc把(b、d、g)与(p、t、k)分开;在擦音中,根据音长T分出(z、zh、j)和(s、sh、x、f、h),再根据发音能量上升率KE把(z、zh、j)、(c、ch、q)和(s、sh、x、f、h)分开。
4.声调的识别汉语四声声调是由基音周期的变化决定的。四声各声调对应基音周期变化情况如图6所示。为识别声调,必须首先检测基音周期,我们采用时间弯折(DTW)波形匹配法,通过比较相邻的两段信号的相似性来找出基音周期,再根据基音周期Tc随发音持续时间t的变化来判别四声各声调。轻声则根据能量和音长作出判断。
二、中文字库和词库中文字库和词库包含有常用的几千个单字词和数千条多字词(可以根据需要适当地增减)。对单字词的检索,本词库根据词的用途进行分类,即按人名、地名、常用动词、常用名词、常用助词及介词和连接词分类,共分为五大类。以手工辅助的方法按要求在每类中进行检索,从而减少了模糊检索时重码词的条数。多字词是根据词中各字的关系以词为单位进行检索,从而减少了同音字词的出现;字、词库具有模糊检索功能,它根据前面给出的声母和韵母的模糊识别结果及准确的声调,快速地检索出相应的字、词。语音识别系统对声母、韵母的识别结果是以模糊子集给出的,这样经过计算机适当的运算,便可求出按隶属度大小排列的若干个词条来,以供操作者选择。这样设计的词库,大大减少了语音识别系统对识别结果的苛刻要求。为了提高检索速度,检索词库时采用了树分类检索法。字、词库的模糊检索程序流程图如图7所示。其工作过程如下首先在约定的内存缓冲区中取出前面语音识别系统存放的声调、声母和韵母的识别结果,对单字词,则根据声调、声母类别和韵母找出所有符合声调及声、韵母搭配条件的词检索码组成模糊集合R1,按语音识别系统给出的各声母和韵母的确定程度计算出R1中各词检索码所对应的隶属度,然后按隶属度大小排列并选择隶属度最大的词检索码送到检索、显示、打印子程序;对双字词或多字词,同样是根据声调、声母类别和韵母求出R2或R3,再算出各词检索码的隶属度,然后按大小排列并选择隶属度最大的词检索码送去检索、显示、打印子程序;检索、显示、打印控制子程序流程图如图8a)、图8b)、图8c)所示首先确定光标位置,取出前面主程序从R中选出词检索码,求出相应的词库(单字词、双字词或多字词)所在地址,根据检索码在词库中检索所有与该组码符合的词,如果找到的是唯一的一个词,则在显示缓冲区取出相应的汉字机内码送到屏幕显示,并根据需要送到打印机打印;如果找到一个以上的词,则在屏幕重码选择显示区显示出所有的同码词,等待键盘选择输入后再把选到的词送去显示打印;如果找不到一个词,则从前面主程序的R中选出隶属度次最大的词检索码,重复上述检索、显示、打印过程,如仍找不到一个词,则认为词库中不含有相应的词,提示操作者并返回主程序。
三、显示及编辑功能屏幕显示操作提示和识别出的字、词,在存在同音字词时,给出可供操作者选择的字词,然后可以用键盘输入所选择的需要的词。显示及编辑功能是由图8a)、8b)、8c)所示的显示控制软件子程序控制而实现的。
四、打印功能在如图8a)、b)、c)所示的打印控制软件子程序和中文打字系统的控制下,打印机便将识别出的字、词打印在纸上。
本发明积极意义是通过采用声、韵母分开的识别方法和以词为单位进行模糊检索,创造性地解决了汉语大词汇集的识别问题,并通过微型计算机把汉语大词汇集的语音识别系统与打印机配合,创造出新一代的中文电子打字机-汉语声控电脑打字机。由于汉语声控电脑打字机具有快速输入、操作容易、简便、打印快速等优点,将必然会被人们很快接受。同时,汉语大词汇集的语音识别问题的解决,为计算机直接听懂人类自然语言创造了有利条件。所以本发明对实现计算机快速输入,对加速信息流通和加快办公自动化的进程将起到决定性的积极推动作用。
下面对
如下图1为汉语声控电脑打字机系统方框图。
图2为声、韵母划分方框图。
图3为语音预处理及声、韵母划分电路原理图。图中IC1~IC25均为LF347四运放集成电路;BG1为晶体管3DG6;D1~D9为二极管1N4007。
图4为韵母识别框图。
图5为声母分类识别流程图。图中T代表音长、CZ代表平均过零率、DT代表周期性分析、KE代表发音的能量变化上升率、KC代表过渡音过零率下降率。
图6为各声调对应基音周期变化图。图中Tc为基音周期;t是发音持续时间;1、2、3、4分别代表四声调。
图7为字、词库模糊检索程序流程图。
图8a)、8b)、8c)为检索、显示、打印控制软件子程序流程图。
本发明的实施例,只要按照图1所示的汉语声控电脑打字机系统方框图,从话筒(拾音器)输入语音信号,经由图3所示的语音预处理及声、韵母划分电路图进行调试、制作的电路板,检测出语音信号中音节的端点,并找出声、韵母分界点,再按本发明说明书前面所提供的方法通过软件控制电脑分别作声母分类识别和韵母及声调识别,然后把识别出的声母、韵母和声调送到计算机,并通过检索、显示、打印控制软件控制检索中文字、词库找出相应的字、词,在屏幕上显示出经识别的汉字,并由打印机打印在纸上。
权利要求
1.一种由端点检测后用声、韵母分开的语音识别系统,中文字、词库及通过计算机以检索、显示、打印控制软件控制的屏幕显示、中文打印机共同组成的汉语声控电脑打字机,其特征在于具有语音直接输入,用声、韵母分开方法进行声母分类识别和韵母、声调识别的语音识别系统;以词为单位进行树分类法模糊检索的中文字、词库及检索、显示、打印控制软件。
2.权利要求1中所述语音识别系统,其特征是语言经放大器、高频提升电路、整流器、积分器、比较器检测出音节起始点;放大后的语言信号经高通滤波器、低通滤波器、整流器、积分器、滞后比较器找出声、韵母划分点和音节终止点;再通过软件控制电脑分别作声母分类识别和韵母、声调识别。
3.权利要求1所述检索、显示、打印控制软件,其特征是包括有确定光标位置、取出词检索码、求出相应词库地址、检索与该组码符合的词并控制屏幕显示和打印机打印之程序。
全文摘要
本发明一汉语声控电脑打字机属语音通讯和电子打字机技术。其主要特征是语音直接输入,用声韵母分开进行声母、韵母和声调识别及中文字词库以词为单位进行模糊检索。本发明创造性地解决了汉语大词汇集的识别问题,创造出新一代中文电子打字机,它具有快速输入、操作简便、打印迅捷等优点。同时汉语大词汇集的语音识别的解决为计算机直接听懂人类语言创造了条件,对实现计算机输入、加速信息流通和办公自动化进程起到决定性作用。
文档编号G06K15/02GK1038892SQ88103868
公开日1990年1月17日 申请日期1988年6月22日 优先权日1988年6月22日
发明者徐秉铮, 杜明辉, 邹荫荣, 吴立忠, 李海洲, 梁耀荣, 陈穗霞 申请人:华南理工大学