汉字发音资料库生成系统及其方法

文档序号：2830839阅读：359来源：国知局

专利名称：汉字发音资料库生成系统及其方法
技术领域：
本发明涉及一种资料库生成系统及其方法，尤其涉及一种汉字发音的资料库生成系统及其方法。
背景技术：
对于现有的语音技术而言，分为真人语音以及语音合成(Text To Speech, TTS )两种不同的语音技术。
真人语音技术是对于需要发音的单字、字词以及单句，通过人的发音，将需要发音的单字、字词以及单句进行朗读，并且录制人的发音，这种真人语音技术优点在于由于采用录制人的发音，因此对于发音具有高度的正确性。
但是，真人语音技术缺点在于由于采用录制人的发音，因此，对于不同的单字、字词以及单句需要录制不同的语音档案，会占据不小的储存空间，又因为真人语音技术仅能对已录制过的单字、字词以及单句进行发音，因此将无法任意的朗读单字、字词以及单句。
而语音合成技术为人工产生的发音，将单字、字词、单句以及文章的内容，通过语音合成器，产生出与单字、字词、单句以及文章的内容相对应的人工发音，这种语音合成技术的优点在于由于语音合成技术是通过语音合成器来产生对应的人工发音，因此可以对不同单字、字词、单句以及文章的内容进行人工发音，并且所占用的储存空间减少很多。
但是，语音合成技术的缺点在于由于语音合成技术是通过语音合成器来产生对应的人工发音，在使用上来说，会有发音不标准、音调错乱、发音错误以及听起来模糊不清的问题。
通过比较真人语音技术以及语音合成技术，可以明显地看出来，真人语音技术的优点却是语音合成技术的缺点，真人语音技术的缺点却是语音合成
技术的优点；是否能有效地将真人语音技术以及语音合成技术的优点整合, 即可以相互解决真人语音技术以及语音合成技术的缺点，这方面是值得研究的部份。
综上所述，可知先前技术中长期以来一直存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题，以及语音合成技术发音不准、音调不准等问题，因此有必要提出改进的技术手段，来解决此一问题。

发明内容
有鉴于先前技术存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题，以及语音合成技术发音不准、音调不准等问题，本发明遂揭露一种汉字发音资料库生成系统及其方法，其中
本发明所揭露的汉字发音资料库生成系统，汉字发音规则为声母音节、韵母音节以及音调的组合，包含录制模块、储存模块、语音资料库、生成
模块以及汉字发音资料库。
其中，录制模块，分别将声母音节和音调的组合、以及韵母音节和音调的组合，录制为数个音节；储存模块，用以将音节储存为语音资料库；生成模块，依据每一汉字配置至少一音节组合，并将音节组合对应至语音资料库的音节，以生成汉字发音资料库。
本发明所揭露的汉字发音资料库生成方法，汉字发音规则为声母音节、韵母音节以及音调的组合，包含下列步骤
首先，分别录制声母音节和音调的组合、以及韵母音节和音调的组合为数个音节；接着，储存音节至语音资料库；最后，依据每一汉字配置至少一音节组合，并将音节组合对应至语音资料库的音节，以生成汉字发音资料库。
本发明所揭露的汉字发音资料库生成系统与方法如上，与先前技术之间的差异在于本发明分别将声母音节与音调的组合、韵母音节与音调的组合，录制为数个音节，并储存至语音资料库，接着对每一个汉字配置至少一音节组合，用以生成汉字发音资料库；通过汉字发音资料库与语音资料库的对应关系，可以针对每一个汉字进行个别的发音，因此，只需要储存基本的音节，以及汉字对应的音节组合，语音资料所占据的储存空间将缩小许多，并且可以对不同的单字、字词、单句以及文章的内容进行发音，可以解决先前技术
存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题，以
及语音合成技术发音不准、音调不准等问题。
通过上述的技术手段，本发明可以达成减少语音资料储存空间以及对任意文章进行发音的技术功效。

图1为本发明汉字发音资料库生成系统方框图。
图2为本发明汉字发音资料库生成方法流程图。
图3为本发明语音资料库内容示意图。
图4为本发明汉字发音资料库内容示意图。
图5为本发明语音资料库及汉字发音资料库关联示意图。
具体实施例方式
以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
以下将说明本发明中汉字发音资料库生成系统，并请同时参考图1所示，图1为本发明汉字发音资料库生成系统方框图。本发明所揭露的汉字发音资料库生成系统，汉字发音规则为声母音节、韵母音节以及音调的组合，包含录制模块10、储存模块20、语音资料库30、生成模块40以及汉字发音资料库50。
首先，使用者可以通过录制模块IO分别将声母音节和音调的组合、以及韵母音节和音调的组合录制为数个音节，一个音节可以只有声母音节、声
母音节和音调的组合、只有韵母音节或者韵母音节和音调的组合。
分别以注音符号以及拼音符号举例来说，注音符号只有声母音节的音节有r勺j、「jm、「pm…等，拼音符号只有声母音节的音节有rb」、
「p」、「m」…等；注音符号为声母音节和音调的组合的音节有「尸 J 、
r卩'」…等,拼音符号为声母音节和音调的组合的音节有「sh」、「zJ…
等；注音符号只有韵母音节的音节有「丫」、r C」、「亡」…等，拼音符号只有韵母音节的音节有「a」、「o」、rej…等；注音符号为韵母音节
和音调的组合的音节有「 X v」、「 I 、 J…等，拼音符号为韵母音节和音调的组合的音节有「u」、n」…等。
将所有的只有声母音节的音节、声母音节和音调的组合的音节、只有韵母音节的音节、以及韵母音节和音调的组合的音节通过录制^t块io录制完
成后，接着，会通过储存模块20将所有录制的音节储存至语音资料库30中，这个语音资料库30即为发音的基本资料库。
当建立完成语音资料库30后，接着，生成模块40会依据汉字发音规则为每一汉字配置至少一音节组合，并将音节组合对应至语音资料库30的音
节，以生成汉字发音资料库50。
所谓的汉字发音规则，即一个汉字的发音为一个声母音节配合一个韵母音节以及音调以形成一个汉字的发音；音节组合即为一个声母音节配合一个韵母音节以及音调，等同于一个汉字的发音，因此，所生成的汉字发音资料库50包含汉字、词语以及分别对应汉字和词语的音节组合，汉字发音资料库50中音节组合以「声母音节+韵母音节音调J的形式储存，例如汉字
r你j的音节组合，其注音符号以及拼音符号分别为「3+1 3」以及rn
+ i3 J 。
在汉字的音节组合中，会有缺少声母音节或韵母音节以及声母音节或韵母音节不发音的情形，此时将以符号字符取代该音节组合中声母音节或韵母音节。
分别以注音符号以及拼音符号举例来说，缺少声母音节的汉字r额J ，注音符号以及拼音符号分别为r亡'」以及re」，此时为缺少声母音节的情形，因此本实施例中以符号字符「 $」取代声母音节，所以在汉字发音资料库50中r额」的音节组合，注音符号以及拼音符号分别为r $ +亡2」以及r $ + e2 J 。在拼音符号中，还有一种规则，具有声母音节但是却不发音，以汉字「衣J
为例，拼音符号为「yi』，此时的声母音节「y」是不发音的，因此，本实施例中以符号字符「 $」取代声母音节，所以在汉字发音资料库50中「衣J 的音节组合，注音符号以及拼音符号分别为「 $ + —」以及「 $ + il J 。
对于注音符号缺少韵母音节的汉字，以汉字「只」为例，注音符号为 rikv」，此时为缺少韵母音节的情形，因此本实施例中以符号字符r $ j 取代韵母音节，所以在汉字发音资料库50中「只」的音节组合为「 ik 3 + $ J 。
对照于拼音符号而言，注音符号缺少韵母音节在拼音符号中为韵母不发音的规则，同样以汉字「只」为例，拼音符号为「zhU ,此时为韵母不发音的规则，因此本实施例中以符号字符「 $」取代韵母音节，所以在汉字发音资料库50中「只」的音节组合为「 zh3 + $ J 。
当一个汉字中配置超过一个音节组合时，这种汉字即称为多音字，可以依照姓氏、动词、形容词以及发音频率等规则，优先排列多个音节组合的配置顺序，以所设定的规则为优先，将符合设定规则的音节组合优先配置顺序。
除此之外，本系统还可以包含字词模块61,用以将具有多音字字词及对应多音字字词的音节组合储存至汉字发音资料库50,当所需要发音的词语中与汉字发音资料库50储存的与其对应的多音字字词中相同汉字越多时，就会优先进行发音。
例如r为人」以及r为人民」这两个词语，r为人」的注音符号以及拼音符号分别为「乂 1 '日h '」以及「 wei ren」，「为人民J的注音符号以及4并音符号分别为「乂\、日、'nl一'」以及r weirenmin」，通过字词模块61分别在汉字发音资料库50储存的音节组合，「为人」即为「乂 + "V2日+~2」以及「 w + ei2r + en2」，r为人民J即为r 乂 + \ 4 日+h2门+ |、2」以及r w + ei4 r + en2 m + in2 J 。
因此，当遇到r他的为人」以及「他为人民服务」，r他的为人」所比对到的多音字字词为「为人」，而r他为人民服务」所比对到的多音字字词为r为人」以及i"为人民」两个多音字字词，选择多音字字词中相同汉字较多的字词作为发音标准，因此，「他为人民服务」选择「为人民」作为发音标准，经过上述的选择后，「他的为人」以及r他为人民服务」都可以正确地进行发音。
在录制音节时，由于所储存的音节占据的容量有限，因此可以釆用波形音频格式(wav)进行储存，并且可以通过音节控制模块62对预先录制的音节进行处理，可以控制每一个音节的播放时间以控制发音速度，使得发音会更接近真人发音。
接着，以一个具体的实施例来解说本发明的运作方式及流程，并请参照图2、图3、图4以及图5所示。图2为本发明汉字发音资料库生成方法流程图；图3为本发明语音资料库内容示意图；图4为本发明汉字发音资料库内容示意图；图5为本发明语音资料库及汉字发音资料库关联示意图。
如图3所示，使用者可以通过录制模块10分别将声母音节和音调的组合、以及韵母音节和音调的组合录制为数个音节(步骤100),以实施例而言，注音符号71 「 T J以及拼音符号72 「x」相互对应，通过录制模块10 所录制的音节73为「 x.wav」；注音符号71 r —厶2」以及4并音符号72「 ing2 J 相互对应，通过录制模块10所录制的音节73为「 ing2.wav」；注音符号71 r卩J以及拼音符号72 r z J相互对应，通过录制模块10所录制的音节73 为r z.wav」；注音符号71 r 3 3」以及4并音符号72 「 ou3」相互对应，通过录制模块10所录制的音节73为r ou3.wav J 。
在录制音节时，由于所储存的音节占据的容量有限，因此可以采用波形音频格式(wav)进行储存，并且可以通过音节控制模块62对预先录制的音节进行处理，可以控制每一个音节的播放时间以控制发音速度(步骤420), 使得发音会更接近真人发音。
接着，会通过储存模块20将所有录制的音节73储存至语音资料库30 (步骤200)中，这个语音资料库30即为发音的基本资料库，并请参照图3 所示。
如图4所示，当建立完成语音资料库30后，接着，生成模块40会依据汉字发音规则为每一汉语字词74配置至少一注音音节组合75以及至少一4并音音节组合76，并将注音音节组合75以及^f音音节组合76对应至语音资料库30的音节73，以生成汉字发音资料库50 (步骤300)，汉字发音资料库50与语音资料库30之间的对应关系请参考图5所示。
在汉语字词74的注音音节组合75以及拼音音节组合76中，会有缺少声母音节或韵母音节以及声母音节或韵母音节不发音的情形，此时将以符号字符取代注音音节组合75以及拼音音节组合76中的声母音节或是韵母音
节
以实施例来说，汉语字词74 「额」，注音符号71以及拼音符号72分别为「亡'」以及「e」，此时为缺少声母音节的情形，因此本实施例中以符号字符「 $」取代声母音节，所以在汉字发音资料库50中汉语字词74「额J 的注音音节组合75以.及拼音音节组合76分别为「 $ +亡2 J以及r $ + e2 J。
在拼音符号中，还有一种规则，具有声母音节但是却不发音，实施例中的汉语字词74 「衣」，拼音符号72为「 yi」，此时的声母音节「 y」是不发音的，因此，本实施例中以符号字符「 $」取代声母音节，所以在汉字发音资料库50中汉语字词74 「衣」的注音音节组合75以及拼音音节组合76分别为「 $ + —」以及r $ + il J 。
实施例中的汉语字词74 「只」为注音符号中缺少韵母音节的汉字，其注音符号71为「虫v」，此时为缺少韵母音节的情形，因此本实施例中以符号字符「 $」取代韵母音节，所以在汉字发音资料库50汉语字词74中「只J 的注音音节组合75为「虫3 + $ J 。
对照于拼音符号而言，注音符号缺少韵母音节在拼音符号中为韵母不发音的规则，同样以汉语字词74 「只J为例，其4并音符号72为「zhi」，此时为韵母不发音的规则，因此本实施例中以符号字符「 $ j取代韵母音节，所以在汉字发音资料库50汉语字词74中r只」的拼音音节组合76为「 zh3 + $ J 。
实施例中的汉语字词74「啊」，为标准多音字的实施例，同时具有五种音调，其注音符号71以及拼音符号72分别为r 丫」、「丫 '」、「丫 v J 、
r 丫、 j及r 丫 j以及r al j 、 r a2 j 、 r a3 j 、 r a4 j及r a5 j ,在汉字发音资料库50汉语字词74中「啊」的注音音节组合75以及拼音音节组合76分别为「$+丫1」、「$+丫2」、「$+丫3」、「$+丫4」及
r $ + 丫 5 J以及r $ + al J 、 r $ + a2 j 、 r $ + a3 j 、 r $ + a4 j及r $+ a5 J 。
除此之外，也可以通过字词模块61将具有多音字字词及对应多音字字词的注音音节组合75以及拼音音节组合76储存至汉字发音资料库50 (步骤410)，当所需要发音的汉语字词74中与汉字发音资料库50存储的多音字字词中相同汉字越多时，会优先进行发音。
以实施例而言，r 4亍走J以及r行业J这两个汉i吾字词74, r行走J的注音符号71以及拼音符号72分别为「丁 1厶'卩3 v」以及「xingzou J,r行业」的注音符号71以及拼音符号72分别为r厂尤，I廿、J以及r hangye」，通过字词模块61分别在汉字发音资料库50储存的注音音节组合75以及拼音音节组合76中，r行走J即为「丁+|厶2卩+ 33」以及「 x+ ing2 z + ou3」，r 4亍业J即为「厂+尤2 $+|廿4」以及「 h + ang2 $+ ye4 J 。
最后，如图5所示，汉字发音资料库50的注音音节组合75以及拼音音节组合76对应至语音资料库30的音节73，如图所示，r行走」的注音音节组合75以及拼音音节组合76为「丁+ 1/_2卩+ 73」以及「乂 + ing2 z+ ou3」，其中，「 T」以及「 x」与语音资料库30的音节73 r x.wav」对应；r I厶2」以及「 ing2」与语音资料库30的音节73 r ing2.wav」对应；r卩J以及r z」与语音资料库30的音节73 「 z.wav」对应；「33」以及「 ou3 J与语音资料库30的音节73 「 ou3.wav」对应。
因此，当需要进行「行走J的发音时，即可以读取对应的音节73档案，并且播放，即可以达到发音的功能。
综上所述，可知本发明与先前技术之间的差异在于本发明分别将声母音节与音调的组合、韵母音节与音调的组合，录制为数个音节，并储存至语音资料库，接着对每一个汉字配置至少一音节组合，用以生成汉字发音资料库；通过汉字发音资料库与语音资料库的对应关系，可以针对每一个汉字进行个别的发音，因此，只需要储存基本的音节，以及汉字对应的音节组合，语音资料所占据的储存空间将缩小许多，并且可以对不同的单字、字词、单句以及文章的内容进行发音，藉由此一技术手段可以解决先前技术存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题，以及语音合成技术发音不准、音调不准等问题，进而达成减少语音资料储存空间以及对任意文章进行发音的技术功效。
虽然本发明所揭露的实施方式如上，但所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作些许更动。本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。
权利要求
1、一种汉字发音资料库生成系统，汉字发音规则为一声母音节、一韵母音节以及一音调的组合，其特征在于，包含一录制模块，分别将所述声母音节及所述音调的组合、以及所述韵母音节及所述音调的组合，录制为数个音节；一储存模块，用以将所述音节储存为一语音资料库；及一生成模块，依据每一汉字配置至少一音节组合，并将所述音节组合对应至所述语音资料库的所述音节，以生成一汉字发音资料库。
2、如权利要求1所述的汉字发音资料库生成系统，其特征在于，所述音节组合中，缺少所述声母音节或所述韵母音节、或者所述声母音节或所述韵母音节不发音时，以一符号字符取代该音节组合中的该声母音节或该韵母音节。
3、如权利要求1所述的汉字发音资料库生成系统，其特征在于，所述音节组合包含通过姓氏、动词、形容词以及发音频率，优先排列所述音节组合的配置顺序。
4、如权利要求1所述的汉字发音资料库生成系统，其特征在于，还包含一字词模块，用以将具有多音字字词的所述音节组合储存至所述汉字发音资料库。
5、如权利要求1所述的汉字发音资料库生成系统，其特征在于，还包含一音节控制模块，用以控制所述音节的播放时间以控制发音速度。
6、一种汉字发音资料库生成方法，汉字发音规则为一声母音节、一韵母音节以及一音调的组合，其特征在于，包含下列步骤分别录制所述声母音节及所述音调的组合、以及所述韵母音节及所述音调的组合为数个音节；储存所述音节至一语音资料库；及依据每一汉字配置至少一音节组合，并将所述音节组合对应至所述语音资料库的所述音节，以生成一汉字发音资料库。
7、如权利要求6所述的汉字发音资料库生成方法，其特征在于，所述音节组合中，缺少所述声母音节或所述韵母音节、或者所述声母音节或所述韵母音节不发音时，以一符号字符取代该声母音节或该韵母音节。
8、如权利要求6所述的汉字发音资料库生成方法，其特征在于，所述音节组合包含通过姓氏、动词、形容词以及发音频率，优先排列所述音节组合的配置顺序。
9、如权利要求6所述的汉字发音资料库生成方法，其特征在于，还包含储存具有多音字字词的所述音节组合至所述汉字发音资料库的步骤。
10、如权利要求6所述的汉字发音资料库生成方法，其特征在于，还包含控制所述音节的播放时间以控制发音速度的步骤。
全文摘要
一种汉字发音资料库生成系统及其方法，其通过分别将声母音节和音调的组合以及韵母音节和音调的组合，录制为数个音节储存为语音资料库，给汉字配置音节组合生成汉字发音资料库；通过汉字发音资料库以及语音资料库对应的技术手段，可以解决先前技术中所存在的真人语音技术占用存储空间过大且无法对任意文章进行发音的问题，以及语音合成技术发音不准、音调不准等问题，藉此可以达成减少语音资料储存空间以及对任意文章进行发音的技术功效。
文档编号G10L13/08GK101556796SQ20081008976
公开日2009年10月14日申请日期2008年4月10日优先权日2008年4月10日
发明者程新军, 邱全成申请人:英业达股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邱全成;程新军
技术所有人：英业达股份有限公司
我是此专利的发明人

上一篇：编码方法、解码方法、系统及装置的制作方法
上一篇：编码方法及装置、解码方法及装置的制作方法