在固定频率下调整语音速度的方法

文档序号：2829883阅读：935来源：国知局

专利名称：在固定频率下调整语音速度的方法
技术领域：
本发明涉及一种在固定频率下调整语音速度的方法，特别涉及一种针对语言学习机或电脑教学软体中的重播功能，将语音速度放慢或加快，而不改变其语音频率的方法。
一般的语言学习是录取录音带的语音于暂停前最后所放的一段予以重复播放，但常因原始语句速度过快而听不清楚，若将其放慢则不可能，因此，有些语言学习机设有速度快慢的调整钮，当速度调慢时仅仅是将录音机的马达转速变慢，或于重复放音时将单位时间内的取样点减少，从而造成语音的频率降低，甚至无法辨识语音内容。

图1是原始语音波形，而图二则为转速放慢后的波形，犹如对时间轴将原音波形拉长，因此而降低了频率。
因此本发明的主要目的是提供一种在固定频率下调整语音速度的方法，是将语音信息分割为若干小段，将每一小段重复两次，或将分割后的语音中的偶数段语音去除，使语音于固定频率下达到调整放音的速度。
本发明的在固定频率下调整语音速度的方法，包括将数字化语音信息分割为若干小段，使每一段内含有适当的点数；在每一段中取其最高点；由最高点向下寻找至零交叉点，并记录该零交叉点的位置；以最高点所在波尾端的零交叉点为切割点予以分段，以消除相邻两段语音连接处的间隙；在放音时取其单数段，使语音在固定频率下加快一倍的速度；在放音时使每一段连续取两次，使语音于固定频率下放慢一倍的速度；以及选取不同间隔的语音段，以调整不同的放音速度。
上述的方法是将语音信息分割为每一段含128个点或256个点，以防止再生语音失真。
上述的方法是以22K作为语音信息的取样频率，以利于辨识。
上述的方法是于每一小段中取其最高点，由该最高点向下寻找过零点，并记录该过零点位置，再以各段最高点波形尾瑞的过零点为切割点予以分段，以消除两段间之间隙，获取完整的语音波形。
本发明的主要特点将于结合以下附图进行详细说明图1是原始语音波形示意图；图2是一般语言学习机放慢转速的波形示意图；图3是2比特取样的波形示意图；图4是图3增加取样率的波形示意图；图5是3比特取样的波形示意图6是8比特取样的波形示意图；图7是22K频率的取样波形示意图；图8、图9是分割后的语音波形示意图；图10是本发明的语音波形示意图；图11是本发明的加快语音速度的波形示意图；图12和图13是本发明的不同速度调整取段参考表。
由于本发明在分段过程中，需将模拟语音讯号转换为数字语音信号，因此，先将该转换取样过程作一说明所谓取样率(Sampling rate)是单位时间内(每秒)的取样点数，以正弦波为例，当一个正弦波的信号被数字化时，如图3示，若以2个比特取样，因22=4，可有0-3共4个等级(level)，以2为零交叉点(Zerocrossing point，即作为波形中央的参考点或没有语音讯号时的基准点)，则如图所示，其直线段连成的波形为再生的波形，与原来的正弦波形存在相当的差距，而如图4所示，虽然已增加了取样率，但其精确度仍嫌不够。
因此，如图5所示，可增加为3比特来取样，因23=8，可有0-7共8个等级(level)，以4为零交叉点，使再生波较接近原正弦波，而一般则如图6所示，以8个比特取样，可将语音振幅分为0-255等256个等级，并以128为零交叉点。
由于一般的音乐中含有许多高频乐器，故需要较大的取样率，人耳的听力范围为20～20KHZ，语音频率于1KHZ以下，所以2K以上的取样率应足以辨识(如图7所示)。
如果将人们的语音放慢而不改变其频率，可将语音信息的语句分割为若干小段，假设每一小段内的波形变化不大，则将每一小段重复播放两次，即可达到速度放慢一倍的效果。由于语句的切割与重置如图8、9所示，相邻的两段之间连接处会出现间隙，使调整后的语音产生颤音，因此，要避免颤音的产生就需先除去间隙。但由于语音的信号相当复杂，若于每一段只获取一个完整的周期波非常不易，且语音的频率随时在变化，波长亦随之变化，因此很难以固定长度获取，于是，本发明是依据下列步骤改善上述的缺点1．将数字化的语音信息分割为每一段含128个点。
2．于每一段中取极大值，即最高点。
3．由最高点向下寻找零交叉点，并记录该零交叉点的位置。
4．以最高点波长尾瑞的零交叉点为切割点予以分段，则可消除两段连接处的间隙，因连接点的值均在零交叉点附近，且其斜率皆为负，因此连接点的线段较为平缓而少突出(如图10所示)。
上述每一段所含点数的适当值是由取样率决定，在22K的取样率下，若每段取1024点，则放慢的再生音有明显回音出现，若每一段取512点，则回音较少，而若每一段取256点或128点，则再生音失真极少，而若每一段取64点，则再生音有明显杂音出现。在22K的取样率下，每一段所含点数从128点至256点皆可。而若取样率为55K，则每一段所含点数为32～64点。
依前述的分段方法，若欲在固定频率下将语音速度加快，可在分段时只取单数段(即一、三、五…)(如图11所示)。
若欲加快一倍与放慢一倍间有其他的速度选择，则可如图12所显示的选取语音段的方法来调整语音速度，该列表中的第三栏的数字表示切割语音的序号，加圈者为此段被去除，未加圈者为被选取，第二栏中的t表示播放语音段数与原语音切割段数之比，而为利于程序设计时的处理，图12可归z纳为如图13的例表(其中的m表示切割的语音段的序号)。
权利要求
1．一种在固定频率下调整语音速度的方法，包括将数字化语音信息分割为若干小段，使每一段内含有适当的点数；在每一段中取其最高点；由最高点向下寻找至零交叉点，并记录该零交叉点的位置；以最高点所在波尾端的零交叉点为切割点予以分段，以消除相邻两段语音连接处的间隙；在放音时取其单数段，使语音在固定频率下加快一倍的速度；在放音时使每一段连续取两次，使语音于固定频率下放慢一倍的速度；以及选取不同间隔的语音段，以调整不同的放音速度。
2．如权利要求1所述的方法，其中该语音信息每一段所含的点数值，是以22KHZ作为取样率。
3．如权利要求1所述的方法，其中该语音信息所含的点数为128或256点。
全文摘要
一种在固定频率下调整语音速度的方法,是将语音信息分割为若干小段,在每一小段中取其最高点,由该最高点向下寻找零交叉点,并记录该零交叉点的位置,再以各段最高点波形尾端的零交叉点为切割点予以分段,以消除两段间之间隙。在放音时只取单数段或使每一小段连续重复两次,使放音速度放慢或加快,而且不会改变语音的频率。
文档编号G10L21/04GK1310439SQ0111056
公开日2001年8月29日申请日期2001年4月12日优先权日2001年4月12日
发明者潘必煜申请人:潘必煜

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘必煜
技术所有人：潘必煜
我是此专利的发明人

上一篇：个人电脑系统语音识别的电源控制装置的制作方法
上一篇：跟唱学习评分装置及方法