专利名称:文字文件自动标示时间的装置与方法
技术领域:
本发明涉及一种文字文件标示时间的装置与方法,尤其涉及一种通过语 音辨识进行文字文件自动标示时间的装置与方法。
背景技术:
不论是语言学习机或是语音播放器(例如,MP3 player),目前大部分的设 备都具有词曲同步的功能。也就是当使用者在听取语言朗读或歌曲播放时, 会有相对应的文字(朗读内容或歌词),跟随着语音文件一同播放。以便让使 用者能一边聆听语音文件, 一边读取和语音文件互相对应的文字。如此,当 使用者利用具有词曲同步功能的设备学习语言或聆听歌曲时,可以增加语言 学习的效率或加速歌曲学习的效率。目前常见的词曲同步的文件为LRC文件,而所谓LRC文件的格式简单 来说就是时间信息后面跟随着一段文字信息。其中,时间信息所代表的意义 就是这段文字信息在语音文件内的起始时间。所以,只要从语音文件的这个 时间开始播放,也就可以听到与这段文字信息相对应的语音内容。也因为有 类似LRC这种格式的文件出现,市面上才会产生许多具有词曲同步功能的 产品或软件。但以目前的技术来看,LRC文件的制作大部分是以人工制作的方式来完 成。也就是根据文字和语音文件的内容来进行文句所对应的时间标示。简单 来说,就是将文字部分所对应到语音文件的时间,利用人工的方法逐句标示 出来。如此,将造成大量的时间与人力的浪费。例如,中国台湾申请专利第92117564号"伴唱歌词的编辑系统及其编 辑与显示的方法"。该专利提供应用于计算机可执行接口上,通过使用者编 辑伴唱音乐旋律相对应的歌词,并且定义每段歌曲的起始时间用于显示时, 能够精确的依据歌曲时长显示并且变化相对应字符呈现,让使用者能够轻易 的跟唱。其所公开的技术便是需要通过使用者编辑伴唱音乐旋律相对应之歌词,也就是采用上述所介绍的人工自行标示时间的方式,来完成伴唱歌曲中 文字文件(歌词)能词曲同步的功能。此外目前相关的研究文献中,有尝试将关键词汇加以整理并将所有关键 词汇结构化,以快速算法来实现大字汇的关键词萃取,并对其辨识率及辨识效能作研究。以及,以PDA为平台的语音控制系统,讨论以类神经网络为 主之向量量化过程,对语音系统辨识率的影响。使用的方法包括利用数字信 号处理技术撷取语音特征参数,向量量化方法作前处理,以及隐马尔可夫模 型为主的辨识及训练算法。上述所提及的文献,主要的研究内容着重在语音辨识的技巧上。无法达 到将语音文件相对应的文字文件自动标示时间的功能。因此,如何让文字文 件可以自动标示时间,而节省人工标示时间所花费的时间与金钱,为一亟待 解决的问题。发明内容有鉴于此本发明提出一种文字文件自动标示时间的装置与方法,通过语 音辨识进行文字文件自动标示时间。利用本发明可将文字文件中的每一个句 子自动标示出对应于语音文件的时间。因此,不需再像传统技术一样,利用 人工的方式逐句标示文字文件对应到语音文件的时间。如此,将大幅节省时 间与人力的花费。本发明所提出之一种文字文件自动标示时间的装置包含接收模块、语 音辨识模块及标示模块。接收模块接收文字文件与语音文件。其中,文字文件由多个句子所组成。 语音辨识模块将文字文件中的句子转换为语音模型,并依据间隔时间将语音文件划分为多个帧(frame)且依序编号,计算出帧与语音模型互相匹配(match) 的最佳语音路径。标示模块依据最佳语音路径撷取出每一句子的开头所对应 的帧的编号,由帧的编号与间隔时间取得每一句子的开头对应于语音文件的 起始时间,并标示起始时间于文字文件。本发明提出一种文字文件自动标示时间的方法,通过语音辨识进行文字 文件自动标示时间,包含下列步骤。接收文字文件与语音文件,而该文字文 件由多个句子所组成。转换文字文件中的句子为语音模型。依据间隔时间将语音文件划分为多个帧(frame)且依序编号。计算出帧与语音模型互相匹配(match)的最佳语音路径。依据最佳语音路径撷取出每一句子的开头所对应的帧的编号。依据帧的编号与间隔时间取得每一句子的开头对应于语音文件的 起始时间。最后,标示起始时间于文字文件。通过本发明的方法可将文字文件中的每一个句子自动标示出对应于语 音文件的起始时间,不需再如传统技术一样利用人工的方式逐句标示时间, 进而节省大量的时间与人力的花费。有关本发明的较佳实施例及其功效,配合
如后。
图1为本发明文字文件自动标示时间的装置的示意图。 图2为语音辨识模块的示意图。 图3为最佳语音路径示意图。图4为本发明文字文件自动标示时间的方法流程图。图5为计算最佳语音路径的细部方法流程图。其中,附图标记说明如下Sl、 S2、 S3、 S4:句子F卜FN:帧10:文字文件12:语音文件14:语音模型20:接收模块30:语音辨识模块32:撷取模块34:第一计算模块36:第二计算模块38:最佳语音路径40:标示模块具体实施方式
图1为本发明文字文件自动标示时间的装置的示意图。如图1所示,本发明的文字文件自动标示时间的装置包含接收模块20、语音辨识模块30及 标示模块40。接收模块20接收文字文件10与语音文件12。其中,文字文件10及语 音文件12为互相对应的文件,例如语音文件12记录英文朗读会话的语音 内容,而文字文件IO便是记录该英文朗读会话的文字内容;或语音文件12 为流行歌曲,而文字文件10即为该流行歌曲的歌词。文字文件10就如同一 般所见的文章一般,记录着与语音文件12互相对应的文字,而一篇文章由 多个句子所组成。所以,文字文件10也是由多个句子所组成。语音辨识模块30将文字文件10中的所有句子转换为语音模型。其中, 语音模型属于隐马尔可夫模型(Hidden Markov Model, HMM)。所谓隐马尔 可夫模型是一种统计模型,用来描述一个具有隐含未知参数的马尔可夫过 程。从可观察的参数中确定该过程的隐含未知参数,然后利用这些参数作进 一步的分析。而现在大部分的语音辨识系统即是采用隐马尔可夫模型,利用 概率模型来描述发音的现象,将一小段语音的发音过程,看成是一个马尔可 夫模型中连续的状态转移。将文字文件10转换为语音模型,举例来说如果文字文件10为中文,由 于中文的文字拼音是由声母和韵母所组成,例如"租"这个字的拼音是由声母 「卩」和韵母「X」所组成。当文字文件10为中文时,语音模型便是利用 中文的声母和韵母所训练而成的隐马尔可夫模型。所以,将文字文件10中 的每一个句子转换成由声母和韵母所组成的语音模型。相对的,如果文字文 件10为英文的话,语音模型就是利用英文的元音和辅音所训练而成的隐马 尔可夫模型。所以,当文字文件10为英文时,便将文字文件10中的每一个 句子转换成由元音和辅音所组成的语音模型。接着依据间隔时间将语音文件12划分为多个帧(frame)且依序编号。其 中,间隔时间约为23-30毫秒。在隐马尔可夫模型中,每一个帧所呈现的特 征参数,可看成是在某个状态下的产出结果。而状态的转移,以及在一个状 态下的产出结果,都可以概率模型来描述。不论是利用隐马尔可夫模型或其 它的语音辨识概念,先将语音文件12划分为基本的语音单位,也就是所谓 的帧,再进行后续的语音辨识处理,将可提高语音辨识处理上的便利性与准确性,同时可加快运算上的速度。接下来语音辨识模块30依据语音文件12所划分的多个帧,与文字文件 10所转换的语音模型,计算出帧与语音模型互相匹配(match)的最佳语音路径。标示模块40依据语音辨识模块30所产生的最佳语音路径,撷取出文字 文件10中每一个句子的开头所对应的帧的编号。再通过帧的编号与间隔时 间取得每一个句子的开头对应于语音文件12的起始时间。假设,与语音文 件12相对应的文字文件10包含4个句子。当语音文件12的帧起始时间为 30秒,而且经由语音辨识的结果为文字文件第二个句子的开头,那么30秒 便是文字文件10中第二个句子的起始时间。也就是说,当语音文件12的播 放时间为30秒时,所播放的内容刚好是文字文件10中第二个句子的开头, 那么30秒便是文字文件10中第二个句子对应到语音文件12的起始时间。 同样的,当语音文件12的帧起始时间为55秒,且经由语音辨识的结果为文 字文件第三个句子的开头,那么55秒便是文字文件10中第三个句子的起始 时间。也就是说,当语音文件12继续播放至时间为55秒时,所播放的内容 刚好是文字文件10中第三个句子的开头,那么55秒便是文字文件10中第 三个句子对应到语音文件12的起始时间,以此类推。其中,依据最佳语音路径撷取出文字文件10中每一个句子的开头所对 应帧的编号后,由于帧的间隔时间可依使用者需求或依计算上的要求自行选 取。因此,每个句子的起始时间的算法,可由每个句子开头所对应的帧编号 乘上每个帧的间隔时间而取得。例如,假设间隔时间设定为25毫秒且每个 帧都没有重叠,也就是语音文件12每间隔25毫秒就划分为一个帧。假设, 文字文件10中第二个句子的开头,经由最佳语音路径撷取出对应的帧编号 为1200,由于每帧所包含的时间为25毫秒,因此文字文件10中第二个句子 的开头对应于语音文件12的起始时间为帧的编号乘上间隔时间 (1200*25mS=30s),可得到第二个句子的开头对应于语音文件12的起始时间 为30秒。同样的,文字文件10中第三个句子的开头,经由最佳语音路径撷 取出对应的帧编号为2200,因此第三个句子的开头对应于语音文件12的起 始时间为帧的编号乘上间隔时间(2200*251118=558),可得到第三个句子的开头 对应于语音文件12的起始时间为55秒。最后,标示模块40标示起始时间于文字文件10。取得文字文件10中每 一个句子的开头对应于语音文件12之起始时间后,将一个句子的起始时间 标示于文字文件IO。如此,类似LRC文件一样,文字文件10不仅记录对应 于语音文件12的文字内容,更记录每一个句子的开头的起始时间。所以, 语音文件12只要从某一个句子的起始时间开始播放,也就可以听到与该句 子文字内容相对应的语音内容,达到词曲同步的功能。且不需再如传统技术 中那样利用人工的方式来标示时间,通过本发明的装置可将文字文件10中 的每一个句子自动标示出对应于语音文件12的起始时间。请参照图2,图2为语音辨识模块的示意图。本发明之文字文件自动标 示时间的装置中,语音辨识模块30包括撷取模块32、第一计算模块34及 第二计算模块36。语音信号有一项重要的特性,在不同时间,虽然发出的语音是同一句话 或同一个音,但其波形却不尽相同,也可以说语音是一种随时间而变化的动 态性信号。语音辨识就是要从这些动态的信号中找出规律性, 一旦找到规律 性之后,语音信号在怎么随时间变化,大抵都能指出它们的特性所在,进而 将语音信号辨识出来。这种规律性在语音辨识上称为特征参数(feature parameter),也就是能够代表语音信号特性的参数。而语音辨识的基本原理就 是以这些特征参数作为基础。因此一开始,撷取模块32先撷取出语音文件 12中的每一个帧所对应的特征参数,以利后续语音辨识的处理。由于前述的语音模型可以属于隐马尔可夫模型,而隐马尔可夫模型是一 种概率与统计方面的方法,适合运用在语音特性的描述,因为语音是一种多 参数的随机处理信号,经由隐马尔可夫模型的处理,可以精准的推测出所有 的参数。因此,接下来第一计算模块34,利用第一算法计算出每一个特征参 数与语音模型的一比对概率。其中,第一算法可以为正向过程(forward procedure)算法或逆向过程(backward procedure)算法。假设隐马尔可夫模型 的状态数目为N,且隐马尔可夫模型允许由某一状态转移到任何状态,则所 有状态转换序列数目为N1。当T值太大时,使得概率的计算量会过于繁重。 因此,可以采用正向过程算法或逆向过程算法,来加速计算出特征参数与语 音模型的比对概率。图3为为最佳语音路径示意图。如图3所示,第二计算模块36依据第一计算模块34所计算出的比对概率,并利用第二算法,计算出最佳语音路径 38。其中,第二算法可以采用维特比算法(viterbi algorithm)。假设文字文件 IO中有四个句子依序为Sl、 S2、 S3及S4。首先,将这四个句子依顺序转 换为语音模型14,再将对应于文字文件10的语音文件12划分为多个帧 (F1 FN)。而维特比算法以语音文件12的多个帧(F1 FN)为横轴,以文字文 件10所转换的语音模型14为纵轴来进行辨识。维特比算法可以将每一个帧 最有可能对应的语音模型标示出来。当语音文件12中所有帧的特征参数都 处理完后,可以得到经由维特比算法所计算出 一条全部帧与语音模型最相 似的最佳语音路径38。如图3所示可见,通过最佳语音路径38可以撷取出每一个句子的开头 所对应帧的编号。根据每一个句子的帧的编号与每一个帧所包含的间隔时 间,即可得到每一个句子的开头对应于语音文件12的起始时间。图4为为文字文件自动标示时间的方法流程图,图4包含下列步骤步骤S10:接收文字文件与语音文件。其中,文字文件及语音文件为互 相对应的文件,且文字文件由多个句子所组成。步骤S20:转换文字文件中的句子为语音模型。其中,语音模型属于隐 马尔可夫模型。步骤S30:将步骤S10所接收的语音文件,依据间隔时间划分为多个帧 且依序编号。其中,间隔时间约为23-30毫秒。步骤S40:计算出帧与语音模型互相匹配的最佳语音路径。此步骤可再 细分为三个步骤,将在下面介绍。步骤S50:依据最佳语音路径撷取出每一个句子的开头所对应帧的编号。步骤S60:依据帧的编号与间隔时间取得每一个句子的开头对应于语音 文件的起始时间。由于帧的间隔时间可依使用者需求或依计算上的要求自行 选取。因此,每个句子的起始时间的算法,可由步骤S50所取得的每个句子 开头所对应的帧编号乘上每个帧的间隔时间而取得。步骤S70:最后,标示每一个句子的开头之起始时间于文字文件。如此, 文字文件除了记录对应于语音文件的文字内容外,更记录每一个句子的开头 的起始时间。因此,语音文件只要从的某一个句子的起始时间开始播放,就 可以听到与该句子文字内容相对应的语音内容,而达到词曲同步的功能。通过本发明的方法可将文字文件中的每一个句子自动标示出对应于语音文件 的起始时间,不需再如传统技术一样利用人工的方式逐句标示时间,进而节 省大量的时间与人力的花费。上述步骤S40计算出帧与语音模型互相匹配之最佳语音路径,包含下列 步骤,请参照图5,图5为计算最佳语音路径的细部方法流程图。步骤S42:撷取每一个帧相对应之特征参数。虽然语音信号是一种随时 间而变化的动态信号,但只要找出语音信号中每一个短时距(shorttime)或 称为一个帧的规律性,那么不论语音信号如何随时间变化,大致上都能找出 其特性所在,进而将语音信号辨识出来。而这种规律性在语音辨识上称为特 征参数(feature parameter),也就是能够代表语音信号特性的参数。因此,先 将每一个帧的特征参数撷取出来,以利后续语音辨识的处理。步骤S44:利用第一算法计算出每一个特征参数与语音模型的比对概率。 其中,第一算法可以为正向过程算法或逆向过程算法。步骤S46:依据步骤S44所计算出的每一个特征参数与语音模型的比对 概率,再利用第二算法计算出最佳语音路径。其中,第二算法可以采用维特 比算法。如图3所示,利用维特比算法计算出的最佳语音路径,再通过最佳 语音路径撷取出文字文件中每一个句子的开头所对应的帧的编号。根据每一 个句子的帧的编号与每一个帧所包含的间隔时间,即可取得每一个句子的开 头对应于语音文件的起始时间。虽然本发明的技术内容已经以较佳实施例公开如上,然而其并非用以限 定本发明的专利保护范围,任何本领域的普通技术人员,在不脱离本发明的 精神所作的更动与润饰,均应涵盖于本发明的专利保护范围内,因此本发明 的保护范围应当以所属权利要求书界定的专利保护范围为准。
权利要求
1. 一种文字文件自动标示时间的装置,包括接收模块,接收文字文件与语音文件,该文字文件由多个句子所组成;语音辨识模块,将该文字文件中的所述句子转换为语音模型,并依据一间隔时间将该语音文件划分为多个帧且依序编号,计算出所述帧与该语音模型互相匹配的最佳语音路径;及标示模块,依据该最佳语音路径撷取出每一所述句子的开头所对应的该帧的编号,由该帧的编号与该间隔时间取得每一所述句子的开头对应于该语音文件的一起始时间,并标示该起始时间于该文字文件。
2. 如权利要求1所述的文字文件自动标示时间的装置,其中该语音模型 属于隐马尔可夫模型。
3. 如权利要求1所述的文字文件自动标示时间的装置,其中该间隔时间 约为23~30毫秒。
4. 如权利要求1所述的文字文件自动标示时间的装置,其中该语音辨识模块还包括撷取模块,撷取每一所述帧相对应的一特征参数;第一计算模块,利用第一算法计算出每一所述特征参数与该语音模型的 比对概率;及第二计算模块,依据该比对概率并利用第二算法,计算出该最佳语音路径。
5. 如权利要求4所述的文字文件自动标示时间的装置,其中该第一算法 为正向过程算法。
6. 如权利要求4所述的文字文件自动标示时间的装置,其中该第一算法 为逆向过程算法。
7. 如权利要求4所述的文字文件自动标示时间的装置,其中该第二算法 为维特比算法。
8. 如权利要求1所述的文字文件自动标示时间的装置,其中该起始时间 由该帧的编号乘上该间隔时间而取得。
9. 一种文字文件自动标示时间的方法,包括下列步骤接收文字文件与语音文件,该文字文件由多个句子所组成;转换该文字文件中的所述句子为语音模型; 依据间隔时间将该语音文件划分为多个帧且依序编号; 计算出所述帧与该语音模型互相匹配之一最佳语音路径; 依据所述最佳语音路径撷取出每一所述句子的开头所对应的该帧的编号;依据该帧的编号与该间隔时间取得每一所述句子的开头对应于该语音 文件的一起始时间;及标示该起始时间于该文字文件。
10. 如权利要求9所述的文字文件自动标示时间的方法,其中该语音模型 属于一隐马尔可夫模型。
11. 如权利要求9所述的文字文件自动标示时间的方法,其中该间隔时间 约为23~30毫秒。
12. 如权利要求9所述的文字文件自动标示时间的方法,其中该计算步骤 还包括下列步骤撷取每一所述帧相对应的一特征参数;利用一第一算法计算出每一所述特征参数与该语音模型之一比对概率;及依据该比对概率并利用第二算法,计算出该最佳语音路径。
13. 如权利要求12所述的文字文件自动标示时间的方法,其中该第一算 法为正向过程算法。
14. 如权利要求12所述的文字文件自动标示时间的方法,其中该第一算法为逆向过程算法。
15. 如权利要求12所述的文字文件自动标示时间的方法,其中该第二算 法为维特比算法。
16. 如权利要求9所述的文字文件自动标示时间的方法,其中该起始时间 由该帧的编号乘上该间隔时间而取得。
全文摘要
一种文字文件自动标示时间的装置与方法;接收模块接收文字文件与语音文件,其中文字文件由多个句子所组成;语音辨识模块将文字文件中的句子转换为语音模型,并依据间隔时间将语音文件划分为多个帧且依序编号,通过语音撷取将帧的语音数据变成特征参数,并计算出帧与语音模型互相匹配的最佳语音路径;标示模块依据最佳语音路径撷取出每一句子的开头所对应的帧的编号,由帧的编号与间隔时间取得每一句子的开头对应于语音文件的起始时间,并标示起始时间于文字文件。通过本发明的方法可将文字文件中的每一个句子自动标示出对应于语音文件的起始时间,不需再如传统技术一样利用人工的方式逐句标示时间,进而节省大量的时间与人力的花费。
文档编号G10L13/04GK101266790SQ20071008862
公开日2008年9月17日 申请日期2007年3月16日 优先权日2007年3月16日
发明者赵平峡, 颜睿余, 颜铭祥 申请人:微星科技股份有限公司