实现多源文件的音频信号重放的方法和系统的制作方法

文档序号：2834364阅读：216来源：国知局

专利名称：实现多源文件的音频信号重放的方法和系统的制作方法
技术领域：
本发明一般涉及语音识别的领域，本发明特别是涉及显示式计算机用的多源输入和重放应用程序。
由于个人计算机的出现，人与计算机的交互主要通过键盘进行。作为典型方式，当用户打算将信息输入到计算机中时，他在与计算机连接的键盘上键入该信息。其它的输入装置已构成对键盘的补充，其包括鼠标，触屏显示器，集成的指示器和扫描仪。使用这些其它输入装置使用户花费在将数据或命令输入到计算机中的时间减少。
基于计算机的语音识别和语音识别系统还用于个人计算机中的数据或命令输入。语音识别和语音识别系统将人的语音转换为计算机理解的格式。当计算机带有声音或语音识别系统时，可仅仅通过将数据读入计算机输入装置中，进行数据输入。作为典型方式，用户说话的速度快于普通的数据输入。于是，通过人的语音播放数据的固有速度是在个人计算机中装入语音识别和语音识别系统的优点。
用户对带有语音识别和语音识别系统的个人计算机进行操作的效率的提高促进了在工作场合对该系统的应用。各种产业中的许多工作人员目前使用多种应用程序的语音识别和语音识别系统。比如，DRAGON,IBM,LERNOUT&HAUSPIE开发了采用语音识别和语音识别技术的计算机软件程序。当用户相对语音识别程序做出口述或大声读文件时，该程序可将用户说出的字直接输入到字处理程序或在个人计算机上操作的其它应用程序中。
一般，以计算机为主的语音识别和语音识别程序将人的语音转换为一组数字化的频率。这些频率与预先存入的一组称为“音素”的字或语言元素相对应。
音素为区别口述语言中的一个声音与另一个声音的最小语音单位。每个音素可包括一个或多个相应的音素变体。音素变体为音素的声学表示。特定的音素可具有许多音素变体，每个发音因音素在一个词中的位置或相同字母组的语言中的不同发音而稍有不同。比如，在字“boy”与“beyond”中，音素/b/的发音是不同的。每个发音为该音素/b/的音素变体。
上述应用程序根据音素的最有可能的文本表示，按照本领域的普通技术人员公知的方式，对这些音素进行处理，将它们转换为文本。之后，该文本显示于字处理程序，或其它应用程序，比如，电子表格，数据库，万维网浏览器，能够接收声音输入并且将其转换为显示文本或程序命令。多源输入和重放应用程序可存储音频数据。该音频数据可按照各种格式存储于各种介质上，该介质包括易失RAM，长期磁性存储器，光介质，比如CD-ROM。可进一步将上述音频数据压缩以便使存储要求减小到最小程度。上述应用程序还可将所存储的音频数据与今后重放用的音频数据所产生的文本相关联。当计算机确定该组频率的正确匹配时，便完成人的语音中的上述部分的计算机识别。对上述频率匹配进行编译，直至收集足够的信息供计算机反应。之后，该计算机可通过将该语音存储于存储器中，将语音转成可由字处理程序操纵的文件文本，或执行应用程序中的命令的方式对一些口述字做出反应。
预计自然语音输入系统最终会进入市场。该系统将不要求用户按照计算机理解的任何特定方式进行讲话，而是刚好相反，该系统能够理解用户对计算机的命令和待输入计算机中的信息之间的差别。
由于该技术没有进展，故目前的语音识别系统不是完全可靠的。即使通过硬件和软件的修正，最高级的语音识别和语音识别系统所达到的可靠度仍不超过97～99％。内部和外部因素会对语音识别和语音识别系统的可靠度造成影响。取决于识别技术本身的因素包括讲话者语言中本身的一组有限的字或音素，以及上述语音识别软件可将讲话者的输入与其进行比较的词汇。环境因素，比如，地方口音，外部噪音，麦克风质量会使上述输入的质量降低，由此影响用户的字词的频率，并且将潜在的错误引入到字词或音素匹配中。
因此，通过语音识别软件转换的口述的文件经常包含识别错误。与键入错误不同，其简单的错误，比如字母的位置的互换，容易确认和纠正，而识别错误经常是较严重的。典型的识别错误不是字母的代替或位置互换，而是类似声音的字词的整个代替。比如，典型的语音识别错误为将短语“recognize speech”转换为“wreck a nice beach.”，这些短语发音类似，但它们具有完全不同的含义。此外，对包含该识别错误的文件进行校对的编辑程序不会立即再调用所需的短语，从而导致不必要的混淆。
按照传统方式，用户试图通过按照它们校对文件的方式，大声朗读字，使该混淆到达最小程度。由于当朗读该文件时，声音的类似是显然的，故该措施有助于确认所需的短语。但是，在口述和编辑文件之间会花费大量的时间，用户会忘记所需的短语是什么。
已知的目前的语言识别产品试图通过将口述会话作为音频数据存储，使存储的音频数据与相应的转换字相关联的方式解决该问题。用户可选择单独的字或文本顺序并要求与选定的部分相对应的音频信号的重放。
虽然这样有助于用户识别所需的转换文本，但是在下述场合，产生严重的问题，该场合指用户在口述会话和要求音频信号重放之间的时间内已经对该文件进行了编辑。于是，用户面临要求重放通过混合的输入源产生的文件的部分的前景。
比如，用户会口述“I wish my computer could recognize speech.”，而语音识别系统将该短语转换为“I wish my computer could wreck a nicebeach.”，如果在之后，用户键入“I”与“wish”之间的字“really”，则该文件具有混合的输入源。于是，当用户按照其显示于屏幕上的方式(I really wish my computer could wreck a nice beach”)选择句子并且要求重放时，音频数据不与字“really”相关联，因为其是键入的，不是口述的。
在此场合，已知的目前语音识别平台不能够进行该重放选择。相反，上述语音识别系统将错误的信息返回给用户，这样无法获得上述重放的启动，因为音频数据对于所有选定的文本来说是不存在的。这样便迫使用户试图回想文件中的哪个部分是键入的，哪个部分是口述的，之后对该文本进行重新选择。上述解决方案本身是无效的，因为其要求用户依次试图回想已在用户的记忆中不清楚的口述会话，以便存取任何的音频信号重放。
一般来说，本发明涉及个人计算机用的多源输入和重放应用程序。该多源和重放应用程序从多个输入源接收输入。将这些输入转换为文本，将该文本显示于显示屏上。当用户口述文本时，该语音输入作为音频数据存储于存储介质上或系统存储器中。从语音输入转换的文本与该存储的音频数据相关联。从书写输入板转换成的文本，或通过键盘键入的文本不与任何的音频数据相关联。用户可按照要求，通过键盘，鼠标，或其它输入装置，对该文本进行编辑。作为典型方式，通过直接将修改内容键入上述文本中，进行编辑性修改，从而不具有相关联的存储的音频数据。
上述多源输入和重放应用程序还使用户选定的文本部分发音。在所有选定的文本与存储的音频数据相关联的情况下，重放音频数据。如果选定的文本的部分不具有相关联的音频数据，则上述应用程序检索文本语音转换的(“TTS”)音频输入，以所检索到的输入，填充存储的音频信号重放中的任何间隙。于是，当用户选择重放用的多源文本部分时，该文本的发音包括可获取的重放的音频数据和根据需要而引入的文本语音转换的混合体。
本发明通过简单的提供输入文本的发音的方法来满足上述认定的需要，该文本通过使用包括非语音输入的多源输入方法输入，通过对缺少任何的相关联的音频数据的字词的文本语音转换的输入的检索，可通过计算机从整体上，而不是通过错误的信息，以发音方式播放多源文件。此外，所有选定的文本中的连续性重放，使因跳过非口述的文本部分而造成的用户的混淆程度减小到最小。

图1为个人计算机的方框图，该个人计算机提供本发明的实施例的举例性操作环境；图2为表示多源输入和重放系统的软件结构的方框图；图3为表示通过多源输入和重放系统输入的文本文件的部分的屏幕显示；
图3A为表示针对音频信号重放而选择的经编辑的文本文件的部分的屏幕显示；图4为表示选择多源文件的部分并且使其发音的方法的逻辑流程图。
本发明可在多源输入和重放应用程序中实现，该程序从不同的输入装置，接收各种格式的用户的输入，将这些用户的输入转换为文本。用户可通过各种输入装置，输入不同数据格式，该输入装置包括键盘(用于键入的数据)，麦克风(用于音频数据)，指示笔输入板(用于手写体)，接触面板或鼠标(用于从数据组中选择元素)等。
一旦将用户的输入转换，则可将该文本文件显示于显示器上。显示器的例子包括CRT监视器，触摸屏，LCD屏显示器等。然后，用户可选择该文本文件的部分，提出音频信号重放要求。
由于包括口音，说话速度，背景噪音等各种因素，上述多源输入和重放应用程序会对用户的语音误识别。所有这些噪音会使应用程序选择下述音素，该音素无法与通过用户口述的音素变体相匹配。在此场合，上述转换的文本是不准确的。
上述文本与上述口述会有很大程度的不同，从而用户不能仅仅根据转换的文件的视觉提示回想起最初所说的内容。在此场合，用户可从显示屏选择文本的部分，并且要求多源输入与重放应用程序使用于产生所选定的文本的语音大声发音。一旦用户选择重放的文本的部分，该应用程序使选定的文本变为高光亮状态，以便为用户提供可视反馈。作为替换方式，该反馈可包括以不同的颜色显示选定的文本，使该文本闪烁，或从剩余的文件中辨别出选定的文本。
之后，上述应用程序检索与选定的文本相对应的音频数据，通过扬声器播放该音频数据。该多源输入与重放应用程序会有选择地插入视觉提示，该提示表示正在播放的音频数据与文件中的哪个部分相对应。比如，光标或球会停留于与音频重放的当前部分相对应的字上，并且随着重放的继续而移动。随着该应用程序播放上述相对应的音频数据，在显示面上，正在重放的字会闪烁或标出下划线。
用户会希望对所口述的文件进行编辑，以便添加新的内容或纠正语音识别错误。虽然他们还可应用语音模块，但是一般用户通过借助键盘将修改内容直接输入到多源输入与重放应用程序中的方式，而不是通过口述添加的修改内容的方式，对该文件进行编辑。作为替换方式，用户可通过在触摸板上进行书写，使用手写输入笔或类似装置，对文件进行校对。
因此，上述文件会包括多源输入语音已用于形成该文件的第1部分，而键入或手写操作已用于形成第2和其它部分。
用户可要求包含多源输入的文件的部分的音频信号重放。其结果是，多源输入与重放应用程序确定选定的部分中的哪个字与所存储的音频数据相关联，而哪个字是与该音频数据无关的。作为典型方式，该应用程序通过对该选定部分中的第1字至最后一个字逐个进行检查的方式，进行上述的确定。作为替换方式，上述应用程序可设定具有音频数据的文本的部分用的指示器，引导该应用程序指向字组的存储位置，而不是逐字地进行检查。在没有音频数据与上述文件中的选定部分中的字相关联的情况下，上述多源输入和重放应用程序确定是否存在与该字相对应文本语音转换(TTS)输入。如果具有相对应的TTS输入，则该应用程序检索和播放该输入。如果不存在TTS输入，则该多源输入和重放应用程序将该字分解为其组成音素，检索与上述音素的最可能的音素变体相对应的TTS输入，并且播放该TTS输入。比如，最后的名称“Hemenway”可能不包括相对应的TTS输入。于是，该应用程序将该字分解为其组成音素，并且选择这些因素的最可能的音素变体。一旦该多源输入和重放应用程序选择该音素的TTS输入，该应用程序重放该输入。这个步骤连续进行，直至通过该应用程序使该字中的所有音素“发音”。
作为替换方式，该多源输入和重放应用程序可对该文本选择进行句法分析，确定没有与之相关联的存储的音频数据的所有字。按照此方式，该应用程序可立即确定所有未相关联的字的最接近的TTS，而不是进行对TTS模块的多次调用。这样便通过将TTS调用的数量保持在最小程度的方式，使CPU在该应用程序的部分上的使用减小到最小程度。在此替换方式中，检索全部有关联的音频数据，并且将其保持在系统存储器中，直至上述多源输入和重放应用程序获得每个非相关联的字的TTS输入。之后，该应用程序从系统存储器中，依次重放该音频数据和TTS输入，而不从存储介质中，连续地播出音频数据和TTS输入。
该应用程序还可在重放之前，加速，减慢，或以其它方式改变TTS输入，以便与所存储的音频数据相匹配。该应用程序可对音频数据波形进行分析，提取比如，语音速度，声调的高低，音调，音色这样的信息。之后，该应用信息还可改变TTS输入中的这些特性，以便使TTS的声音与讲话者本人的语音风格更加近似。
另一实施例可按照最初口述的方式那样，重放与该文本的口述部分相对应的音频信号。在此实例中，所选定的短语“I really wish my computercould wreck a nice beach”将按照“I wish my computer could recognizespeech”重放。当相对文件的编辑性修改，或键入的添加内容较长时，这样会导致由于较长的插入修改内容，用户不能够仿效音频信号重放的情况。
另一可能的实施例涉及将重放中的停顿插入到与键入的字相对应的位置。调用下述实例，对短语“I wish my computer could recognizespeech”进行了编辑，以便在“I”与“wish”之间插入字“really”。在本实施例中，选定的文本的音频信号重放发音成“I”[停顿]“wish mycomputer could recognize speech”，在该短语中，停顿表明存在键入的字“really”。音频信号重放的停止和重新开始会使用户确信当实际上到达停顿点时，音频信号停止。此外，当将整个句子或段落插入口述的文件中时，上述停顿的范围可以是较大的。
虽然本发明是以字处理程序作为举例性的应用程序而进行描述的，但是本发明同样适用于许多其它的应用程序。比如，作为替换的应用程序可包括电子表格，浏览器，电子邮件程序，音乐转录程序，CAD程序，操作系统，以及对于本领域的普通技术人员来说是很容易知道的其它程序。
上述多源输入和重放应用程序包括后面将要描述的各种程序模块。本领域的普通技术人员会意识到这些模块可按照各种方式进行组合，并且能够形成新的程序模块以便实现类似的结果。比如，输入界面和文本语音转换模块可构成操作系统或处理程序中的一部分，或如上述独立的形式。同样，手写体识别程序模块，语音识别程序模块，以及输入方法编辑程序可为单独的程序，或构成字处理程序的或操作系统中的基本部分，或所有3个程序的单独的程序包。
举例性操作环境图1和下面的分析用于对实现本发明的适合计算环境100的简要和一般性描述。该举例性操作环境100包括普通的个人计算机系统120，该系统包括处理单元121，系统存储器122，系统总线123，该系统总线123将系统存储器122与处理单元121连接。上述系统存储器122包括只读存储器(ROM)124和随机存取存储器(RAM)125。主输入/输出系统126(BIOS)存储于ROM 124中，该系统126包括有助于比如在启动期间，将个人计算机系统120内部的部件之间的信息进行转换的主程序。
上述个人计算机系统120还包括硬盘驱动器127；磁盘驱动器128，比如，其相对可拆卸的磁盘129进行读或写操作；光盘驱动器130，比如，其相对CD-ROM盘131进行读取操作；或相对其它的光介质，进行读或写操作。上述硬盘驱动器127，磁盘驱动器128和光盘驱动器130分别通过硬盘驱动器界面132，磁盘驱动器界面133，光盘驱动器界面134，与上述系统总线123连接。上述驱动器和其相应的计算机可读取的介质用于个人计算机系统120的非易失业性存储。虽然计算机可读取的介质的描述是参照硬盘，可拆卸的磁盘和CD-ROM盘进行的，但是本领域的普通技术人员应理解，计算机系统可读取的其它类型的介质，比如快闪存储卡，数字视盘，贝努里盒等也可用于上述举例性的操作环境。
用户可通过普通的输入装置，比如键盘140和指示器，如鼠标142，将命令和信息输入到个人计算机120中。可采用麦克风161将音频输入，比如语音输入到计算机系统120中。用户可通过采用输入笔，在手写输入板162上绘制图形信息的方式，将图形信息，比如绘图或手写体输入到计算机系统中。上述计算机系统120可包括附加的输入装置(图中未示出)，比如游戏杆，游戏垫，卫星盘，扫描仪或类似装置。上述麦克风161可通过音频适配器160与处理单元121连接，该音频适配器160与上述系统总线连接。其它的输入装置经常通过与系统总线连接的串口接口146与处理单元121连接，但是其可通过其他接口，比如游戏端口或者通用串行总线(USB)连接。
显示屏147或其它类型的显示器也通过接口，比如音频适配器148，与系统总线123连接。除了监示器以外，作为典型方式，个人计算机系统包括其它外围装置(图中未示出)，比如扬声器或打印机。
上述个人计算机系统120可在采用逻辑连接，与一个或多个远程计算机系统，比如远程计算机系统149的网络化环境中操作。该远程计算机系统149可为服务器，路由器，同级设备，其它的公共网络节点，作为典型方式，该系统149包括针对上述个人计算机系统120描述的许多或所有部件，虽然在图1中仅仅示出存储器150。图1所示的逻辑连接包括局域网(LAN)151，广域网(WAN)152。该网络环境为公共办公室，企业宽带计算机网络，局域网和互连网。
当用于LAN网络环境时，上述个人计算机系统120通过网络界面153，与LAN 15连接。当用于WAN网络环境时，作为典型方式，该个人计算机系统120包括调制解调器154，或在WAN 152，比如互联网上建立通信的其它装置。上述调制解调器154可为内置式或外置式，其通过串口接口146，与系统总线123连接。在该网络环境中，针对上述个人计算机系统120描述的程序模块，或其部分可存储于远程存储器150中。可知道，图示的网络连接是举例性的，可采用在计算机系统之间建立通信连接的其它装置。还可知道，本发明同样可在非个人计算机系统的，主机或服务器计算机系统中实现，并且同样可通过非CD-ROM的装置，比如通过网络连接界面153，传递给主计算机系统。
可在计算机系统120的驱动器和RAM 125中存储多个程序模块。程序模块通过I/O装置或其它计算机，对计算机系统120如何作用，以及如何与用户实现交互进行控制。程序模块包括程序，操作系统135，应用程序模块138，数据结构，浏览器，其它的软件或固件。一般本发明在一个或多个程序模块中实现，该模块比如，为文本语音转换(TTS)模块137，输入界面模块139，这些模块中的每个基于在上面具体描述中所说明的方法。
上述应用程序模块138可包括各种与本发明结合应用程序，这些应用程序的一部分在图2中示出。目的和这些程序的一部分之间的相互作用将在描述图2的段落中进行更加全面讨论。这些模块包括字处理程序模块210(比如，由位于美国，华盛顿州的雷德蒙德微软公司生产的WORD)，文本语音转换模块137，第1语音识别程序模块240和输入方法编辑程序(IME)250。
对于执行后面将要描述的各种程序来说，不必说明特定的程序设计语言，由于在附图中描述和图示的操作，步骤和程序已经进行足够程度的公开，从而使本领域的普通技术人员实施本发明的举例性实施例。另外，具有许多可用于实施举例性实施例的计算机和操作系统，故未提供具体的计算机程序，该程序可应用于所有这些许多不同的系统。特定计算机的每个用户将会想到对用户的需要和目的最有用的语言和工具。
本领域的普通技术人员将会理解到，本发明可通过其它的计算机系统结构来实施，该结构包括手持装置，多处理器系统，微处理器为主的或可编程的消费电子产品，微型计算机，大型计算机等。本发明还可在分布式计算环境中实施，在该环境中，借助通过通信网络连接的远程处理装置完成任务。在分布式计算环境中，程序模块可位于本地和远程存储装置中。
多源输入和重放应用程序的结构图2为表示多源输入和重放应用程序200的方框图。一般来说，该多源输入和重放应用程序200的目的在于从多源接收用户的输入，将该数据处理成文本并且将该文本作为音频信号重放。举例性输入源包括手写体，语音和打字。
多源输入和重放应用程序200包括多个程序模块。这些程序模块允许用户从多个源，将文本输入到字处理程序中。一旦输入，用户的数据转换为文本，并且显示于显示面上。用户选择其希望听到的音频数据的文本，上述多源输入和重放应用程序200通过适合的程序模块，对该要求进行处理，以便进行音频信号重放。
多源输入和重放应用程序200中的典型的输入源包括手写体识别程序模块230，第1语音识别程序模块240，输入方法编辑程序(IME)250，第2语音识别程序模块240，键盘140或其它的直接输入装置，如鼠标142。下面依次对每个输入程序模块进行描述。
手写体识别程序模块230从用户接收手写输入280。该用户通过借助输入笔或鼠标，触摸屏等，在书写板16上进行书写的方式，形成手写输入280。该手写输入280最好通过位于操作系统135中的书写板驱动模块，传送给手写体识别程序模块230。
第1语音识别程序模块240通过麦克风161，从用户接收语音输入290，该麦克风161是通过位于操作系统135中的麦克风驱动模块操纵的。由于发音相同的许多字具有不同的含义和拼法，故语音难于解读。该第1语音识别程序模块240通过将上述语音分解为组成音素，并且根据每个音素形成文本输出的方式，对语音进行句法分析。此外，上述第1语音识别程序模块240将语音输入290转换为波形，该波形可作为所存储的音频数据270而存储于长期存储介质上。该存储的音频数据270可在之后通过音频信号重放的字处理程序210存取。
输入方法编辑程序(IME)250将语音输入转变为指定外语的表意文字的文本。进入IME250的输入可通过，比如，键入方式，借助键盘140和鼠标142输入到计算机中，或可作为通过麦克风161输入的语音数据。
IME250特别是用于形成亚洲语言中的表意文字。由于在该语言中具有的表意文字比键盘所具有的键多很多，故在不借助IME250的情况下，将特定的表意文字输入到计算机中便成为问题。比如，在中文的IME250中，用户键入所需中文表意文字的英文字母拼音。由于许多中文的表意文字具有类似的发音，故所键入的语音拼音会表示多个不同的汉字中的任何一个。之后，上述IME250从内部产生的候选项列表中，选择最有可能的候选项，或作为替换方式向用户提供键入的拼音所希望的最有可能的候选项，从而用户可选择正确的一个。上述候选项列表是根据由用户提供的拼音形成的，或作为替换方式，由包括用户的语音输入290的一组音素产生。
为了说明IME250的功能，可将语音输入到计算机中，其用于形成日文文本。将该语音提供给第2语音识别程序模块240。在操作时，该第2语音识别程序模块240的功能与第1语音程序模块240非常类似，但是其是作为不同的机构表示的，因为其可具有不同的语音解读驱动器，并且可具有不同类型的输出。也就是说，该第2语音识别程序模块240可解读不同于第1语音程序模块240的语言。
第2语音识别程序模块240可根据口述的英文字，形成英文文本的替换方式。该英文文本的替换方式中的一个或多个可用作进入IME250的输入，该IME250将英文文本输入译为日文假名。输入到IME250中的每种替换方式形成单独的可能的候选项列表，尽管应知道，构成进入IME250的两个不同的输入的候选项列表的替换方式之间会有重叠。
应理解，上述IME250和第2语音识别程序模块240可不直接接合。于是，比如，从第2语音识别程序模块240到IME250的输入可通过界面程序模块，比如输入界面139传送，而每个输入源与该界面139连接。
虽然针对英文和日文给出了实例，但是应理解，语音识别程序模块240和字处理程序210可从多种语言接收和显示输入。比如，该字处理程序210可按照下述方式构成，该方式为显示按照非从左到右的顺序阅读的语言，比如波斯文草体(Nastiliq)的文本。另外，上述字处理程序210还可显示下述文本，在该文本中，相应的字母根据周围的字母，比如现代希佰来(Hebrew)或阿拉伯语(Arabic)而改变形状。
字处理程序210从用户接收输入，通过输入界面139显示输出。该输出作为文本显示于显示屏上，或通过扬声器作为音频数据输出。上述字处理程序210用于提供多源输入用户与重放应用程序200之间的界面以及程序模块组成。
上述字处理程序210通过输入界面139接收下述文本，该文本表示用于将数据输入到字处理程序中的手写体输入280和语音输入290的最有可能的替换方式。一些输入源，比如通过在键盘140上打字而传送的文本不要求通过输入界面139形成替换方式，其完全按照所接收的方式传送。上述字处理程序210将所有的源数据组合成多源文本串，显示给用户。虽然上述字处理程序210可能不会向用户指示文本中的每个字的源，但是该字处理程序保持每个文本成分的源的记录。一个替换的实施例可通过各种方式表示每个字的源；比如，可根据字的输入方法，按照不同的颜色或字体显示字。
上述字处理程序210还允许用户选择文本段，并且要求音频信号重放该文本段。该字处理程序检索与该文本段相关联的存储的音频数据270，通过扬声器或其它输出装置播放音频数据。如果没有与该文本段的任何部分相关联的存储的音频数据，则该字处理程序210通过输入界面137，将要求传送给文本语音模块137以便检索与上述文本选择的部分相对应的TTS输入220。接着，上述字处理程序通过第1语音识别程序模块240和输入界面139，接收相对应的TTS输入，通过扬声器播放该TTS输入。该字处理程序210对该文本段内部的每个字依次进行句法分析，由此检索和播放存储的音频数据270或TTS输入220。多源输入和重放应用程序200的用户听到连续的，存储的音频数据和TTS输入的组合流，说出文本段。文本段的音频信号播放的具体内容将针对图4进行具体描述。
多源输入和重放应用程序的用户界面图3A表示按照本发明的实施例的，显示在显示屏147上的举例性的口述文件300。图2的语音输入290通过第1语音识别程序模块240转换，并且通过字处理程序210作为口述文件300显示。在本实例中，上述口述的文件包括诗的部分。该口述的部分已由第1语音识别程序模块240进行了误识别。具体来说，第1语音识别程序模块240将短语305(如虚线矩形所示)“white flannel trousers”错误地转换为“why tan Itrouser”。
翻到图3B，表示文件300的经编辑的文本，其中选择部分310作为音频信号重放。在图3A中，对被误识别的短语305进行了编辑，以便插入适合的字，以短语“white flannel trousers”代替“why tan I trouser”。此外，选择上述文件中的文本部分310作为音频信号重放。为了提供用户反馈，该反馈表示多源输入和重放应用程序200使文件300中的哪个部分发音，通过上述应用程序使与重放相对应的文本部分310变为高光亮状态。应注意到，作为音频信号重放选择的文本部分包括上述文件300中的经编辑的部分320。假定该编辑是通过用户在键盘上进行键入进行的，则文件300为多源文件。同样，文本部分310为多源文本部分。于是，短语“White flannel trousers”没有相应的音频数据，因为其是通过键盘输入的。由此，当该应用程序200驱动重放时，上述选定的文本部分310中的字“white flannel trouser”将通过由文本语音转换模块137提供的文本语音转换输入220而发音。
为了进一步促进用户的反馈，上述多源输入和重放应用程序200可包括指示器，确切地表明哪个字正在发音的。比如，当播放音频数据或文本语音转换输入时，相对应的字可闪烁或发生颜色变化。
多源输入和重放应用程序的操作整个图4的描述有时是参照图2所示的多源输入和重放应用程序200的功能方框图的部分进行的。
图4表示具体描述当播放文件中的选定部分的音频信号时所进行的步骤的流程。首先，在步骤400，用户选择文件中的希望多源输入和重放应用程序播放的文本部分。一旦选定重放文本，则上述字处理程序210在步骤405中确定文本部分300中的第1个字的边界。作为典型方式，该字的边界是由非阿拉伯数字的字符，比如空格，星号，逗号，句号或其它字符表示的。但是对于一些语言，该字不受限制。相反，计算机必须采用能理解确定字的断开的语言的形式。不受限制的语言的实例包括日文，中文和泰国文。以后将该字称为“当前字”。
一旦字处理程序210确定了当前字的尺寸和边界，上述多源输入和重放应用程序200在步骤410确定该字是否与从在先的口述会话保留的存储的音频数据270相关联。
如果该多源输入和重放应用程序200在步骤410确定存储的音频数据270与字相关联，则该应用程序在步骤415检索该音频数据。上述字处理程序210从输入界面139要求来自的存储的音频数据，该数据进而覆盖来自磁盘驱动器128或其它介质的数据。然后，上述输入界面139将音频信号返回给字处理程序210。
在步骤415之后，上述多源输入和重放应用程序200在步骤420使该音频数据发音。作为典型方式，虽然替换实施例可将重放程序模块插入到字处理程序内部，上述字处理程序210采用单独的程序模块或操作系统中的部分，处理音频数据的重放。
接着，上述多源输入和重放应用程序200确定在步骤405～420中处理的字是否为在步骤400，由用户选定的文本中的字。在没有更多的字留在上述选择中的情况下，上述应用程序进行最后的步骤460，然后停止。如果仍具有附加的字，则该多源输入和重放应用程序200返回步骤405，确定按照顺序的下一字的边界。
作为替换方式，上述应用程序200可在步骤410确定没有语音与该字相关联。存在以下情况，此时通过多源输入和重放应用程序200处理的上述字是在，比如，文件编辑处理过程中由用户键入的。在此情况下，该应用程序检查与当前字相对应的TTS输入220的存在。该字处理程序210通过第1语音识别程序模块240询问TTS模块，以确认存在对应当前字的TTS输入。
如果存在这样TTS输入220，该TTS模块137检索TTS输入，通过输入界面139将其返回给字处理程序210。作为替换方式，上述TTS模块137通过检查与当前TTS输入中的任何一侧上的音素相对应的TTS输入和选择一个与周围的TTS输入最有可能相匹配的音素，确定检索多个TTS输入中的哪一个。在步骤430，TTS模块137进行该动作。
一旦TTS输入为字处理程序所接收，在步骤420，上述多源输入和重放应用程序200按照下述方式重放该TTS输入，该方式为在上面针对存储的音频数据270进行了具体描述的方式。在步骤420的重放之前，可通过上述应用程序有选择地操纵TTS输入的音频特征，比如音调的高低，音调，音速，以便使TTS输入的声音与存储的音频数据更加接近地匹配。这样便使两种音频信号重放之间的不协调减小到最小程度。一旦使TTS输入220发音，按照上面具体描述的方式进行步骤455。
如果没有与当前数据相对应的TTS输入，则字处理程序210进行步骤435，将该字分解为其组成音素。在步骤440中，该字处理程序通过输入界面139，将这些音素中的第1个传送给第1语音识别程序模块240。另外，作为步骤440的一部分，语音识别程序模块从文本语音转换模块137要求与第1音素相对应的TTS输入220。具体来说，第1语音识别程序模块240对通过字处理程序210传送的音素进行分析，从TTS模块中要求包括音素中的最可能的音素变体的TTS输入220。步骤440最后进行对TTS输入的检索，并且将其返回给字处理程序220。
结论上述多源输入和重放应用程序200可包括附加的功能，比如允许用户通过手动方式改变重放速度。该应用程序200还可从在这里所列出之外的其它输入源接收输入，该其它输入源包括替换的输入装置或来自不同程序的控制信号。就本发明的实施例的前面的描述来说，许多其它的改进和附加特征是显然的。于是，应理解，前述内容仅仅涉及本发明的一些实施例，在不离开下述的权利要求所定义的本发明的实质和请求保护范围的情况下，可进行各种变换。
权利要求
1．一种使音频信号与文本相关联的方法，该方法包括下述步骤口述字；将上述口述的字转换为文件中的第1文本；将上述口述字存储于存储介质上；使上述口述字与上述文本要素互为参考；将第2文本插入到上述文件中；将文本语音转换输入与第2文本相联系。
2．根据权利要求1所述的方法，其特征在于该方法还包括下述步骤，即按照与上述文件中的第1文本和第2文本的放置位置相对应的顺序，重放口述内容和文本语音转换输入。
3．根据权利要求2所述的方法，其特征在于上述第2文本插入到第1口述字和第2口述字之间。
4．根据权利要求2所述的方法，其特征在于主要的第2文本在口述字前面，从属的第2文本在口述字后面。
5．根据权利要求2所述的方法，其特征在于主要的第1文本和从属的第1文本与主要的第2文本和从属的第2文本相互替换。
6．一种计算机，其按照执行权利要求1所述的方法的要求设置。
7．一种计算机，其按照执行权利要求2所述的方法的要求设置。
8．一种计算机实现的，用于生成文件和使其发音的方法，该方法包括下述步骤向输入装置说出自少一个字；将上述字转换为文件中的第1文本输入；在存储介质上存储上述字；使上述字与上述第1文本输入互为参考；键入上述文件中的第2文本输入；使对应于上述第2文本输入的文本语音转换输入，与上述第2文本输入互为参考；按照在上述文件中第1和第2输入的顺序，重放上述字和文本语音转换输入。
9．根据权利要求8所述的方法，其特征在于该方法还包括下述步骤，即对字的声音特性进行分析，对文本语音转换输入的重放进行调整以便与字的声音特性相匹配。
10．根据权利要求9所述的方法，其特征在于可对上述文本语音转换输入中的超音质成分(prosody)进行调整。
11．根据权利要求8所述的方法，其特征在于该方法还包括下述步骤将文件显示于显示屏上；使与上述文本语音转换输入相对应的字变暗。
12．根据权利要求8所述的方法，其特征在于通过非阿拉伯数字的字符的出现表明第1文本的输入的停止，以及第2文本的输入的开始。
13．根据权利要求8所述的方法，其特征在于上述第1和第2文本输入包括象形文字的字符。
14．根据权利要求13所述的方法，其特征在于上述象形文字为汉字字符。
15．一种计算机，其按照执行权利要求8所述的方法的要求设置。
16．根据权利要求10所述的方法，其特征在于上述超音质成分(prosody)为音调的高低，音速，音量。
17．根据权利要求8所述的方法，其特征在于上述第1和第2文本输入相对于周围的文本改变形状。
18．根据权利要求8所述的方法，其特征在于上述第1和第2文本输入是从右至左读取的。
19．一种计算机实现的，用于进行文本文件的音频信号重放的方法，该方法包括下述步骤选择一组文本，该组文本包括至少1个字，每个字包括至少1个音素；确定用户口述的音频输入是否与第1字相对应；在用户口述的音频输入与第1字相对应的场合，通过音频输出装置，播放用户口述的音频输入；否则，确定是否多个文本语音转换输入中的一个与上述第1字相对应；在文本语音转换输入与第1字相对应的场合，通过音频输出装置，播放文本语音转换的输入；否则，确定多个文本语音转换输入中的哪个与该音素相对应；对应于对多个文本语音转换输入中的哪个与第1音素相对应的确定，通过音频输出装置，播放相对应的文本语音转换输入。
20．根据权利要求18所述的方法，其特征在于上述一组文本包括多个字；上述第1字与用户口述的音频输入相对应；上述第2字与文本语音转换输入相对应。
21．根据权利要求19所述的方法，其特征在于按照在上述一组文本中第1字和第2字出现的顺序，重放用户口述的音频输入和文本语音转换输入。
22．根据权利要求18所述的方法，其特征在于确定多个字，该多个字没有相对应的用户口述的音频输入；将该多个字传送给文本语音转换模块；检索上述多个字中的每个的文本语音转换输入。
23．一种计算机，其按照执行权利要求9所述的方法的要求设置。
24．一种对文件中的文本进行编译和评价的方法，该方法包括下述步骤通过使用语音识别处理程序，将口述的字转换为上述文件中的第1组文本；分别存储与上述第1组文本相关联的上述口述字，以便以后进行音频信号的重放；将非口述指令转换成上述文件中的第2组文本；按照上述文本在上述文件中出现的顺序，播放与上述第1组和第2组文本相对应的音频信号；播放与上述第1组文本相对应的上述音频信号的部分，该第1组文本是通过重放上述存储的口述字而提供的；播放与上述第2组文本相对应的上述音频信号的部分，该第2组文本是通过文本语音转换处理程序的重放而提供。
25．根据权利要求24所述的方法，其特征在于上述非口述指令是通过使用键盘提供的。
26．根据权利要求24所述的方法，其特征在于上述非口述指令是通过使用鼠标提供的。
27．根据权利要求24所述的方法，其特征在于将上述口述字向文本的转换是通过使用语音识别处理程序完成的。
28．根据权利要求23所述的方法，其特征在于上述第二组文本的音频信号的重放是通过使用语音处理程序完成的。
29．根据权利要求24所述的方法，其特征在于上述非口述指令是通过使用手势提供的。
30．根据权利要求24所述的方法，其特征在于上述非口述指令是通过使用手写输入板提供的。
31．根据权利要求24所述的方法，其特征在于与当前的重放相对应的视觉提示显示于显示屏上。
全文摘要
一种多源输入和重放应用程序,从各种源接收输入并转换为文本,播放其中的用户选定的部分,并将其作为字处理程序内部的文件显示。口述内容作为应用程序可检索到的音频数据存储于长期或短期存储器中。用户可对文本进行自由地编辑,修改,处理。用户还要求对可选择文本的部分进行音频信号重放。应用程序对选定的文本中的每个字依次进行检查。根据存储的音频数据是否与上述字相关联,则检索并播放该音频数据或文本语言转换输入。
文档编号G10L15/22GK1303047SQ0012999
公开日2001年7月11日申请日期2000年10月24日优先权日1999年10月27日
发明者杰弗里·C·雷纳, 埃里克·拉克, 保罗·基扬·万·金申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰弗里.C.雷纳;埃里克.拉克;保罗.基扬.万.金
技术所有人：微软公司
我是此专利的发明人

上一篇：用于汉语语音识别系统的连续语音处理方法和装置的制作方法
上一篇：机械吉他头的制作方法