专利名称:使用两次语音转换和计算机辅助校正的自动翻译系统及方法,的制作方法
背景技术:
1.发明领域本发明总体上涉及计算机语音识别系统,更特别地,涉及一种对不同终端用户的语音口授进行自动文本翻译的系统和方法。
2.背景技术在本领域中语音识别程序是众所周知的。虽然这些程序当用于自动将语音转换为文本时基本上是有效的,但是因为需要每个用户花费大量时间来训练该系统,许多用户都被劝阻不要使用这些程序。通常通过每个用户阅读大约20分钟的预先选择的材料来开始这种训练。然后,在用户继续使用该系统,而单词被错误地翻译时,这时就要求用户停下来并训练程序翻译出所需词语,从而提高声音模型最终的精确度。遗憾的是,大多数专业人员(医生,牙医,兽医,律师)和业务经理不愿意花费时间来开发必要的声音模型以真正从自动翻译中受益。
因此,本发明的一个目的是提供一种系统,它能为终端用户提供语音识别程序的简明的训练。
现在有用于从一组终端用户中路由翻译的用于计算机中的系统。通常这些系统用在大型多用户设置中,如医院。在那些系统中,语音用户在通用计算机或其它记录装置处进行口授,所生成的文件被自动传送给一个翻译者(人)。翻译者翻译该文件,然后将该文件返回给原来的“作者”审阅。这些系统具有雇佣足够数量的翻译者来翻译所有口授文件的永久开支。
因此,本发明的另一个目的是提供一种自动将语音翻译成适合的文本的方法,从而使翻译输入到系统中语音文件所必需的翻译者的数量最小化。
一个相关的目的是提供一种简化的装置,用于为系统的语音识别部分训练用户的声音模型提供逐字文本文件。
本发明的另一个相关目的是自动化现有的语音识别程序,进一步最小化操作系统所需操作员的数量。
参照附图,说明书和权利要求,这些目的和其它目的对本领域普通技术人员而言将是显而易见的。
发明概述本发明所披露的涉及一种用于为一个或多个语音用户提供充分自动的翻译服务的系统和方法。特别地,该系统包括采用两个语音转换情况以方便用最少的人力翻译创建逐字翻译文本。
该系统包括用于从当前用户接受语音口授文件的装置。该语音口授文件被输入到第一装置和第二装置,将该语音口授文件自动转化为第一书面文本和第二书面文本。第一和第二装置分别具有第一和第二组转换变量。这些第一和第二组转换变量之间至少有一个区别。
例如,第一和第二自动语音转换装置中的每一个都包括一个现有语音识别程序,这些程序本身可能是彼此不相同的。不同语音识别程序具有固有的不同的语音到文本的转换方法,从而,对于困难的言语,可能产生不同的转换结果,反过来,可以用于建立逐字文本。在现有的语音转换装置中,有Dragon Systems公司的NaturallySpeaking,IBM公司的Via Voice和菲利浦公司的Magic Speech。
在另一种方法中,第一和第二组转换变量中的每一个都包括一种语言模型(即,通用的或专业的语言模型),从而对于困难的言语可能导致不同的转换,使得更容易地建立逐字文本。或者,可以更改所使用的与现有语音识别系统相关的一个或多个设置。
在又一个方法中,在输入一个或两个自动转换装置之前可以对语音口授文件进行预处理。用这种方法,转换变量(例如数字字长,抽样率和去除特定谐波范围)在语音转换情况之间可能不同。
该系统还包括用来人工编辑所述第一和第二书面文本产生语音口授文件的逐字文本的装置。在一种方法中,第一书面文本至少暂时与语音口述文件同步。在这种情形下,人工编辑装置包括用来顺序地比较第一和第二书面文本,产生从第一书面文本中挑选出来的不匹配词的顺序列表的装置。人工编辑装置还包括在与包括第一书面文本的第一自动转换装置相关的第一缓冲区中和与时序表相关的第二缓冲区中同时递增搜寻当前不匹配词语的装置。人工编辑装置还包括校正第二缓冲区中当前不匹配词的装置。校正装置包括以一种视觉上明显区别于第一书面文本中其它文本的方式来显示当前不匹配词语的装置,和显示与当前不匹配词语相关的第一缓冲区中的所述同步语音口授记录部分的装置。在一个实施例中,编辑装置还包括在第一书面文本中交替地显示所述当前不匹配词所在的上下文的装置。
该系统还可以包括用来改善语音识别程序精确度的训练装置。
本申请还披露了一种在一系统中包括至少一个语音识别程序,用于为一个或多个语音用户提供自动翻译服务的方法。该方法包括(1)从当前语音用户接收语音口授文件;(2)用语音识别程序使用第一组转换变量从该语音口授文件自动创建第一书面文本;(3)用语音识别程序使用第二组转换变量从该语音口授文件自动创建第二书面文本;(4)通过比较第一和第二书面文本人工建立逐字文件;以及(5)将该逐字文件返回给该当前用户。创建逐字文件包括(6)顺序地比较第一书面文本的拷贝和第二书面文本,产生一个从第一书面文本中挑选出的当前不匹配的词的顺序列表,该顺序列表包括一个开头,一个结尾和一个当前不匹配的词,从开头到结尾顺序列出当前不匹配的词;(7)递增地搜寻同时存在于与至少一个包括第一书面文本的语音识别程序相关的第一缓冲区和与顺序列表相关的第二缓冲区中的当前不匹配的词;(8)以一种在视觉上显著区别于第一书面文本拷贝中其它文本的方式显示当前不匹配的词,从与当前不匹配的词相关的第一缓冲区中显示同步语音口授记录部分;以及(9)将当前不匹配的词校正为同步语音口授记录部分的逐字表示法。
图2d为本系统控制装置自动阶段部分的流程图;图3为本系统控制装置所使用的目录结构;图4为人工编辑装置一个优选实施例中一部分的方框图;图5为人工编辑装置一个优选实施例中剩余部分的正视图;以及图6为系统配置图,给出了使用两次语音转换和计算机辅助校正的自动翻译系统及方法。
实践本发明的最佳方式虽然本发明可以有多种不同实施方式,但是在附图中只给出并在此被讨论了几个具体实施例,鉴于理解到考虑本公开只是作为本发明原则的示例,本发明并不限于所给出的实施例。
图1a给出了本系统的一个实施例,为一个或多个语音用户提供充分自动地翻译服务。该系统必须包括某些用来从当前用户接收语音口授文件的装置。这种语音口授文件接收装置可以是数字音频录音机,模拟音频录音机或用来接收磁性介质上或通过数据连接的计算机文件的标准装置。
如图所示,在一个实施例中,系统100包括多个数字记录站10,11,12和13。每个数字记录站具有至少一个数字音频录音机和用于识别当前语音用户的装置。
最好是,每一个数字记录站都由通用计算机来实现(如计算机20),尽管为了这种特殊目的可以开发出特殊的计算机。不过通用计算机除了可用于当前系统100中之外,还具有多种不同应用的优点。通常,在其它元件中,通用计算机应该具有一个微处理器(比如英特尔公司的奔腾(PENTIUM),Cyrix K6或摩托罗拉68000系列);非永久和永久存储器;一个或多个大量存储设备(即,HDD(图中没有示出),软盘驱动器21和其它诸如CD-ROM驱动器,DITTO,ZIP或JAZ驱动器(Iomega公司)和类似装置的可更换媒体装置);多种用户输入设备,如鼠标23,键盘24或麦克风25;以及一个视频显示系统26。在一个实施例中,通过WINDOWS 9.x操作系统控制通用计算机。不过,使用MACINTOSH计算机或甚至是诸如WINDOWS CE,UNIX或基于JAVA的操作系统(在此仅列出几种),本系统也将能很好的工作。
无论使用何种特定计算机平台,在使用模拟声音输入(通过麦克风25)的实施例中通用计算机必需包括一个声卡(图中没有示出)。当然,在数字输入的实施例中不需要声卡。
在如图1a所示的实施例中,将数字音频记录站10,11,12和13设计为在基于奔腾的计算机系统WINDOWS 9.x操作下运行数字音频记录软件。这种数字记录软件可以用于WINDOWS 9.x操作系统或来自于如美国弗吉尼亚州奥可顿的The Programmers’consortium公司的(VOICEDOC)、亚利桑那州凤凰城的Syntrillium公司的(COOL EDIT)或Dragon Systems公司的(Dragon NaturallySpeaking Professional Edition)等诸多第三方经销商的操作系统。这些不同的软件程序产生“WAV”文件形式的语音口授文件。不过,如本领域技术人员所知,其它音频文件格式,如MP3或DSS,也可以用于格式化语音口授文件,而不偏离本发明的精神。在一个实施例中,使用VOICEDOC软件自动为WAV文件分配一个文件句柄,不过本领域普通技术人员应该知道使用标准操作系统文件管理方法来将音频文件保存在计算机系统中。
接收语音口授文件的另一种装置为专用数字录音机14,如奥林巴斯(Olympus)公司制造的奥林巴斯数字语音录音机D-1000(Olympus Digital Voice Recorder D-1000)。从而,如果当前语音用户对于传统类型的口授设备更加满意的话,他们可以继续使用专用数字录音机14。为了获取丰富的数字音频文本文件资源并将它记录下来,专用数字录音机14应该与和它相连的一个数字声音录音站如13一起工作,将数字音频文件下载到通用计算机。使用这种方法,将不需要声卡。
可接收语音口授文件的另一种装置可以包括使用一种或其它包括有预先记录音频文件的可更换磁性媒质的装置。使用这种装置,操作员将可更换磁性媒质插入一个数字音频记录站,将音频文件加载到系统中。
在某些情形下,必需预先处理音频文件,使它们可以被语音识别软件处理。例如,DSS文件格式必需被转变为WAV文件格式,或者可能必需增大或减小数字音频文件的抽样率。例如,以奥林巴斯数字语音录音机与Dragon Naturally Speaking搭配使用时,奥林巴斯的8兆赫速率抽样必需被增加到11兆赫。完成这种预处理的软件可以有包括来自于Syntrillium公司和奥林巴斯公司的多种来源。
数字音频记录站的另一个方面是识别当前语音用户的某些装置。识别装置可以包括键盘24,通过键盘,用户(或者单独的操作员)可以输入当前用户唯一的标识码。当然,可以使用多种计算机输入设备来输入用户标识,如光标位置指示装置(例如鼠标23),触摸屏(图中没有示出),光笔(图中没有示出),条形码阅读器(图中没有示出)或通过麦克风25的音频信号,此处仅列举了几种。
在第一次使用识别装置时,在从用户接受可能的识别信息之后,还给该用户分配一个识别号码,用户识别信息包括(1)姓名;(2)地址;(3)职业;(4)方言或口音;等。正如在控制装置中所讨论的那样,基于这种输入信息,在控制装置中建立语音用户资料档案和子目录。从而,无论使用何种特别的识别装置,必需为每个用户建立用户识别标记,继而为每次使用提供相应的数字音频文件,从而控制装置可以进行正确地路由,系统最终翻译该音频。
在本发明的一个实施例中,识别装置还可以对专业词汇进行人工选择。使专业词汇组合对不同用户来说是通用的,如医学(如放射学,矫形外科学,妇科医学)和法律(如公司法,专利法,诉讼法)或非常专业的领域,使得在每种专业中,基于特定口授文件的特殊环境,词汇数据还被进一步地限定。例如,如果当前语音用户是放射学家,正在口授的腹部CAT扫描的术语是非常专业的,并且不同于肾脏超声波扫描所使用的术语。通过将每个选择的词汇设置限定在窄范围内,增加自动语音转换的精确度是很可能的。
如图1a所示,数字音频记录站可以与系统100连接在一起操作,作为计算机网络30的一部分,或者可以通过因特网主机15与系统连接进行操作。如图1b所示,通用计算机既可以与网络插孔27连接,也可以与电话插孔连接。通过使用因特网主机,以通过互联网电子邮件传送音频文件来实现连接。完成这种连接的另一种方法是利用远程控制软件通过直接的调制解调器连接,远程控制软件如PC ANYWHERE,这是加利福尼亚库泊蒂诺(Cupertino)之Symantec公司的一种软件。如果数字音频记录站10或因特网主机15的网际协议(IP)地址可知,还可以使用基本文件传输协议来传输音频文件。从而,从以上的描述可知,本系统允许语音用户以很灵活的方式来将语音输入到系统中。
控制装置200基于当前语音用户的训练状态控制语音口授文件的流量。如图2a,图2b,图2c,图2d所示,控制装置200包括运行在通用计算机40上的软件程序。特别地,该程序在步骤201被初始化,设置变量,清除缓冲区并装载此控制装置之特殊设定的特殊配置。控制装置继续监控目标目录(诸如“当前”(如图3所示)),在步骤202确定是否有一个新文件已经被移入到该目标目录中。一旦发现一个新文件(如“6723.id”(图3所示)),就在步骤203作出当前用户5是否为新用户的判断(如图1a所示)。
对于每个新用户(表现为“当前”子目录中存在“.pro”文件),步骤204建立新的子目录(如“usern”子目录(如图3所示))。这个子目录用于存储该特定用户的所有音频文件(“xxxx.wav”),书面文本(“xxxx.wrt”),逐字文本(“xxxx.vb”),翻译文本(“xxxx.txt”)和用户资料(“usern.pro”)。每个特定任务都被分配一个唯一号码“xxxx”,使与该任务相关的所有文件都与该号码相联系。使用这种目录结构,用户数量实际上仅仅被通用计算机40的存储空间所限制。
既然已经建立了用户子目录,步骤205将用户资料移动到该子目录。在不同系统之间,用户资料的内容可能会有不同。图3给出了一种可能的用户资料信息,包括用户姓名,地址,职业和训练状态。除了训练状态的不同之外,还必需有用于路由和翻译音频文件的其它数据。
控制装置通过句柄选择一组文件,步骤206通过比较“.id”文件和它的“user.tbl”,确定当前用户身份。既然已经知道了该用户,可以从该用户的子目录中解析出用户资料,步骤207确定当前的训练状态。步骤208-211将当前训练状态筛选为其中的一种注册,训练,自动识别和停止自动操作。
注册是自动翻译服务的第一阶段。如图2b所示,步骤301发送将要翻译的音频文件。特别地,“xxxx.wav”文件被传送到翻译者站50和51。在一个优选实施例中,这两个站都为通用计算机,运行音频播放器和人工输入装置。音频播放器可以是数字音频播放器,尽管也可以将模拟音频文件传送到这些站点。有多种通常所使用的音频播放器,包括用于WINDOWS 9.x操作系统的和诸如弗吉尼亚州奥可顿的The Programmers’Consortium公司所出品的(VOICESCRIBE)各种第三方软件。无论使用何种音频播放器来播放音频文件,同时在该计算机上运行人工输入装置。这种人工输入装置可以包括任何文本编辑器或文字处理器(如MS WORD,WordPerfect,AmiPro或Word Pad)与键盘,鼠标或其它用户接口装置结合使用。在本发明的一个实施例中,这种人工输入装置本身也可以是语音识别软件,诸如马萨诸塞州的牛顿(Newton)的DragonSystems出品的Naturally Speaking,纽约阿曼克(Armonk)的IBM公司出品的Via Voice,或佐治亚亚特兰大的菲利浦公司出品的Speech Magic。在步骤302翻译者6听见当前用户5所创建的音频文件后,如众所周知,人工输入该记录文本的可理解内容,从而建立翻译文件。作为人类,翻译者6可能会将经验,教育和偏见施加给该文本,从而不逐字翻译所输入的该音频文件。在人工翻译完成之后,在步骤303,翻译者6保存文件,表明已经准备好向当前用户子目录发送“xxx.txt”文件。
因为当前用户仅处于注册阶段,人工操作员必需监听音频文件,人工将该文件与翻译文件进行比较,创建逐字文件,步骤304。在步骤305该逐字文件“xxxx.vb”也被传送到当前用户的子目录。既然有了该逐字文本,在步骤306控制装置200启动自动语音转换装置。这种自动语音转换装置可能是现有的程序,如Dragon Systems公司的Naturally Speaking,IBM公司的Via Voice或菲利浦公司的Speech Magic,在此仅列出几种。或者,它也可以是独特的程序,被专门设计为执行自动语音识别。
在一个优选实施例中,通过执行Naturally Speaking的同时同步运行一个可执行程序,通过WIN32API提供仿真按键和鼠标操作来使用Dragon Systems的Naturally Speaking,使得当实际上被控制装置200控制时,Naturally Speaking相信它正在和一个人进行交互。这种技术在计算机软件测试技术中是众所周知的,在此不详细讨论。完全可以说,通过观看任何语音识别程序的应用流程,能够创建可执行的模拟交互式人工阶段。
如果当前用户为一个新用户,语音识别程序将需要创建该新用户,步骤307。控制装置从当前用户子目录中的该用户的资料中提供所需信息。所有语音识别都要求进行有效的训练来建立特定用户的声音模型。在Dragon的情况中,程序最初探索大约20分钟用户阅读Dragon Systems所提供的存储在其中的文本,得到常用的声音。在Dragon中还具有固有的“移动式训练”功能。使用该特征,逐字文件和音频文件被输入到语音识别程序中,开始训练该用户的声音模型,步骤308。不管音频文件的长度是多长,控制装置200在完成该文件时关闭语音识别程序,步骤309。
由于注册阶段太短而没有使用自动创建文本,使用包括在用户资料中的地址信息将所翻译文件的一个拷贝传送给当前用户,步骤310。该地址可以是街道地址或e-mail地址。在传送之后,程序回到图2a中的主循环。
对于一个特定用户,在已经进行了一定时间的训练之后,该用户的训练状态可以从注册改变为训练。这种转变的界限是主观的,但是一个比较好的经验法则是一旦Dragon以80%或超过80%的精确度创建书面文本,就可以在状态之间进行切换了。从而对于一个用户,下一次翻译活动将控制装置200提升为训练状态。如图2c所示,步骤401-403是与注册阶段中步骤301-303相同的人工翻译阶段。一旦建立翻译文件,控制装置200启动自动语音转换装置(或语音识别程序),并选择当前用户,步骤404。音频文件被输入到语音识别程序并在程序缓冲区中建立书面文本,步骤405。在使用Dragon的情况中,在该程序的每个情况中该缓冲区被给以相同的文件句柄。从而,使用标准操作系统命令可以容易地复制该缓冲区,并开始人工编辑,步骤406。
在使用弗吉尼亚奥可顿的The Programmers’Consortium公司的VOICEWARE系统的特殊实施例中,用户将声音输入到VOICEWARE系统的VOICEDOC程序中,从而创建“.wav”文件。另外,在将该“.wav”文件发布到VOICEWARE服务器之前,用户选择一个“翻译者”。该“翻译者”可以是一特定人的翻译者或可能是“计算机化的翻译者”。如果用户选择了一个“计算机化的翻译者”,他们还可能选择是否该翻译被本地处理或远程处理。VOICEWARE服务器为该文件分配一个任务编号,再由路由为此任务选择该系统的VOICESCRIBE部分。正常情况下,翻译者使用VOICESCRIBE来接受并回放该任务的音频(“.wav”)文件。另外,该音频文件被自动语音转换装置抓取。在这个VOICEWARE系统的实施例中,通过将VOICESCRIBE设置为“自动模式”,从VOICEWARE服务器自动下载新任务(即,由VOICEDOC新创建的音频文件),VOICESCRIBE窗口具有由当前“.wav”文件的任务编号所形成的窗口标题。运行在背景的一个可执行文件,“看见”VOICESCRIBE窗口打开,使用WIN32API从VOICESCRIBE窗口标题确定任务编号。然后该可执行文件启动自动语音转换装置。例如,在Dragon System公司的Naturally Speaking中,具有对现有“.wav”文件执行语音识别的内置功能。该可执行程序将仿真按键送到Naturally Speaking,从具有当前任务的任务编号的“当前”目录中打开该“.wav”文件(参见图3)。
在这个实施例中,在Naturally Speaking已经完成“.wav”文件上下文的自动翻译之后,该可执行文件继续操作,选择打开的Naturally Speaking窗口中所有的文本,并将其复制到WINDOWS9.x操作系统的剪贴板上。然后,使用剪贴板功能,使用当前任务编号和“dmt”扩展名将剪贴板保存为文本文件。然后该可执行文件“点击”VOICESCRIBE中的“完成”按钮,将“dmt”文件返回到VOICEWARE服务器。正如本领域普通技术人员所理解的那样,可以使用其它数字记录软件和其它自动语音转换装置来执行上述过程。另外,在其它操作系统中存在与WINDOWS剪贴板功能相似的部分。还可能需要人为干预来激活或提示一个或多个上述步骤。而且,虽然执行不同步骤的不同程序可以运行在相互连接的多台计算机上(通过局域网(LAN),广域网(WAN),网络连通,电子邮件等等类似的方式),但是人们仍然企图可以将所有的必备软件能运行在一个单独的计算机上。
在此还可以企图使用另一种方法,即,用户直接口授给自动语音转换装置,VOICEWARE服务器从相反方向获得拷贝。这种方法按如下方式工作实际上没有记录任何语音,用户点击VOICEDOC中的“完成”按钮,创建一个空的“.wav”文件。VOICEWARE服务器仍然为该空文件分配一个唯一的任务编号。然后该用户(或运行在背景的可执行文件)启动自动语音转换装置,用户直接口授给该程序,和前述使用在自动语音转换装置中的方式完全相同。当完成口授后,用户按下标记为“返回”的按钮(由背景可执行文件所产生的),执行并开始一个宏指令,从VOICEWARE得到当前任务编号(以上面所述的方法)。选择文件中的所有文本并将其复制到剪贴板。然后剪贴板将其保存为文件“<任务编号>.dmt”,如上面所述。可执行程序然后“点击”VOICESCRIBE中的“完成”按钮(通过WIN32API),将自动翻译的文本有效地返回给VOICEWARE服务器,然后,反过来,VOICEWARE服务器将该完成的翻译返回给VOICESCRIBE用户。值得注意的是,虽然执行不同步骤的不同程序可以运行在相互连接的多台计算机上(通过局域网,广域网,网络连通,电子邮件等类似方式),但是人们还是企图可以将所有必备软件运行在一个单独的计算机上。正如本领域普通技术人员所理解的,可以使用其它数字记录软件和其它自动语音转换装置来执行上述过程。另外,在其它操作系统中也存在与WINDOWS剪贴板功能相似的部分,还可能需要人为干预来激活或提示一个或多个上述步骤。
人工编辑并不是一项容易的工作。人类易于犯错误。从而,本发明还包括对该任务加以改进的装置。如图4所示,翻译文件(“3333.txt”)和书面文本的拷贝(“3333.wrt”)按顺序地被逐词地进行比较,见406a,建立从书面文本的拷贝中选出的不匹配词的顺序列表406b。该列表有一个开头和一个结尾,以及一个指向当前不匹配词的指针406c。在顺序列表下面是另一个对象列表,包括初始的不匹配词和与该不匹配词紧邻的前面和后面的词语,以及不匹配词列表406b中每个不匹配词在存储器中的开始位置和不匹配词的长度。
如图5所示,指针406c指向的列表406b中的不匹配词以一种显著区别于书面文本拷贝中其它文本的方式显示在标准计算机监视器500上的活动窗口501中。如图5所示,通过分别点击按钮514,515和516,操作员在不匹配词所在的句子中,可以逐个词或用词组选择不匹配词语的上下文。
与活动窗口501相关的是背景窗口502,包括该书面文本文件的一个拷贝。如背景窗口502所示,逐渐搜索定位到下一个出现的不匹配词“cash”(见指针503)。与此同时,在窗口505内包括语音识别程序的缓冲区,同样,继续搜索下一个出现的当前不匹配的词(参见指针506)。用户只能看见活动窗口501,通过点击“播放”按钮510从语音识别程序激活声音重放,播放与指针506处的文本同步的声音。基于语音的该片段,通过点击播放按钮可以一次次的播放,用户可以通过键盘,鼠标动作人工输入当前不匹配词的校正,或者甚至可能用声音指示运行在该窗口中的另一个语音识别程序。
在本实施例中,即使通过按钮514,515和516提供隔离的上下文选择,从上下文中确定正确的逐字词语仍然是很困难的,从而有一个切换窗口按钮513将背景窗口502转换为前景窗口,使用可视指针503表示书面文本的拷贝中的当前位置。然后用户能够返回到活动窗口并输入正确的词“trash”。这种改变只影响背景窗口502中所显示的书面文本的拷贝。
当操作员为下一不匹配词作好准备时,操作员点击前进按钮511,使指针406c沿不匹配词列表向下前进,在两个窗口502和505中启动递增地的搜索。现在该不匹配词被分离显示,操作员可以由语音识别程序来播放同步的语音,并校正该词语。如果在操作中任何时刻,操作员希望回到前一个不匹配的词,他可以点击后退按钮512,将指针406c移动回列表中一个词的位置,发生向后递增地搜索。这一过程通过使用包括原始不匹配词的对象之基础列表来完成。对象以一个接一个的方式沿列表来回移动,不过可以填充每个记录,使得每一项具有相同的字长,有助于列表的双向移动。当基础列表中的字汇被阅读时,它只可能返回到原始不匹配词进行比较,这样,操作员才可以确定是否应该对该词进行不同的校正。
最后,完成对书面文本拷贝的校正,产生逐字拷贝,并被保存在该用户的子目录。该逐字文本也被传送给语音识别程序用来训练,步骤407。在步骤408保存新的(已被改进的)声音模型,在步骤409关闭语音识别程序。由于系统仍然处于训练过程中,所翻译的文件被返回给用户,如同注册阶段的步骤310。
如图4所示,该系统还可以包括根据顺序对比装置的输出确定精确度的装置。特别地,通过对书面文本中词的数量和列表406b中词的数量的统计,可以确定所述书面文本中的词与所述顺序列表中词数量的比率,从而提供精确度百分比。如前所述,存在选择何时将用户从一个阶段提高到另一阶段的问题。一旦目标已经达到,用户的资料被改变为下一阶段,步骤211。
精确度百分比的确定可提供一个潜在的增强的或派生的功能。在一个实施例中,可以使用这种百分比来评价翻译者的能力。特别是,通过使用已知的逐字文件或已经建立的用户,为翻译者播放相关的“.wav”文件,对照上述过程所创建的逐字文件在所翻译的文本上完成上述对比。用这种方式,本系统可以提供附加的功能。
目前,正如所了解的,语音识别程序的制造商使用外语、句法等的记录,人工建立逐字文件来设计语音模型的程序。显然,可以将上述建立逐字文本的方法用在这些语音文件的初始设计中,极大地简化了该过程。
一旦用户已经到达了自动阶段,就可以获得本系统最大的好处。见步骤600,于是语音识别软件被启动,接着在步骤601中当前用户被选定。如果需要,步骤602选择一特定的词汇表。然后步骤603可以开始对当前用户记录的数字音频文件进行自动转换。当完成之后,在步骤604中在用户资料中所包括的信息的基础上,将书面文件传送给该用户并将程序返回到主循环。
遗憾的是,存在语音用户在一段时间(在生病期间,牙科手术之后等)内不能使用自动翻译的情形,因为他们的声音模型已经被暂时(或者甚至永久地)改变。在该情形下,系统管理者可能将训练状态变量设置为停止自动状态,只执行步骤301,302,303,305和310(参见图2b)。
图6给出了与本发明相关的各个元件的另一种可能的配置。在这种配置中,如前所述,用户逐字口授一个他们需要翻译的文件,以上述方式之一将该文件保存为语音口授文件700。在这个实施例中——不是使用翻译者来产生翻译文件——语音口授文件被至少两次自动转换为书面文本。
在两次自动文本转换之后,结果产生的第一和第二书面文本文件,使用人工拷贝编辑装置(如上面所述,结合图4和图5)将第一和第二书面文本文件进行比较,如此就便于操作员迅速地人工校正第二书面文本文件。
在这种方法中,相信可以提供具有较少翻译者劳动的翻译服务。获得传输给终端用户的足够精确的书面文本的关键是在第一和第二次运行中以某种方法区别语音到文本的转化。特别是,在第一和第二次转换步骤之间,系统可以改变下述中的一个或多个方面(1)语音识别程序(例如Dragon Systems公司的NaturallySpeaking,IBM公司的Via Voice或菲利浦公司的Magic Speech);(2)特定语音识别程序中的语言模型(例如通用英语对专业词汇(例如医学,法律));(3)特定语音识别程序中的设置(例如“最精确”对“速度”);和/或(4)和使用数字信号处理器一样的、通过改变数字字长、抽样率、去除特定谐波范围和其它可能的改变的、预处理过的语音口授文件(例如亚利桑那州凤凰城的Syntrillium公司出品的CoolEdit,或摩托罗拉公司的DSP56000程序化集成电路)。通过改变一个或多个上述“转换变量”,相信第二次语音到文本的转换将产生与第一次语音到文本转换的稍有区别的书面文本,通过使用此处披露的新颖的人工编辑装置比较所产生的这两个书面文本,操作员可以用一种上述方式查阅到该区别,并迅速地产生一个传送给终端用户的逐字文本。从而,用这种方法,相信可以达到完全的自动翻译,与其它披露的方法相比,人为干预更少了。
图6给出了这种系统和在此基础上的方法。应该注意到,其中描绘了两个自动语音转换装置702和703,可能仅有一个语音识别程序情况运行在一台单独计算机上,不过对语音口授文件进行反复转换期间使用不同的转换变量。当然,如本领域普通技术人员众所周知的,同样可能有多个语音识别程序情况运行在一台计算机上或者运行在通过计算机网络(局域网,广域网,对等式,或类似结构)相互连接在一起的分离的计算机上。
与之相似,人工编辑装置705与自动语音转换装置是相分离的,还可以设置在运行一个或两个自动语音转换程序情况的相同计算机上。同样,人工编辑装置还可以设置在分离的计算机上,也可以设置在网络中其它计算机上。
最后,数字信号处理器701示出了一种改变转换变量的方法,即,将语音口授文件输入到一个或两个自动语音装换装置的情况中。同样,该数字信号处理器能够与任何一个或所有上述功能块设置在相同的计算机上,或通过计算机网络与其它计算机相连的一个分离的计算机上。
本发明试图将上述重复两次使用语音到文本的转换的这种方法,进一步推广到执行更多次的转换,每次转换使用不同组的转换变量,在一对输出书面文本之间执行文本对比,从而使自动翻译的精确度增加,剩下更少的需要人工编辑的词语。
上述说明和附图仅解释和说明了本发明,本发明并不限于此。本领域技术人员在本公开的基础上将能够在不偏离本发明范围的基础上作出改变和变形。例如,通过在语音用户、翻译者和语音识别程序之间分时利用计算机,可以将本系统的所有元件设置在单一的通用计算机上。所节省的成本费用使本系统能为更多的办公环境所接受,不仅仅限于是大型医疗诊所、医院、法律事务所或其它大型单位。
权利要求
1.一种用于为一个或多个语音用户提供充分自动的翻译服务的系统,所述系统包括用于从当前用户接收语音口授文件的装置,所述当前用户为所述一个或多个语音用户中的一个;用于将所述语音口授文件自动转换为第一书面文本的第一装置,所述第一自动转换装置具有第一组转换变量;用于将所述语音口授文件自动转换为第二书面文本的第二装置,所述第二自动转换装置具有第二组转换变量,所述第一和第二组转换变量之间至少具有一个差别;以及用于人工编辑所述第一和第二书面文本拷贝的装置,以创建所述语音口授文件的一个逐字文本。
2.根据权利要求1所述的发明,其中,所述第一书面文本至少暂时地与所述语音口授文件同步,所述人工编辑装置包括用于将所述第一书面文本拷贝与第二书面文本顺序进行比较,从所述第一书面文本的拷贝选出不匹配词顺序列表的装置,所述顺序列表具有一个开头,一个结尾和一个当前不匹配词,所述当前不匹配词从所述开头到所述结尾连续移动;用于在与包括所述第一书面文本的所述第一自动转换装置相关的第一缓冲区和与所述顺序列表相关的第二缓冲区内同时递增地搜索所述当前不匹配词的装置;以及用于在所述第二缓冲区内校正所述当前不匹配词的装置,所述校正装置包括用于以视觉上显著区别于所示第一书面文本拷贝内其它文本的方式显示所述当前不匹配词的装置,和从与当前不匹配词相关的所述第一缓冲区中显示所述同步语音口授记录的装置。
3.根据权利要求2所述的发明,其中,所述编辑装置还包括用于在所述第一书面文本的所述拷贝中交替地观察所述当前不匹配词显示在上下文中的装置。
4.根据权利要求1所述的发明,其中,所述第一和第二自动语音转换装置中的每一个都包括用于人类交互应用的现有语音识别程序,所述第一和第二自动语音转换装置中的每一个都包括对来自于所述现有语音识别程序的一系列交互式查询进行自动响应的装置。
5.根据权利要求4所述的发明,其中,所述第一和第二组转换变量之间的差别为包括所述第一和第二自动语音转换装置的所述现有语音识别程序。
6.根据权利要求5所述的发明,其中,所述自动语音转换装置从包括Dragon Systems公司的Naturally Speaking,IBM公司的Via Voice和菲利浦公司的Magic Speech的一组中进行选择。
7.根据权利要求4所述的发明,其中,所述第一和第二组转换变量之间的差别包括与所述现有语音识别程序相结合使用的一种语言模型。
8. 根据权利要求7所述的发明,其中,在所述第一组转换变量中使用通用语言模型,在所述第二组转换变量中使用一种专业语言模型。
9. 根据权利要求4所述的发明,其中,所述第一和第二组转换变量之间的差别包括与所述现有语音识别程序有关的至少一种设置。
10.根据权利要求4所述的发明,其中,所述第一和第二组转换变量之间的差别包括用于在输入到所述第一自动转换装置之前对音频进行预处理的装置。
11.根据权利要求10所述的发明,其中,所述第一和第二组转换变量之间的差别包括用于在输入到所述第二自动转换装置之前对音频进行预处理的装置,其中,所述第一和第二预处理变量是不同的。
12.根据权利要求11所述的发明,其中,从包括数字字长、抽样率和去除特定谐波范围的一组中选择所述预处理变量。
13.根据权利要求1所述的发明,其中,所述第一和第二组转换变量之间的差别包括与所述现有语音识别程序相结合使用的一种语言模型。
14.根据权利要求13所述的发明,其中,在所述第一组转换变量中使用通用语言模型,在所述第二组转换变量中使用一种专业语言模型。
15.根据权利要求1所述的发明,其中,所述第一和第二组转换变量之间的差别包括用于对输入到所述第一自动转换装置的声音进行预处理的装置。
16.根据权利要求16所述的发明,其中,所述第一和第二转换变量组之间的差别包括对输入到所述第二自动转换装置的声音进行预处理的装置,其中所述第一和第二预处理变量是不同的。
17.根据权利要求1所述的发明,还包括用于训练所述自动语音转换装置,获得当前用户的较高精确度的所述语音口授文件的装置。
18.根据权利要求17所述的发明,其中,所述训练装置包括现有语音识别程序用于人类交互应用的现有语音识别程序的训练部分,所述训练装置包括用于对来自于所述现有语音识别程序的所述现存训练部分的交互查询系列进行自动响应的装置。
19.一种在包括至少一个语音识别程序的系统中,用于为一个或多个语音用户提供自动翻译服务的方法,所述方法包括步骤从一个当前语音用户接收语音口授文件;使用一种语音识别程序,用第一组转换变量从该语音口授文件自动创建第一书面文本;使用一种语音识别程序,用第二组转换变量从该语音口授文件自动创建第二书面文本;通过比较该第一和第二书面文本,人工建立一逐字文件;以及将该逐字文件返回给该当前用户。
20.根据权利要求19所述的发明,其中,所述人工建立逐字文件的步骤包括的子步骤为顺序地对第一书面文本的拷贝和第二书面文本进行比较,从第一书面文本拷贝中选择出不匹配词语并产生一个顺序列表,该顺序列表包括一个开头、一个结尾和一个当前不匹配词,该当前不匹配词从开头到结尾连续移动;在与至少一个包括第一书面文本的语音识别程序相关的第一缓冲区和与顺序列表相关的第二缓冲区中同时递增地搜索当前不匹配的词语;以视觉上显著区别于第一书面文本拷贝中其它文本的方式显示当前不匹配的词,并播放与该当前不匹配词相关的,来自于第一缓冲区的同步语音口授记录的一个部分;以及校正该当前不匹配的词语,使之成为同步语音口授记录部分的逐字表示法。
21.根据权利要求19所述的发明,还包括从可用的现有的语音识别程序中选择第一组转换变量;以及从可用的现有的语音识别程序中不同地选择第二组转换变量。
22.根据权利要求19所述的发明,还包括从可用的语言模型中选择第一组转换变量;以及从可用的语言模型中不同地选择第二组转换变量。
23.根据权利要求19所述的发明,还包括在自动创建第一书面文本之前对语音口授文件的预处理,该预处理形成了至少一部分第一组转换变量。
24.根据权利要求23所述的发明,还包括在自动创建第二书面文本之前对语音口授文件进行不同于第一组预处理转换变量的预处理,该预处理形成了至少一部分第二组转换变量。
全文摘要
披露了一种用于为一个或多个语音用户提供充分自动的翻译服务的系统。该系统从当前用户接收语音口授文件,基于第一组转换变量,该语音口授文件被自动转换为第一书面文本。基于第二组转换变量,该语音口授文件被自动转换为第二书面文本。第一和第二组转换变量将至少存在一个差别,比如不同的语音识别程序,不同词汇表和类似方面。该系统还包括用于人工编辑第一和第二书面文本拷贝的程序,以创建语音口授文件(40)的逐字文本。该逐字文本可以作为翻译文本交付给当前用户。还可以将该逐字文本反馈给每种语音识别情况,相对于文件中人的声音提高每种情况的转换精确度。
文档编号G10L15/00GK1341255SQ00803971
公开日2002年3月20日 申请日期2000年2月18日 优先权日1999年2月19日
发明者乔纳森·卡恩, 秦晓, 托马斯·P·弗莱恩 申请人:美国科斯特语音公司