专利名称:用于翻译系统的计算机实现的方法
技术领域:
本发明涉及用于自然语言翻译的计算机实现的方法、计算机软件和装置。
背景技术:
进行跨国贸易的许多组织期望多种语言的文档以提供对国际市场最大可能的覆盖。诸如互联网和卫星网络的现代通信系统几乎跨越全球的每个角落,并需要数量不断增加的高质量自然翻译工作以实现种种不同文化之间的全面理解。
凭经验看,专家级人类翻译者可以每小时翻译约300个词,但是该数字会随着与特定语言对相关地遇到的困难而变化。对于具有相似语法结构和词汇的语言对(诸如西班牙语-意大利语),可能翻译得比该数字多,而对于具有很少共性的语言对(诸如汉语-英语),情况会相反。单单为了应对现代生活的所有全球翻译需要,就会花费大量的人力。明显的是,即使为了使翻译者只就几个应用领域开始跟上无数网页、公司手册、政府文档和新闻文章的不断发展的需求和更新,翻译者也需要一些帮助。
计算机具有处理大量信息的能力,因而很自然地适合于通过机器翻译来解决此问题。在计算机自动翻译(公知为机器翻译)的早期,进行了利用字典直接从源语言翻译成目标语言的尝试。这种字典很大,对于多个源语言-目标语言对而言不实用。为了被有效并可靠地使用,这种字典需要句法和语法规则的全集。
存在各种纯机器翻译器,它们可以几秒钟就翻译数千词,但是无法保证成功率。使用该方法并提供免费web版本的公司的示例是SystranS.A.,其机器翻译技术支持着由Altavista提供的Babelfish网站(http://babelfish.altavista.com/)。
在机器翻译过程中的某处利用人的影响来提供期望的翻译水平。Caterpillar公司的一种方法是国际专利申请WO 94/06086的主题,其中,各种词汇和语法约束通过交互式文本编辑器而应用于源。这使得可以通过翻译算法应用简化的规则并有助于消除译文的歧义。虽然不需要后编辑,但是因为正是限制输入源语言这一过程需要人通过一系列确认问题进行干预,所以该系统不理想。
在国际专利申请WO 02/29621中描述了一种用于机器翻译的分割合并方法。通过在实际进行翻译之前给予翻译器对如何翻译内容更大的灵活性,来简化翻译器的任务。用户可根据特定的格式或词汇特征来合并或分离内容。
在欧洲专利申请EP 0668558中详述了一种专门适于翻译用于国际发行的计算机软件的系统。这里,通过图形用户界面(GUI)实现了各种不同的工具,诸如本地化工具、词汇表工具和建立工具以协助转换。随着对所讨论的软件程序的二进制复制,这些工具使本地软件发行商可以创建外国程序版本,这些版本可以在原始软件公司的授权下被理解和使用。
将纯人工翻译和纯机器翻译联系起来就是机器辅助翻译方法,在该方法中在人和计算机之间分担负担。
在国际PCT申请WO 99/57651中,描述了一种用于识别句子中不需要翻译或仅需简单的公式转换的某些部分(诸如日期、时间、头衔、姓名和数字)的系统。该想法是要通过使翻译者不必重新键入不需要他们注意的信息来帮助翻译者。翻译者因而可以自由地将其全部注意力转向其他词性部分(诸如动词、形容词等),从而更有效地利用他们的技能。
多个专利覆盖了统计自然语言翻译领域。这些系统可以在没有人的协助的情况下工作或者与人类用户合作地工作。在美国专利US 5,991,710中描述了前一情况的示例,在该专利中,使用条件概率量度来产生源语言模型。为了翻译文档,该系统随后根据该模型挑选最接近的候选项。
在美国专利US 5,768,603中给出了后一情况的示例,在该专利中,通过对在相关语言对的对照文档进行扫描来创建统计量度。一旦经过训练,该系统针对待处理的未对照文档计算最可能的翻译候选项。然后将这些翻译候选项呈现给人类翻译者/编辑者,该人类翻译者/编辑者针对各个情况选择最佳翻译。明显的是,这种系统只产生与概率模型或形成其基础的输入训练集一样好坏的结果。
因此,需要一种快速、有效、易于使用且可靠的机器辅助自然语言翻译系统,该系统将考虑源输入语言的语言学。
发明内容
根据本发明的第一方面,提供了一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤选择第一自然语言的源材料的至少一部分;从所述部分中选择第一源语言元素;从所述部分中选择不同的第二源语言元素;将至少第一条语言学信息附于所述第一源语言元素;将至少第二条语言学信息附于所述第二源语言元素;将所述第一条语言学信息和第二条语言学信息与至少第一解析规则进行匹配;响应于所述匹配,形成所述第一源语言元素和第二源语言元素之间的关联,以创建第一术语候选项;以及在将所述第一自然语言的所述源材料完全翻译成至少第二自然语言之前,以适于人类检查者进行检查的形式输出所述第一术语候选项。
因此,通过利用本发明,软件进程可以通过将源文本的语言学信息与在预定解析规则中定义的语言学模式进行匹配来识别术语候选项。该语言学信息可包括例如指示源语言元素是动词或名词的词性信息。
优选的是,随后由用户对所述术语候选项进行确认,从而使其成为已确认术语。然后将该已确认术语翻译成不同的第二自然语言,从而使其成为译得术语。然后可将译得术语载入在随后的机器辅助翻译期间使用的机器翻译字典,从而应用于源材料的整体。因此,无论哪里出现术语候选项,都可立即获得正确的译文,并且不需要另外的人工输入来获得该正确的译文。
根据本发明的第二方面,提供了一种被设计为执行在所述第一方面中描述的步骤的计算机软件。
因此,通过利用本发明,通过使载入的软件工作并在适当的计算设备上运行,可以帮助从源文本中提取术语候选项。
根据本发明的第三方面,提供了一种计算机辅助的自然语言翻译装置,该装置包括信息存储系统,其适于存储数字内容,所述内容包括第一自然语言的源材料、多条语言学信息及其与源语言元素的关联、多个解析规则、多个术语候选项、已确认术语的集合、以及译得术语的集合;信息处理系统,其适于提供用于确定源语言元素的实例、执行解析规则和将多条语言学信息附于源语言元素的处理的装置;数据输入系统,其适于提供用于输入与所述内容相关的选择数据的装置,其中所述选择数据包括指示术语候选项的确认的数据;和可视显示系统,其适于呈现来自所述信息存储系统的信息,所述呈现信息包括所述源材料形式的数据、所述源元素、所述多个术语候选项、所述已确认术语的集合、以及所述译得术语的集合。
因此,通过利用本发明,可以通过具有信息存储系统、信息处理系统、数据输入信息和可视显示系统的计算系统,从源文本中提取多个术语候选项。
根据本发明的第四方面,提供了一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤选择第一自然语言的源材料的至少一部分;从所述部分中选择第一源语言元素;从所述部分中选择不同的第二源语言元素;将所述第一源语言元素和第二源语言元素与至少第一解析规则进行匹配,所述第一解析规则要求所述第一和/或第二源语言元素具有预定特征;响应于所述匹配,形成所述第一源语言元素和第二源语言元素之间的关联,以创建第一术语候选项;以及在将所述第一自然语言的所述源材料完全翻译成至少第二自然语言之前,以适于人类检查者进行检查的形式输出所述第一术语候选项。
因此,通过利用本发明,软件进程可以利用存在于某先前已知的解析规则中的预定特征,根据源文本中的预定特征来识别术语候选项。这些预定特征可包括大写或连字符或其他这种标点。
优选的是,随后由用户对所述术语候选项进行确认并将其翻译成不同的第二自然语言。然后可将译得术语载入在随后的机器辅助翻译期间使用的机器翻译字典,从而应用于源材料的整体。因此,无论哪里出现术语候选项,都立即可得到正确的译文,并且不需要另外的人工输入来获得该正确的译文。
根据本发明的第五方面,提供了一种用于自然语言翻译的计算机辅助方法,所述方法包括在软件进程中执行以下步骤在第一自然语言的源材料的至少一部分中识别术语候选项的集合;通过用户界面将所述术语候选项的集合呈现给用户;以及从所述用户接收选择数据,所述选择数据用来创建所述术语候选项的子集,以产生已确认术语的集合。
因此,通过利用本发明,可以向用户呈现由计算系统从第一自然语言的源文本中识别的术语候选项的集合,用户随后可以选择已确认术语的子集。
优选的是,所述已确认术语随后将被翻译成不同的第二自然语言。然后可将译得术语载入在随后的机器辅助翻译期间使用的机器翻译字典,从而应用于源材料的整体。因此,无论哪里出现术语候选项,都可立即获得正确的译文,并且不需要另外的人工输入来获得该正确的译文。
根据本发明的第六方面,提供了一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤载入第一自然语言的源材料的至少一部分;选择第一解析规则;使用所述第一解析规则来识别所述部分中的一个或更多个术语候选项;输出所述一个或更多个识别出的术语候选项;选择第二解析规则;使用所述第二解析规则来识别所述部分中的一个或更多个另外的术语候选项;以及输出所述一个或更多个另外识别出的术语候选项。
因此,通过利用本发明,软件进程可以通过利用一个或更多个解析规则来扫描第一自然语言的源文本,从而识别术语候选项。可将来自一个解析规则的输出用作对另一个解析规则的输入。
优选的是,所述术语候选项随后将被翻译成不同的第二自然语言。然后可将译得术语载入在随后的机器辅助翻译期间使用的机器翻译字典,从而应用于源材料的整体。因此,无论哪里出现术语候选项,都可立即获得正确的译文,并且不需要另外的人工输入来获得该正确的译文。
本发明吸收在前面的章节中描述的现有技术的某些特性,改进其某些缺点,并且提出了一种快速、有效、易于使用且可靠的机器辅助自然语言翻译方法和系统。
本发明承认计算机经常无法产生完美译文的事实。本发明利用所讨论的语言的结构的基础并且能够更有效地识别术语候选项。使翻译过程中某些更费力步骤自动化促使劳动时间以及与机器辅助翻译相关联的成本显著减少。
本发明还承认这样的事实(并用于其优点)由于人类语言高度复杂的结构,人工输入有时仍是找到术语候选项的可接受译文的最佳方式。通过提供有效的人机界面(通过该界面可以在进行完全机器辅助翻译之前采取这些步骤),可以帮助进行该处理。与专家级人类翻译者单独翻译相比,有本发明的协助,专家级人类翻译者可以以快至四倍的速度进行翻译,到达相同标准。
此外,根据下面参照附图进行的对仅作为示例的本发明优选实施例的描述,本发明的另外的特点和优点将会变得显而易见。
图1是根据本发明优选实施例的逻辑视角的系统图。
图2是根据本发明实施例的物理视角的系统图。
图3是示出了根据本发明实施例的软件组件的图。
图4是示出了根据本发明实施例的术语候选项提取处理的高层流程图。
图5是在根据本发明实施例的初始设置阶段中涉及的步骤的流程图。
图6是在根据本发明实施例的词语分析处理中涉及的步骤的流程图。
图7是在根据本发明实施例的术语候选项解析处理的前一半中涉及的步骤的流程图。
图8是在根据本发明实施例的术语候选项解析处理的后一半中涉及的步骤的流程图。
图9是在根据本发明实施例的导出处理中涉及的步骤的流程图。
图10是根据本发明实施例的按出现频率降序排序的术语候选项的列表以及一些显示选项图标的根形式图的截屏图。
图11是根据本发明实施例的按字母升序排序的术语候选项的列表的变形形式图的截屏图。
图12是根据本发明实施例的按字母升序排序的变形形式词语图的截屏图。
图13是根据本发明实施例的按字母升序排序的根形式词语图的截屏图。
图14是一些术语候选项的截屏图,该截屏图具有第二窗口,该第二窗口用于显示这些术语候选项的译文以及对应译文已根据本发明实施例进行了检查和确认的术语候选项的译文。
图15是示出了根据本发明实施例从术语候选项列表中去除不良术语候选项的截屏图。
具体实施例方式
图1示出了本发明的逻辑视角的系统图。在步骤A中,载入源材料,并执行步骤B中所示的基于软件的术语提取处理。在步骤C中对术语进行翻译,并且在步骤D中利用该新数据来更新机器翻译字典。在步骤E中,利用从来自译文存储器的先前已知的翻译集的输入,使用新数据来产生译文。
在步骤F中进行译文后编辑处理,其中由翻译者检查译文。翻译者还可如步骤G所示手动地提取术语,然后在步骤H中利用该结果来再次更新机器翻译字典。在步骤I中,由翻译者或计算语言学家进行翻译的质量检查,然后在步骤J中更新译文存储器。此外,质量检查还会导致在步骤K中对机器翻译字典的添加。检查质量的语言学家查看后编辑者做出的改变的类型。如果存在通过向机器翻译字典添加条目就可在将来避免的一致改变,则此时创建这些条目并将其应用于任何以后的翻译,就像将经更新的译文存储器应用于以后的翻译一样。然后在步骤L中,准备好以目标语言输出译文。
图2示出了本发明的物理视角的系统图。这给出了可应用本发明的经组网的系统的示例,但是这决不是唯一的应用情景。第一数据库(示为组件12)用于存储一个或更多个第一自然语言的源文档或材料(示为组件16),所述源文档或材料要被翻译成一个或更多个不同的自然语言。第一数据库还用于存储一旦翻译处理完成就准备输出的译得术语(示为组件14)。可通过多个用户终端(其功能将在下面解释)访问该数据库。第一数据库在本地连接到服务器(示为组件6)或者跨电信网络(示为组件7)而远程连接到服务器。所述服务器负责处理与第一数据库有关的信息,并且还通过电信网络与多个用户终端通信。第二数据库(示为组件8)与服务器相连以保持与机器翻译字典(示为组件9)相关的信息。该机器翻译字典包括保持用于一般翻译的词语的主字典(示为组件10),并且还可能包括定制字典(示为组件11),该定制字典保持对于正在翻译的当前主题专用的词语或者用于特定客户的词语等。
用户终端可以是个人计算机或其他计算设备,诸如能够处理数据的服务器或膝上型计算机。第一用户终端(示为组件1)运行本发明的软件,该软件对一个或更多个源文档进行分析以提取用于确认的术语候选项。这些术语候选项(示为组件15,这里还概称为“短语”)存储在第一数据库中。确认处理包括来自用户或经训练的计算语言学家的输入。用户输入可包括术语候选项的确认、错误术语候选项的删除、经改正的术语候选项的插入、以及将在下面更详细地解释的各种其他步骤。
一旦经过确认,术语候选项形成已确认术语的列表(示为组件13),该列表存储在第一数据库中。为了翻译成不同的第二自然语言,翻译者操作第二用户终端(示为组件2)以对由软件提供的译文进行确认和/或改正或者在未提供译文的情况下提供新译文。为了翻译成不同的第三自然语言,翻译者操作第三用户终端(示为组件3)以对由软件提供的译文进行确认和/或改正或者提供新译文。
翻译者提供译得术语的列表(示为组件14),这些列表存储在第一数据库中。使用来自术语提取处理的信息来创建可以在以后的翻译中使用的机器翻译字典。然后服务器利用译得术语和存储在机器翻译字典中的信息来提供源文档的所需语言的全部机器译文。然后,这些机器译文在另外的用户终端(示为组件4和5)处进行确认,然后准备好供翻译实体的客户使用。可以使用另外的翻译者和确认者在以后提供不同自然语言的译文。
要注意,上述存储在第一和第二数据库中的文件还可以以非数据库格式(诸如公知的SGML和XML格式)进行存储。
图3中的图示出了本发明的软件组件。源存储部(示为组件24)用于保持来自源文档的文本。通过分割器(示为组件18)访问源存储部,该分割器将源文本分割成句子和词语。该分割器可以访问一组先前定义的标点规则(示为组件17)以及一组先前定义的变形规则(inflection rule)(示为组件19)。还利用存储在词汇数据库(示为组件20)中的信息。在处理存储部(示为组件25)上保持分割信息,然后使能解析器(示为组件23)来解析文本。这里使用的术语“解析”用于描述按顺序扫描或处理文本以提取术语候选项的方式。处理器存储部还保持在软件运行期间使用的多个数据对象。这些数据对象包括LANGUAGE(语言)对象,用于存储与当前源的语言有关的信息;SENTENCE(句子)对象,用于存储与当前正在解析的句子有关的信息;PHRASE(短语)对象,用于存储与当前正在提取的术语候选项有关的信息;和GLOBAL PHRASE(全局短语)对象,用于存储与迄今提取的术语候选项有关的信息。
解析器组件使用一组解析规则(示为组件21)来研究句子的构造和句子中词语之间的关系。解析器访问一组解析规则,来获得用于使能其操作的每个规则。这些解析规则用于将多条语言学信息或其他预定特征附于句子中的一个或更多个源语言元素,诸如词语。一组词语或者词语链在这里将被称为“多词(multiword)”。因为当应用另外的解析规则时,解析器也可将词语或多词视为单个源语言元素,因而在本文中再提及的源语言元素可包括词语或多词。应用解析规则以识别匹配一个或更多个解析规则的术语候选项。可将根据一个解析规则的术语候选项的输出用作一个或更多个另外的解析规则的输入,可重复使用该递归或反馈来建立另外的语言学关系,并从而建立另外提取出的术语候选项。
附于源语言元素的语言学信息可以是词性信息(例如动词词性或名词词性)或者变形信息(诸如指示源语言元素如何变形的“noun_reg_s”)。预定特征的一些示例可以是带有连字符的源语言元素或大写。如果源语言元素的模式(pattern)或者说顺序是使其与一解析规则相对应的,那么就说它们与该解析规则匹配。一旦解析器使源语言元素与解析规则匹配,就提取出术语候选项,并将其存储在术语候选项存储部(示为组件26)中。然后通过GUI(示为组件22)将这些术语候选项呈现给计算语言学家以供确认。一旦经过确认,将这些术语候选项存储在已确认术语存储部(示为组件27)中以呈现给翻译者。
本发明主要涉及基于软件的术语提取处理B,但是也涉及作为整体的系统。图4示出了本发明的术语提取处理的高层流程图。当本发明的软件在个人计算机、膝上型计算机、个人数字助理、服务器或类似设备的本地计算系统或通过互联网或无线链路的远程计算系统上运行时,该处理从阶段S1开始。初始设置阶段S2涉及载入所需源文档和任何所需参考文件。这里还将源文本分割成句子。下一阶段S3是词语分析,其包括将源句子分割成源语言元素并应用标点规则和变形规则。接着,短语解析阶段S4发生。该阶段涉及对各个句子的源语言元素进行扫描,并将其与各种解析规则进行匹配以产生术语候选项。最后的阶段S5是导出阶段,其中将术语候选项导出为显示格式。然后该软件在阶段S6中进行检查以查看是否存在更多的待分析句子,如果存在,则处理循环回到初始设置阶段S2,否则翻译处理在阶段S7结束。
初始设置阶段图5给出了初始设置阶段的更详细的图。初始用户设置的第一步骤涉及通过图形用户界面(GUI)将一个或更多个源文档(由项30表示)载入软件包(由项32表示)。初始用户设置的第二步骤涉及用户指定所述文档是哪种格式。这些格式可以是各种数字计算机格式中的一种或更多种,所述数字计算机格式包括丰富文本格式(*.rtf)、纯文本(ANSI)格式(*.txt)、超文本标记语言格式(*.html)、以及本发明所特有的并与软件包相关的多种格式。还可以选择打开经先前分析的文本。
在初始用户设置的第三步骤中,用户可以选择分析各个源文档的整体、各个源文档的一部分,或者指定对从源文档的起始处起的多少个段(句子)进行分析。指定源语言,然后用户可以让软件根据词汇数据库(如果可用的话)提供对所有发现的术语候选项的翻译。如果要提供这种翻译,则也可在这里选择目标语言。
在初始用户设置的第四步骤(即最终步骤)中,用户可指定多个搜索参数作为用户设置。
用户设置一个用户设置使得可以限制由软件提取的术语候选项的长度。针对每个术语候选项的词语数量来定义最大长度。最大术语候选项长度默认为五,但是可以增减以适合具体的源文本或语言对。
另一用户设置使得可以仅显示所提取的术语候选项的子集。可以根据等级和/或频率中的一个或更多个来选择该子集。存在用来更改所提取的术语候选项的显示顺序的图标。这可以按字母序、根据频率或根据等级来进行,这些图标分别作为图10的截屏图中的项380、382和384示出。还有用于按升序和降序排序的图标,这些图标作为项386和388示出。这里所指的频率是术语候选项在源文本中的出现频率。项372所指示的列中的数字根据当前显示模式给出各个提取出的术语候选项的行号或序号。项362所指示的列中的数字给出了各个提取出的术语候选项在一个或多个源文档中的出现频率。项364所指示的列中的数字给出了各个提取出的术语候选项的等级。在稍后的章节中将描述计算该等级的方法。
另一用户设置使得可以设置对在确认期间呈现的上下文句子的数量的限制。默认为不设置这种限制,在上下文句子窗口(示为图10中的项370)中显示源文本中存在特定术语候选项的所有句子。将在稍后的章节中讨论该功能的使用。
另一用户设置当软件(默认地)请求阻挡词语列表时使能绕过阻挡文本的功能。将在稍后讨论该功能的使用。
另一用户设置指示软件在提取处理期间忽略功能词。功能词是主要指示语法关系但没有其自身的语义内容的词。冠词(the、a、an)、介词(in、of、on、to)和连词(and、or、but)都是功能词。绕过功能词减少了所提取的术语候选项的数量,从而在确认阶段可以节省大量时间。
另一用户设置指示软件在提取处理期间忽略非最大匹配。最大匹配指的是可被解析为术语候选项的可能的最长串,尽管该串包含也可被解析为术语候选项的较短连语(collocation)。非最大匹配是被提取为术语候选项的多词并且是也可被提取的更大的多词的组成部分。例如,句子“The United Kingdom of Great Britain and Northern Ireland includesScotland and Wales.”产生最大术语候选项“The United Kingdom of GreatBritain and Northern Ireland(大不列颠及北爱尔兰联合王国)”,但是也产生较短的非最大匹配“United Kingdom(联合王国)”、“Great Britain(大不列颠)”和“Northern Ireland(北爱尔兰)”。
另一用户设置指示软件在提取处理期间忽略任何数字。
另一用户设置使得可以忽略任何未发现文本。未发现文本可包括软件无法确定词性的词语、源中的排字印刷错误、或在词汇数据库中无法找到的词语。
另一用户设置指示软件忽略在句子开始处之外的首字母大写的源语言元素。
另一用户设置指示软件忽略字母全以大写出现的所有源语言元素。
另一用户设置指示软件忽略其他方面都相同的术语候选项的大小写差别。
另三个使用设置使得用户可以设置默认阻挡词语列表、使用当前项目所特有的最后保存的阻挡词语列表并指定阻挡词语列表的文件名。阻挡词语列表是一文本文件,该文本文件包含不应该显示在GUI中的源语言元素和/或术语候选项。这使得用户可以将先前提取的术语候选项添加到阻挡词语列表,从而仅呈现新提取的术语候选项以供确认和翻译。此外,用户可将这样的词语和/或术语候选项添加到阻挡词语列表,这些词语和/或术语候选项先前在输出中增加了无意义数据或“噪声”。
一旦指定了所有设置,就在步骤34中初始化软件,并且在步骤38中载入源语言数据。该载入涉及读取项44的普通语言数据和项46的解析器规则,项44和46包含当前正被扫描的源文本的语言所特有的语言学数据。然后,如步骤42所示,创建被称为LANGUAGE(示为项48)、SENTENCE(示为项50)、PHRASE(示为项52)和GLOBAL PHRASE(示为项54)的各种内部数据存储对象。LANGUAGE对象用于保持当前源语言的语言数据,SENTENCE对象用于保持与当前正被扫描的句子有关的数据,PHRASE对象用于保持与当前正在提取的术语候选项有关的数据,GLOBAL PHRASE对象用于保持与针对当前项目迄今扫描的所有术语候选项有关的数据。
一旦创建了所有数据对象,就在步骤36中将源文本分割成句子,并且如步骤40所示,将各个句子传送到词语分析阶段(图4的阶段S3)。
词语分析阶段图6示出了词语分析阶段S3的详细图。该循环阶段涉及通过采用标点规则和变形规则并参考词汇数据库来分析各个句子中的源语言元素以查明其类型。来自“发送下一句子”(图5的步骤40)的输入被显示为通向图6的步骤60“清空数据对象SENTENCE、PHRASE”。针对各个被分析的句子,对这些数据对象的前两个执行该清空,以冲掉前一循环的任何旧变量或设置。
在步骤62中,通过应用一组标点规则(如项78所示)将第一句子分割成词语。在步骤64中,利用当前句子的标点信息来更新数据对象SENTENCE。该标点信息可包括任意逗号、引号等的位置。然后,如步骤66所示,载入第一词语,然后在步骤68中通过应用一组变形规则(如项84所示)将第一词语还原为根形式。然后在步骤70中通过访问词汇数据库(如项86所示)来检查该根形式。词汇数据库提供语言学信息,诸如可能词性的列表、任何可用的可能翻译和任何同义词等。
然后在步骤72中用当前词语的语言学信息来更新SENTENCE数据对象。该信息可包括动词的时态、数、人称、体(aspect)、语气和语态、名词的数、形容词的比较级或最高级形式等。然后,因为单词以及多词都可被视为术语候选项,所以在步骤74中用该信息来更新当前术语候选项数据对象PHRASE。如步骤80所示,如果需要分析该句子中的另一词语,则在步骤82处理返回,以在步骤66中载入下一词语。如果如步骤76所示现在已扫描了整个句子,则处理继续到图7的短语分析阶段S4。
根形式根形式或基形式是词语的未变形形式。变形是词语形式的改变(通常通过添加后缀或者改变元音或辅音),用于指示其语法功能的改变。该改变可能用于指示人称或时态。对于名词,根形式是单数形式,例如box、candle。对于动词,根形式是没有“to”的不定式,例如,“to run”还原为“run”,“climbed”还原为“climb”。对于形容词,根形式是原级形式,例如rich、lovely(而不是比较级“richer”、“lovelier”或者最高级“richest”、“loveliest”)。对于副词,根形式也是原级形式,但是在英语中,将规则形成的“-ly”副词还原为派生出该副词的形容词的原级形式,例如,“cheerfully”还原为“cheerful”,“spotlessly”还原为“spotless”。
短语解析阶段图4的短语解析阶段S4的第一步骤在图7的步骤124中示出,并且包括载入解析器规则(如项146所示)。该解析器规则指示软件如何扫描或解析句子的源语言元素以挑选或提取术语候选项。解析器扫描句子的源语言元素,以寻找出现的符合解析器规则之一的源语言元素。依次针对各个规则扫描该句子。对于英语的源材料,如果检测到以下序列之一,则匹配了解析规则解析规则l一个动词之后跟着一个介词解析规则2基形式形容词之后跟着单数名词解析规则3一个或更多个单数名词之后跟着名词解析规则4任何包含连字符的复合词解析规则5大写名词,之后是介词,之后是零个或更多个形容词,之后是一个大写名词,之后是一个或更多个大写名词解析规则6大写词语之后跟着一个或更多个大写词语应该注意的是,解析规则是可扩展的。可以在词汇数据库的适当表中修改或添加上面列出的五个英语规则,而无需重新编译软件。
可以看出,解析规则1具有两个规则元素动词和介词,而解析规则5具有至少四个规则元素第一大写名词、介词、第二大写名词和第三大写名词。
在解析处理开始处,如步骤126所示,创建有穷状态机(FSM),以跟踪当前被扫描的解析规则,如步骤128所示。如步骤146所示,对于第一解析规则,在步骤130中对该句子进行扫描,查找与解析规则的第一规则元素相匹配的所有源语言元素。术语“源语言元素”用于指示单词或多词或其他句子元素。术语“规则元素”用于指示解析规则中源语言元素必须与之匹配的部分,所述源语言元素各自具有至少一条附加至其的语言学信息。例如参考解析规则1,在这里第一规则元素是动词,所以解析规则将在整个句子中搜索动词。
如步骤144所示,如果没有找到与解析规则相匹配的源语言元素,则在步骤142中清空FSM,并且在步骤138中进行是否存在另一待检查解析规则的判定。如步骤140所示,如果不再有待检查解析规则,则处理继续进行,在步骤188(稍后描述)中将匹配的术语候选项写入PHRASE数据对象。
如步骤128所示,如果确实需要扫描另一解析规则,则在步骤146中载入另一规则,并在步骤130中像以前那样对该句子进行扫描,以扫描与该另一规则相匹配的所有源语言元素。依次重复步骤144、142、138、128、146和130,直到找到句子中与解析规则的第一规则元素相匹配的所有源语言元素为止。然后在步骤132中,在FSM中创建用于跟踪所发现的各个匹配的状态。然后在步骤134中,再次检查解析规则以查看其是否具有另一规则元素。例如参考解析规则1,在这里第二规则元素是介词,所以解析器将在整个句子中搜索在动词之后出现的介词。
如果没有其他规则元素,那么处理继续进行,在步骤188(稍后描述)中将匹配的术语候选项写入PHRASE数据对象。
如步骤122所示,如果当前正被扫描的解析规则具有更多规则元素,则在图8的步骤160中重置FSM的所有状态。然后在步骤176中载入下一规则元素,并且在步骤178中载入FSM的第一状态。然后在步骤164中检查当前规则元素以查看该规则元素是否适用于该状态。
如步骤166所示,如果当前规则元素确实适用于第一状态,则在步骤168中将该状态更新为包括当前规则元素的信息,即,当前状态是与当前规则的潜在匹配。在步骤172中,解析器进行检查以查看FSM中是否存在另一待分析状态。如步骤170所示,如果存在,则处理返回以在步骤178中载入下一状态。然后处理从步骤172继续检查FSM中是否存在更多的待分析状态。
如步骤180所示,如果当前规则元素不适用于第一状态,则在步骤182中从FSM中删除该状态,因为该状态不会与当前规则潜在匹配。然后处理从步骤172继续检查FSM中是否存在更多的待分析状态。
如步骤184所示,如果FSM中不再有待分析状态,则在步骤174中检查当前解析规则以查看其是否包含另一规则元素。如步骤162所示,如果存在当前解析规则的更多元素,则在步骤160中将FSM中的状态重置并在步骤176中载入下一规则元素。像前面那样重复该处理,直到分析了当前规则中的所有元素为止,如步骤186所示。
然后在步骤188中将匹配的术语候选项写入PHRASE数据对象。如步骤190所示,现在解析器进行检查以查看是否存在要扫描以与源句子匹配的更多解析规则。如步骤200所示,如果需要对源文本检查另一规则,则处理返回以在步骤120中清空FSM。如步骤192所示,如果不再有要扫描的规则,则在步骤194中将来自迄今识别出的术语候选项的数据写入GLOBAL PHRASE数据对象。然后处理继续进行到图4的导出阶段S5。
例句现在给出词语分析阶段和短语解析阶段对例句的处理的描述。例句是“It was hidden under the sofa-bed”。
从图5的步骤40开始,将该句子发送到词语分析阶段S3。在步骤60中清空相关数据对象,并在步骤62中将该句子分割成七个源语言元素。这里将带连字符的复合词“sofa-bed”视为两个源语言元素,在标点信息更新步骤64期间将该连字符的存在记录在SENTENCE数据对象中。
然后在步骤66中载入第一源语言元素“it”,并在步骤68中通过应用项84的变形规则将其还原为根形式。然后在步骤70中通过参考项86的词汇数据库来检查该根形式,并在词语信息更新步骤72中将该单数代词保存到当前句子数据对象SENTENCE。在步骤74中还更新当前术语候选项数据对象PHRASE。
然后在步骤80中解析器进行检查以查看该句子中是否存在另一源语言元素。在存在另一源语言元素情况下执行步骤82,并在步骤66中载入句子的第二源语言元素“was”。源语言元素“was”来自动词不定式“tobe”,因此其根为“be”。其在这里的用法是作为其后动词的被动助动词(因而是功能词),在步骤72中用该信息来更新当前句子数据对象SENTENCE。在步骤74中还更新当前术语候选项数据对象PHRASE,然后在步骤80中检查该句子以查看是否存在另一源语言元素。
然后在步骤66中载入该句子的第三源语言元素“hidden”。在步骤68中将其还原为根形式,发现其是动词不定式“to hide”中的词“hide”。然后在步骤70中在项86的词汇数据库中检查该根形式,并像前面那样进行步骤72和74的更新。
第四源语言元素“under”是介词,来自带连字符的复合词“sofa-bed”的第五和第六源语言元素是名词,以与该句子的前三个源语言元素相似的方式对它们进行分析。
一旦分析了该句子中的所有源语言元素,则在步骤124中载入项146的解析器规则并在步骤126中创建FSM。在步骤146中初始载入第一规则(即解析规则1),该规则查找后跟一个介词的一个动词。在步骤130中对该句子进行扫描,扫描该解析规则的第一规则元素(即,动词)。找到的唯一动词是根形式的“hide”,所以在步骤132中针对该匹配在FSM中创建一个状态。然后在步骤134中检查该规则中的另一元素。
该规则确实有另一元素,所以执行步骤122,并在步骤160中重置现有状态。术语“重置”在这里指的是状态机跳回FSM的标准操作的第零状态。为了找到与解析规则l的匹配,解析规则1的第二规则元素规定下一源语言元素必须是介词,如步骤176所示。在步骤178中载入所需状态(即,状态机跳到与第一匹配相对应的第一状态),然后在步骤164中检查该规则元素以查看其是否适用于该状态。介词“under”确实符合,所以执行步骤166,并在步骤168中将该状态更新为也包括对该解析规则的第二元素的匹配。
因为不再有要分析的状态,所以执行步骤172和184。当前解析规则也不再有更多的规则元素,所以执行步骤174和186,然后在步骤188中将匹配的术语候选项“hidden under”写入当前术语候选项数据对象PHRASE。
确实存在第二解析规则,所以执行步骤190和200,然后在步骤120中清空FSM,从而在步骤146中扫描该句子中的该下一解析规则的实例。像前面那样重复该处理,但是在该句子中没有形容词,所以没有对解析规则2的匹配。第三解析规则也不匹配,因为没有连续名词的序列。然而,因为“sofa-bed”包含连字符,所以第四解析规则与复合词“sofa-bed”匹配,在步骤188中将其写入当前术语候选项数据对象PHRASE。第五和第六解析规则与该句子不匹配,从而针对该句子完成了术语候选项解析阶段。然后在步骤194中利用与从该句子中提取的术语候选项有关的信息来更新全局术语候选项数据对象GLOBAL PHRASE。
导出阶段现在返回对本发明的总体讨论,一旦从句子中提取了术语候选项,就到达图4的导出阶段S5。图9示出了该阶段的更详细的图。在步骤224中,将在GLOBAL PHRASE数据对象中保持的术语候选项写入界面文件。该界面文件的格式适于被GUI软件组件读取。然后在步骤226和228中将界面文件中的数据与来自任一先前的术语候选项提取的数据进行组合并导出到GUI。
然后在步骤230中检查该软件以查看是否存在更多要分析的句子。如果存在更多句子,则执行步骤230,然后处理跳回初始设置阶段S2的下一句子载入步骤40。
如果已分析了全部文本,则执行步骤232,然后如步骤234所示,将任意过滤器和阻挡词语列表应用于所提取的术语候选项列表。这会去除位于阻挡词语列表中的任何术语候选项,从而使其不呈现给语言学家来编辑和确认。术语候选项位于阻挡词语列表中可能出于各种原因它们可能是从先前的提取中创建的无意义术语候选项(或噪声);它们可能是不必花费计算语言学家大量时间进行编辑或者不必花费翻译者大量时间进行翻译的术语候选项;它们可能是会引起混淆或对特定地区文化冒犯的术语候选项或方言(dialect),或者它们可能是不适于特定项目的术语候选项等。
应用于所提取的术语候选项的过滤器可以去除不期望的大写、重复的类似术语候选项或冲突的术语候选项等。这种过滤器可以是语言特定的、地区特定的或应用领域特定的。
一旦准备好对界面文件中的所提取的术语候选项数据进行编辑,就以各种方式通过GUI将其呈现给用户,如步骤236所示。
图10示出了通过点击项376的图标而显示的所提取术语候选项的列表的根形式图的截屏图。通过点击项382的图标将术语候选项按出现频率排序,并且通过点击项388的图标将术语候选项按降序排序。在该具体截屏图中,在项366的术语候选项“accounting firm”上点击游标。这里,分别如项372、362和364所示,行号是“1”,频率是“1”,等级是“8”。
分级功能等级是具有一定范围的值(例如范围从1到10的一组值)的置信指数值。最初可以通过确定所提取的与特定解析器规则相匹配的术语候选项中的百分之几事实上语义相关,来分析从大文集(corpus)中提取的术语候选项,从而确定所述等级。例如,可以将初始等级八分配给最可能产生良好术语候选项的解析器规则。然后可以基于给定的提取术语候选项在源材料中的出现频率来提高该初始等级。
因此,例如当在文档中首先发现术语候选项A时,可以根据该术语候选项A所匹配的术语候选项模式(就是说,例如,术语候选项A匹配规则A,规则A的等级为7),给予术语候选项A初始等级。然而,随着以后术语候选项A在源材料中的每次出现,该等级都会潜在提高。将术语候选项的列表与其在源材料中的原始出现次数以及等级(如上所述,模式置信度和出现频率的函数)一起呈现给用户。通过根据其等级对术语候选项进行排序,用户可将其工作集中在所提取的最可能是语义单元的术语候选项上。如果一术语候选项仅被发现一次但是其初始等级为8,则它是良好候选项。得到低初始等级的术语候选项随后可能基于其出现频率而提高至等级8。这两种情况都理应得到用户的注意。软件用户(即,计算语言学家)可以调节初始等级的默认设置。
当对大文集进行分析以产生初始等级估计时,可以使用各种统计量度。该处理应该具有某些人工输入,以针对各个模式检查所提取的术语候选项的质量,从而实现合理的估计。
现在返回到对导出阶段的讨论,上下文窗口示出了出现术语候选项的句子。在此情况下,如项370所示,该句子仅出现一次,并且术语候选项以变形形式“accounting firms”出现。在项374的词性窗口中该术语候选项被识别为名词短语。
图11示出了变形形式图中的相同术语候选项的截屏图。通过点击项400的图标按字母顺序显示这些术语候选项,并且通过点击项402的图标按升序显示这些术语候选项。在该具体情况下,在项411的术语候选项“CEO Steve Ballmer”上点击游标,如项414所示,行号是“6”;如项412所示,频率是“1”;如项410所示,等级是“7”。如项406所示,在上下文窗口中将在出现该术语候选项的句子中的该术语候选项加亮,并且如项408所示,在词性窗口中该术语候选项被识别为大写。
图12的截屏图示出了变形词语图,通过点击项442的变形形式图标和项430的词语形式图标而显示该图。通过点击项432和434的图标将这些词语按字母升序排列。索引或词语显示模式是来自原文的具有任何对应的语言学信息的所有词语的列表或索引。词语“was”的行号为“377”(如项436所示),其出现频率为“5”(如项438所示)。在上下文窗口中列出源文本中出现该词语的句子,如项440所示。如项442的复选框所示,词语“was”被识别为功能词。如项444的复选框所示,在词汇数据库中找到了词语“was”。其根形式“BE”由项446指出。
在图13的截屏图中通过点击项460的图标将显示从变形形式图切换到根形式图。如项466所示,词语“was”被识别为具有动词词性并且来自于动词不定式“to be”,所以根形式是“be”,“be”的频率为“14”,如项464所示。因为几个词语可以具有同一根形式,所以与前一幅图中的“was”相比,这里有更多出现次数。这里,上下文窗口的差别在于,虽然列出了上下文句子,但是因为原始源句子包含的是变形形式(例如“was”或“are”或“is”等),所以词语“be”未被加亮。如项462所示,由于不同的排序,行号也变为“43”。
应该注意,计算语言学家或其他用户如果感到源语言元素或术语候选项在提取处理期间被错误地识别或者进行不同的分类更好,则他们可以在这里推翻任何语言学细节。这种推翻例如可包括改变词性或从功能词列表中去除源语言元素。
图14示出了一些术语候选项的截屏图,该截屏图具有项520所示用于显示这些术语候选项的译文的第二窗口。当在用户设置中选择了要显示译文的选项时产生该显示模式。用户能够编辑任何译得术语并提供其自己的译文(如项540所示)或者对任何术语候选项添加注释(如项524所示)。
通过利用编辑菜单或在术语候选项上右击鼠标,用户可以对术语候选项进行确认以显示已对其进行了检查。对于图14的截屏图中的第一个术语候选项,提供了译文,并且该术语候选项已被确认,这是通过改变行号周围的颜色(如项542所示)来表示的。
通过右击或利用编辑菜单可以从术语候选项列表中去除不良术语候选项或噪声。图15示出了如项550和552所示的去除不良术语候选项“ROSE WEDNESDAY”的这种示例。
一旦用户认为已充分形成术语候选项列表和/或对应的译文,则用户可以选择导出成多个文件格式。存在以下的选项仅导出术语候选项、仅导出源语言元素、或导出源语言元素和术语候选项两者;以及仅导出已确认术语、仅导出术语候选项、或导出已确认术语和术语候选项两者。还存在以下的选项返回指定数量的最高等级匹配、返回指定数量的最高频率匹配、或者不限于最佳匹配。
以上实施例应被理解为本发明的说明性示例。不应将在短语解析阶段章节中列出的六个解析规则当作仅有的可能的解析规则。本发明被设计为可扩展的从而可以通过利用例如由计算语言学家或翻译者所创建的不同的语言结构的附加解析规则来补充这些解析规则,并且不需要重新编译软件。
以上描述覆盖了以英语作为源语言的本发明,从而解析规则及相关语法讨论都是针对英语进行的。明显的是,本发明也适用于其他自然语言,但是这里无法覆盖各种其他语言的细节。对于这些其他自然语言,存在没有在此讨论的不同的对应解析规则集合以及语法法则。在其他语言中还存在找到词语根形式的不同方法(例如,在西班牙语中存在时态,诸如与英语没有真正等价物的虚拟语气),但是其也被用于英语以外的语言的本发明所覆盖。本发明还覆盖将德语复合词语拆分为个体词语,但是这在前面的讨论中没有讨论。对于本发明所覆盖的许多其他语言存在其他的这种修改。
在前面的描述中提及的词性是主要的英语词性,诸如名词、动词等。这些词性可以被进一步细分为诸如动名词、助动词、情态动词、冠词等的部分。除了针对英语包括这些之外,本发明的范围还包括来自英语之外的自然语言的这些部分以及任何数量的等价和额外部分。
可以设想本发明的其他实施例。仅关于单一语言术语候选项提取描述了本发明。另一实施例涉及将本发明应用于双语对照文本,由此针对各个自然语言的文本执行术语候选项提取处理。这可以用于自动产生词汇表或字典,然后可以在对其他文本的翻译中使用该词汇表或字典。
当对双语对照文本进行处理时,在术语候选项解析阶段和导出阶段之间使用所提取术语候选项的译文还有同义词以及这些同义词的译文,因为这可以帮助处理所涉及的两个或更多个自然语言之间的不同的词语排序或者其他结构和/或语法差异。这还有助于从一种自然语言的文本中提取的词语和术语候选项与从另一自然语言的文本中提取的词语和术语候选项的匹配。这里,本发明利用句子以及所提取的术语候选项自身的对照。
本发明的以上描述通过利用在单个工作站计算机上运行的软件应用而示出了其一些功能。应该将其仅当作可在其上实现本发明的平台的示例,并且其也可在其他合适的平台上对于用户远程或本地地运行。
应该理解,关于任何一个实施例所描述的任何特征可以单独使用或者与所描述的其他特征组合使用,并且还可与任何其他实施例或任何其他实施例的任何组合中的一个或更多个特征组合使用。此外,在不脱离在所附权利要求书中限定的本发明的范围的情况下,还可采用上面没有描述的等同物和修改。
权利要求
1.一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤a)选择第一自然语言的源材料的至少一部分;b)从所述部分中选择第一源语言元素;c)从所述部分中选择不同的第二源语言元素;d)将至少第一条语言学信息附于所述第一源语言元素;e)将至少第二条语言学信息附于所述第二源语言元素;f)将所述第一条语言学信息和第二条语言学信息与至少第一解析规则进行匹配;g)响应于所述匹配,形成所述第一源语言元素和第二源语言元素之间的关联,以创建第一术语候选项;以及h)在将所述第一自然语言的所述源材料完全翻译成至少第二自然语言之前,以适于人类检查者进行检查的形式输出所述第一术语候选项。
2.根据权利要求1所述的方法,其中,所述第一条语言学信息是词性信息。
3.根据权利要求1或2所述的方法,其中,所述第二条语言学信息是词性信息。
4.根据权利要求2或3所述的方法,其中,所述第一条语言学信息和/或所述第二条语言学信息指示对应的源语言元素是以下中的一个或更多个动词、名词、形容词、副词、连词、限定词、感叹词、代词、介词或量词。
5.根据权利要求4所述的方法,其中,所述第一条语言学信息指示动词词性,所述第二条语言学信息指示介词词性,并且所述第一解析规则要求在所述部分中所述第一源语言元素之后要跟着所述第二源语言元素。
6.根据权利要求4所述的方法,其中,所述第一条语言学信息指示基形式的形容词词性,所述第二条语言学信息指示单数名词词性,并且所述第一解析规则要求在所述部分中所述第一源语言元素之后要跟着所述第二源语言元素。
7.根据权利要求4所述的方法,该方法还包括在软件进程中执行以下步骤i)从所述部分中选择一个或更多个另外的源语言元素;以及j)将一条或更多条另外的语言学信息附于所述另外的源语言元素,其中,所述第一条语言学信息以及一条或更多条另外的语言学信息指示单数名词词性,所述第二条语言学信息指示名词词性,并且所述第一解析规则要求在所述部分中,所述第一源语言元素之后要跟着所述一个或更多个另外的源语言元素,其后继而要跟着所述第二源语言元素。
8.根据权利要求4所述的方法,该方法还包括在软件进程中执行以下步骤i)从所述部分中选择不同的第三和第四源语言元素;以及j)将至少第三和第四条语言学信息分别附于所述第三和第四源语言元素,其中,所述第一、第三和第四条语言学信息指示名词词性,所述第二条语言学信息指示介词词性,并且所述第一解析规则要求在所述部分中所述第一、第二、第三和第四源语言元素顺序跟随。
9.根据权利要求8所述的方法,该方法还包括在软件进程中执行以下步骤k)从所述部分中选择一个或更多个另外的源语言元素;以及l)将一条或更多条另外的语言学信息附于所述一个或更多个另外的源语言元素,其中,所述一条或更多条另外的语言学信息指示形容词词性,并且所述第一解析规则要求在所述部分中所述第一源语言元素、第二源语言元素、一个或更多个另外的源语言元素、第三源语言元素和第四源语言元素顺序跟随。
10.根据任一前述权利要求所述的方法,其中,一个或更多个所述源语言元素是单个的词语。
11.根据任一前述权利要求所述的方法,其中,一个或更多个所述源语言元素是至少两个词语的链。
12.根据任一前述权利要求所述的方法,该方法还包括在软件进程中执行以下步骤对各个源语言元素的出现频率进行计数。
13.根据任一前述权利要求所述的方法,该方法还包括在软件进程中执行以下步骤对各个术语候选项的出现频率进行计数。
14.根据任一前述权利要求所述的方法,该方法还包括在软件进程中执行以下步骤对所述源语言元素进行过滤以去除在先前确定的阻挡列表中包含的至少一个源语言元素或术语候选项。
15.根据任一前述权利要求所述的方法,其中,将根据至少所述第一解析规则输出的所述第一术语候选项用作至少第二解析规则的第一或第二源语言元素的输入。
16.根据任一前述权利要求所述的方法,该方法还包括在软件进程中执行以下步骤通过将所述第一术语候选项转换为不同的第二自然语言的对应的第一译得术语,创建至少一个术语候选项/译得术语的对。
17.根据任一前述权利要求所述的方法,其中,所述转换涉及由用户进行确认。
18.一种计算机软件,其被设计为执行根据任一前述权利要求的步骤。
19.一种计算机辅助的自然语言翻译装置,该装置包括信息存储系统,其适于存储数字内容,所述内容包括第一自然语言的源材料、多条语言学信息及其与源语言元素的关联、多个解析规则、多个术语候选项、已确认术语的集合、以及译得术语的集合;信息处理系统,其适于提供用于确定源语言元素的实例、执行解析规则和将多条语言学信息附于源语言元素的处理的装置;数据输入系统,其适于提供用于输入与所述内容相关的选择数据的装置,其中所述选择数据包括指示术语候选项的确认的数据;和可视显示系统,其适于呈现来自所述信息存储系统的信息,所述呈现信息包括所述源材料形式的数据、所述源语言元素、所述多个术语候选项、所述已确认术语的集合、以及所述译得术语的集合。
20.一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤a)选择第一自然语言的源材料的至少一部分;b)从所述部分中选择第一源语言元素;c)从所述部分中选择不同的第二源语言元素;d)将所述第一源语言元素和第二源语言元素与至少第一解析规则进行匹配,所述第一解析规则要求所述第一和/或第二源语言元素具有预定特征;e)响应于所述匹配,形成所述第一源语言元素和第二源语言元素之间的关联,以创建第一术语候选项;以及f)在将所述第一自然语言的所述源材料完全翻译成至少第二自然语言之前,以适于人类检查者进行检查的形式输出所述第一术语候选项。
21.根据权利要求20所述的方法,该方法还包括在软件进程中执行以下步骤f)从所述部分中选择不同的第三源语言元素;g)将所述第三源语言元素与至少所述第一解析规则进行匹配,所述第一解析规则要求所述第一和/或第二和/或第三源语言元素具有预定特征;h)响应于所述匹配,形成所述第一、第二和第三源语言元素之间的关联,以创建第二术语候选项;以及i)在将所述第一自然语言的所述源材料完全翻译成至少第二自然语言之前,以适于人类检查者进行检查的形式输出所述第二术语候选项。
22.根据权利要求20或21所述的方法,其中,所述预定特征是大写。
23.根据权利要求20至22中任一项所述的方法,其中所述预定特征是连字符。
24.一种用于自然语言翻译的计算机辅助方法,所述方法包括在软件进程中执行以下步骤a)在第一自然语言的源材料的至少一部分中识别术语候选项的集合;b)通过用户界面将所述术语候选项的集合呈现给用户;以及c)从所述用户接收选择数据,所述选择数据用来创建所述术语候选项的子集,以产生已确认术语的集合。
25.根据权利要求24所述的方法,其中,所述识别包括以下步骤存储要被阻挡而不进行所述呈现的术语候选项的列表;针对所述被阻挡的术语候选项的列表,检查所述识别出的术语候选项;以及阻挡至少一个识别出的术语候选项使其不被进行所述呈现。
26.根据权利要求25所述的方法,该方法还包括从所述用户接收另外的选择数据的步骤,所述另外的选择数据用来将至少一个术语候选项添加到所述阻挡列表。
27.根据权利要求24至26中任一项所述的方法,该方法还包括在软件进程中执行以下步骤最初,根据对先前识别的术语候选项的历史分析,确定一个或更多个术语候选项的等级。
28.根据权利要求24至27中任一项所述的方法,该方法还包括在软件进程中执行以下步骤随后,根据一个或更多个术语候选项在所述源文本中的出现频率来更新所述一个或更多个术语候选项的等级。
29.根据权利要求24至28中任一项所述的方法,该方法还包括在软件进程中执行以下步骤按照取决于两个或更多个术语候选项的等级的顺序呈现所述两个或更多个术语候选项。
30.根据权利要求24至29中任一项所述的方法,该方法还包括在软件进程中执行以下步骤将所述已确认术语导出到数据库中以供将来翻译时使用。
31.一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤a)载入第一自然语言的源材料的至少一部分;b)选择第一解析规则;c)使用所述第一解析规则来识别所述部分中的一个或更多个术语候选项;d)输出所述一个或更多个识别出的术语候选项;e)选择第二解析规则;f)使用所述第二解析规则来识别所述部分中的一个或更多个另外的术语候选项;以及g)输出所述一个或更多个另外的识别出的术语候选项。
32.根据权利要求31所述的方法,该方法还包括在软件进程中执行以下步骤载入一个或更多个另外的解析规则,并将以上的选择、使用和输出步骤连续重复一次或更多次,以产生一个或更多个其他的术语候选项。
33.根据权利要求31或32所述的方法,其中,将一个或更多个输出的术语候选项用作对一个或更多个解析规则的一个或更多个输入。
34.根据权利要求31至33中任一项所述的方法,其中,所述解析规则被存储为可扩展解析规则的集合。
35.一种用于自然语言翻译的计算机实现的方法,所述方法包括在软件进程中执行以下步骤a)选择第一自然语言的源材料的至少一部分;b)从所述部分中选择第一源语言元素;c)从所述部分中选择不同的第二源语言元素;d)将至少第一条语言学信息附于所述第一源语言元素;e)将至少第二条语言学信息附于所述第二源语言元素;f)对所述第一条和第二条语言学信息进行分析以确定所述第一和第二源语言元素是否可能成为术语项;以及g)如果可能,则形成所述第一和第二源语言元素之间的关联,以创建第一术语候选项。
全文摘要
本发明提供了用于翻译系统的计算机实现的方法。一种用于自然语言翻译的计算机实现的方法。该方法包括将多条语言学信息附于第一自然语言的源材料中的两个或更多个源语言元素。该多条语言学信息与一个或更多个预定解析规则匹配。然后形成该两个或更多个源语言元素之间的关联,以形成术语候选项,然后将其呈现给人类检查者。随后由用户对术语候选项进行确认,从而使其成为已确认术语,然后将其翻译成不同的第二自然语言,从而使其变成译得术语。然后可将译得术语载入机器翻译字典,可以在随后的机器辅助翻译期间使用该字典。
文档编号G06F17/28GK101019113SQ200580027102
公开日2007年8月15日 申请日期2005年8月11日 优先权日2004年8月11日
发明者马克·兰开斯特, 詹姆斯·马尔恰诺, 基思·米尔斯 申请人:Sdl有限公司