专利名称:用于分析汉语的装置和方法
技术领域:
本发明涉及用于在执行一个对汉语语句的词(词语)拆分处理后分析每个词的依赖结构的系统和方法。
背景技术:
在将汉语译成其他语言(例如,日语)的机器翻译处理中,通过语形学(morphological,或称形态学)分析将一个输入的汉语句子拆分成语素(形态素),并且分析每个语素的依赖目的和依赖者。
多数汉语词由两个字符组成。在这些两个字符的词中,有一些词在语素间仅仅有微弱的联系。可以在两个字符的词的语素间插入另外的成分(插入成分)。这样的可以连接语素或在语素间具有一个插入成分的词称为离合词。
在
图1所示的表中,例如,词C1是一个表示“散步”的汉语动词。为了形成表示“散一会步”的词组,一个修饰语插入在词C3和词C4之间,如词组C2所示。在这种情况下,词C3和C4每个都是一个独立的词。然而,词C3和C4每个本身都并不具有“散步”的意思。因此,在词组C2中,词C1应当被视为一个词。
这些离合词的存在使得在执行汉语机器翻译中的汉语分析处理很困难。为了解决这个问题,可插入在每个离合词的头元素和尾元素之间的插入词必须预先列出。然后在为一个输入的汉语句子执行的语素分析中查阅字典,并确定每个语素是否形成了一个离合词。在语素形成一个离合词的情况中,顺序地执行诸如依赖结构分析和含义分析的处理,其中每个词单元是包含两个或更多字符的词(参见“汉语-日语日机器翻译中离合词的处理”,IPSJ杂志,Vol.35,No.9)。
然而,在汉语句子中一个离合词的头元素和尾元素之间可插入各种类型的插入词。因此,要预先列出所有的插入词是非常困难的。
即便能列出所有的插入词,但它们巨大的数量使在语素分析处理时在该插入词列表中搜索所需的插入词变得很复杂。
发明内容
本发明的一个目的是至少解决在传统技术中的上述问题。
根据本发明的一个方面的用于分析汉语的装置包括一个依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者(从属方)的子词来分析词之间的依赖关系。这些词是通过将一个汉语句子拆分成语素而得到的。该装置还包括一个查阅离合词信息的离合词处理器,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词,和与该第一词形成该离合词的第二词。该离合词处理器检测来自所分析的词的该第一词和第二词,然后将依赖于该第一词与第二词的词的依赖目的改变到由该第一词和第二词组合所形成的离合词。
根据本发明的另一个方面的分析汉语的方法包括通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析各词之间的依赖关系。这些词是通过将一个汉语句子拆分成语素而得到的。该方法还包括查阅离合词信息,所述信息包括作为汉语语素并能成为离合词的一部分的第一词,和与该第一词形成该离合词的第二词;检测来自所分析的词的该第一词和第二词;将依赖于该第一词与第二词的词的依赖目的改变到由该第一词和第二词组合所形成的离合词。
本发明的其他的目的、特性和益处将通过结合本发明附图而阅读的以下详细描述中阐明或变得明显。
附图简要说明图1是包括一个离合词的汉语词的列表;图2是根据本发明的汉语分析装置的结构的方块图;图3是根据本发明的汉语-日语机器翻译的整个操作的流程图;图4是图2所示的汉语字典文件的一个结构实例;图5是汉语字典文件的另一个结构实例;图6是包含一个离合词的汉语句子;图7是图2所示的汉语分析表的一个结构实例;图8是紧接在图3的步骤S204的依赖结构分析处理之后的汉语分析表的状态;图9是表示根据图7的汉语分析表的依赖结构的树结构;图10是离合词处理操作的流程图;图11是紧接在直到图10的步骤S707的处理完成之后的汉语分析表的状态;图12是表示根据图11的汉语分析表的依赖结构的树结构;图13是紧接在直到图10的步骤S711的处理完成之后的汉语分析表的状态;图14是表示根据图13的汉语分析表的依赖结构的树结构;图15是紧接在直到图10的步骤S712的处理完成之后的汉语分析表的状态;以及图16是表示根据图15的汉语分析表的依赖结构的树结构。
具体实施例方式
有关本发明的汉语分析装置和汉语分析方法、以及使用该方法的计算机程序产品的典型实施例将在以下参考附图详细说明。
根据本发明的汉语分析装置、根据本发明的汉语分析方法、和使用该方法的计算机程序产品可被应用到用于将汉语翻译成其他语言的翻译装置、将汉语翻译成其他语言的方法、以及将汉语翻译成其他语言的程序中。以下,将描述作为本发明的实施例的一种用于将汉语翻译成日语的汉语-日语机器翻译装置、一种汉语-日语机器翻译方法、和一种汉语-日语机器翻译程序。除了机器翻译装置、机器翻译方法、和机器翻译程序,本发明还能应用到任何系统、方法、和程序中,只要在对汉语句子执行语素分析之后执行语法分析。
在该实施例的汉语-日语机器翻译装置、汉语-日语机器翻译方法、和汉语-日语机器翻译程序中,首先输入一个汉语句子,接着对该输入的汉语句子执行机器翻译来创建一个日语句子,并输出该创建的日语句子。
图2显示的是根据本发明的实施例的汉语分析装置的结构的方块图。如图2所示,该实施例的汉语-日语机器翻译装置100包括一个输入处理器101、一个语素分析器102、一个语法分析器103、一个含义分析器106、一个翻译器107、一个日语创建器108、和一个输出处理器109。
输入处理器101接收从例如键盘等输入设备输入的汉语句子。语素分析器102对该输入的汉语句子执行一个公知的语素分析处理,来将该句子拆分成语素。语素是具有含义的最小的语言单位,并可以包括一个或多个音素。虽然在该实施例中输入的汉语句子通过语形学分析被拆分成词(语素),但其还可以通过其他的分析处理来拆分。
语法分析器103根据语法规则(约束)和各种优选规则分析每个输入的汉语句子的依赖结构。在该实施例中,改变关于离合词的依赖关系。语法分析器103包括一个依赖结构分析器104和一个离合词处理器105。
依赖结构分析器104分析在拆分的词之间的依赖关系,来确定这些拆分的词如何彼此依赖。更具体地,该依赖结构分析器104确定哪个词依赖于哪个词而哪个词被哪个词依赖,并在一个汉语分析表121中记录每个被分析的词。
离合词处理器105确定每个拆分的词是否是形成一个离合词的头元素词或尾元素词。如果该拆分的词被确定为是一个离合词的一部分,那么离合词处理器105就将该头元素词和尾元素词组合以形成该离合词。然后离合词处理器105在汉语字典文件111中搜索该组合的词,并且以该离合词替换依赖于该头元素词和尾元素词的(以该头元素词和尾元素词为依赖目标的)每个词的依赖目标。
含义分析器106分析已经分析过依赖结构的每个汉语句子的含义和内容。翻译器107查阅一个汉语-日语翻译字典文件112,并接着将该汉语句子的依赖结构翻译(转换)成等价的日语句子的依赖结构。日语创建器108从由翻译器107翻译的等价的日语句子的依赖结构创建一个日语句子。输出处理器109将由日语创建器108创建的日语句子输出到一个例如显示装置或打印机的输出装置。
汉语字典文件111和汉语-日语翻译字典文件112被保存在硬盘驱动器(HDD)110中。由语素分析器102创建的汉语分析表121,和由翻译器107创建的日语分析表122被保存在随机存取存储器(RAM)120中。虽然汉语分析表121和日语分析表122在RAM 120中创建,但表121和122也都可以在HDD 110中创建。
该实施例的汉语-日语机器翻译装置包括一个例如CPU的控制装置,例如ROM(只读存储器)和RAM120的存储器装置,HDD 110,例如一个CD驱动器的外部存储器装置,一个显示装置,和一个例如键盘和鼠标的输入装置。该汉语-日语机器翻译装置是使用一个通常的计算机的硬件结构。
将由该实施例的汉语-日语机器翻译装置执行的一个汉语-日语机器翻译程序以安装格式或可执行格式的文件记录在例如CD-ROM、软驱(FD)、CD-R、或数字多用盘(DVD)等的计算机可读记录介质中。
可选地,将由该实施例的汉语-日语机器翻译装置执行的汉语-日语机器翻译程序可以存储在一台连接到例如因特网的网络上的计算机上,并可通过网络下载。该实施例的汉语-日语机器翻译装置执行的汉语-日语机器翻译程序也可以通过例如因特网的网络提供或分发。
将由该实施例的汉语-日语机器翻译装置执行的汉语-日语机器翻译程序是由体现上述组成部分(输入处理器101,语素分析器102,语法分析器103,含义分析器106,翻译器107,日语创建器108和输出处理器109)的功能的模块构成的。更具体地,以上每个组成部分都通过由CPU(处理器)从上述记录介质读取和执行汉语-日语机器翻译程序,而在主存储装置中构建。
下面详细描述本实施例的由具有上述结构的将由汉语-日语机器翻译装置执行的汉语-日语机器翻译。图3是该汉语-日语机器翻译的流程图。
当通过一个输入设备输入一个汉语句子时,首先处理器101接收该汉语句子(步骤S201)。通过查阅汉语字典文件111,语素分析器102将该输入的汉语句子拆分成词单元(语素)(步骤S202)。这里,该输入的汉语句子也可以被分成其他的词单元,而不是语素。
图4是该汉语字典文件111的内容的实例。如图4所示,可由语素所形成的词的“词”、“词类”、和“离合词列表”记录在汉语字典文件111中。离合词列表是可与“词”形成离合词的词以及这些词的词类。例如,图4所示的作为动词的词C11当分别与词C12、C13、和C14组合时能形成如图5所示的离合词C16、C17、和C18。没有在“离合词列表”列中记录任何词的词不能与其他的词形成离合词。在图4中,图5所示的离合词词C16作为一个词C15记录在汉语字典文件111中。
作为一个汉语句子的实例,描述图6所示的汉语句子C20。该汉语句子C20的意思是“今天你走(散步)了多长时间?”。该汉语句子C20能被拆分成词C21(时间词),词C22(代词),词C23(动词),词C24(虚词),词C25(副词),词C26(形容词),词C27(名词),词C28(名词),和符号C29“?”(标点符号)。
在步骤S202拆分该输入的汉语句子后,语素分析器102在RAM 120中创建汉语分析表121,并将由在步骤S202中拆分该汉语句子所得的词记录在汉语分析表121中(步骤S203)。
图7是该汉语分析表的一个实例。如图7所示,该汉语分析表121包括表示每个词的节点的标识号的“节点ID”,每个词的“字符”,每个词的“词类”,每个词在句子中的位置的“起始点”,每个词的“长度”,表示每个词的依赖目的的节点ID和依赖标记的“父节点”,表示每个词的依赖者的节点ID的“子节点”,和当该词能与其他词形成离合词时表示可与该词形成离合词的词以及它们的词类的“离合词列表”。图7是紧接在处理步骤S203被完成后存储器的状态。在此时,记录了节点ID、字符、词类、起始点、长度、和离合词列表。这里,已经记录在汉语字典文件111中的离合词列表被简单地复制。
依赖结构分析器104对该输入的汉语句子执行依赖结构分析,并作为分析结果在汉语分析表121中记录每个词的依赖关系(步骤S204)。更具体地,每个词的依赖目的的节点ID被记录在“父节点”列,而每个词的所有依赖者的节点ID被记录在“子节点”列。在该实施例中一个汉语句子的依赖结构通过依赖结构分析而确定,但也可以使用其他的技术来确定依赖关系。例如,在英语等的机器翻译中经常使用的短语结构分析技术也可以应用到汉语句子中,来对每个汉语句子执行一个短语结构分析并将分析结果转换成一个依赖结构。
图8是紧接在步骤S204的依赖结构分析执行后汉语分析表121的状态。如图8所示,该汉语分析表121具有用冒号“”彼此相连的依赖目的节点ID和每个词的依赖标记。同时,图8所示的汉语分析表121具有记录在“子节点”列中的每个词的依赖者的节点ID。
例如,具有节点ID“0”的词C31的依赖目的是具有节点ID“2”的词C32,并且词C31的依赖标记是“tmp”。“父节点”列的节点ID“-1”表示相应的词是该输入汉语句子中的最高级节点。在该句子实例中,具有节点ID“2”的词C32是最高级节点。在“子节点”列中,显示了依赖者的节点ID。如果有两个或更多的节点ID记录在“子节点”列中,并在每两个节点之间用逗号“,”隔开,那么该节点就有两个或更多的依赖者。如果没有一个节点ID记录在“子节点”列中,那么该词就没有依赖者。
图9是表示根据图8的汉语分析表121的依赖结构的树结构。在图9中,词C32在所输入的汉语句子中是最高级节点。
在步骤S204的对汉语句子的依赖结构分析完成后,当检测到一个离合词时,离合词处理器105改变词之间的依赖关系,并将该改变的依赖关系记录在汉语分析表121中(步骤S205)。该离合词处理将在后面详细描述。
含义分析器106接着分析其依赖结构已经被确定的该汉语句子的含义和内容(步骤S206)。通过查阅在HDD 110中的汉语-日语翻译字典文件112,翻译器107将汉语句子的依赖结构翻译成等价的日语句子的依赖结构,并将该翻译结果记录在于RAM 120中创建的日语分析表122中(步骤S207)。接着,日语创建器108从由翻译器107所翻译的等价的日语句子的依赖结构创建一个日语句子(步骤S208)。输出处理器109接着输出由创建器108创建的日语句子到一个例如显示设备或打印机的输出设备(步骤S209)。从汉语句子到日语句子的机器翻译就以如上描述的方式执行。
现详细描述步骤S205的离合词处理。图10是将由离合词处理器105执行的离合词处理的流程图。
离合词处理器105首先从RAM 120读取汉语分析表121(步骤S701)。接着对记录在该汉语分析表121中的词执行以下处理。
在将被处理的词是父节点的情况下,离合词处理器105确定其离合词列表是否包含一个相应于该父节点词的子节点的词(步骤S702)。如果该离合词列表包含相应于该子节点的词,则离合词处理器105确定在该输入的汉语句子中存在一个离合词。在这种情况下,父节点的词(当前被处理的词)和相应于该子节点的词分别是头元素和尾元素。因此,离合词处理器105组合这两个词(步骤S703)。在该组合词是一个离合词的情况下,离合词处理器105在汉语字典文件111中搜寻该离合词(步骤S704)。离合词处理器105接着将该离合词记录在汉语分析表121中(步骤S705)。
虽然该离合词被添加到汉语分析表121中,但在汉语句子中的依赖关系依然与记录离合词之前一样。因此,必须根据添加的离合词改变该依赖关系,或用新节点(离合词)的词替换父节点(头元素)和子节点(尾元素)。
更具体地,在组合前表示头元素词的依赖目的的“父节点”的值被复制在新添加的离合词的“父节点”中(步骤S706)。接着清除在组合前作为头元素的词的“父节点”(步骤S707)。
图11是在直到步骤S707的对图6所示的汉语句子C20的处理完成后汉语分析表121的状态。图12是表示根据紧接在步骤S707的处理完成后汉语分析表121的依赖结构的树结构。如图11和12所示,具有节点ID“2”的词C32的离合词列表包含一个作为子节点的相应于具有节点ID“7”的词C33的词。因此,词C32被确定形成一个离合词,并且作为头元素的词C32和作为尾元素的词C33彼此组合。接着在汉语字典文件111中搜寻图5所示的词C16,并且将词C16作为一个新节点添加到汉语分析表121中作为具有节点ID“9”的词C34。词C32的“父节点”接着被清除(变为“-”),并且作为新节点的词C34的父节点变为“-1”,这是在改变前词C32的父节点。
接着,离合词处理器105通过检测新添加的离合词的“父节点”是否为“-1”(或是否有一个依赖目的节点)来确定作为父节点的头元素词是否为最高级节点(步骤S708)。如果新添加的离合词的“父节点”不为“-1”,具有一个依赖目的节点,并且不是最高级节点(步骤S708中的“否”),则在表示父节点词的依赖者的“子节点”中用新添加的离合词的节点ID来代替父节点词的节点ID(步骤S709)。同时,如果“父节点”为“-1”,不具有一个依赖目的节点,并且为最高级节点,那么不执行以上的代替处理。在汉语句子C20中,父节点词C32属于最高级节点,因此,不执行代替处理。
在每个具有指示该父节点词是依赖目的的节点的词中,除相应于尾元素的词之外的每个词的“父节点”的值变为新添加的离合词的节点的值(步骤S710)。通过如此的处理,在添加离合词之前每个依赖于头元素的词的依赖目的变为该离合词。
在头元素词的“子节点”列中的节点中,除了与头元素词形成该离合词的尾元素词的节点之外的的子节点被复制到该新添加的离合词的“子节点”列中(步骤S711)。
图13是紧接在直到步骤S711对图6所示的汉语句子C20的处理完成后汉语分析表121的状态。图14显示了根据紧接在直到步骤S711的处理完成后的汉语分析表121的依赖结构。如图13和14,具有节点“0”的词C35、具有节点“1”的词C36、具有节点“3”的词C37、和具有节点“8”的符号C38中每个的“父节点”从“2”变为“9”,这是表示作为新节点的离合词的词C34的节点ID(步骤S710的变化处理)。
而且,在词C32的节点“0,1,3,7,8”中,不包括与词C32形成离合词的词C39(节点ID“7”)的子节点“0,1,3,8”被复制到作为新节点的词C34的“子节点”列(步骤S711的变化处理)。
通过以上的改变,具有节点ID“0”的词C35、具有节点ID“1”的词C36、具有节点ID“3”的词C37、和具有节点ID“8”的符号C38中的每个的依赖目的变为作为新节点的表示离合词的词C34,如图14所示。
依赖于作为新节点的离合词的每个词的依赖标记从“代词修饰(adjn)”变为“谓语修饰(adjv)”(步骤S712)。修饰作为名词的尾元素词的每个词的依赖标记应当是“代词修饰”,但修饰作为动词的离合词的每个词的依赖标记应当是“谓语修饰”。通过执行直到步骤S711的处理,依赖关系改变了,以便修饰作为名词的头元素词的词,修饰作为新节点的作为动词的离合词。因此,在步骤S712中依赖标记改变了,以便使依赖标记表示正确的依赖关系。
图15是紧接在对图6所示的汉语句子C20进行直到步骤S712的处理完成后汉语分析表121的状态。图16是显示了根据紧接在直到步骤S712的处理完成后的汉语分析表121的依赖结构。如图15和16所示,词C40的“父节点”的依赖标记从“adjn”变为“advn”,这是由于通过步骤S720到步骤S711的处理,本来用来修饰作为尾元素和名词的词C39的词C40的依赖目的,变为作为一个离合词和动词的词C34。
步骤S702到S712的处理为所有的节点ID重复进行(步骤S713)。这样,就完成了由于离合词的增加所需的节点匹配处理,并且依赖关系也适当地改变了。
以这种方式,该实施例的汉语-日语机器翻译装置100分析由拆分一个输入的汉语句子成语素而得到的每个词,来确定每个词语的依赖目的和依赖者。接着检测形成一个离合词的头元素和尾元素。如果一个离合词的头元素和尾元素被检测到,那么就从汉语字典文件111中检索通过组合检测到的头元素和尾元素形成的离合词。依赖于头元素或尾元素的每个词的依赖目的变为该离合词。因此,无须在分析包含一个离合词的汉语句子的处理期间,列出能被插入在一个离合词的头元素和尾元素之间的插入词的模式。因此,可容易地使包含一个离合词的汉语句子的依赖结构变得清楚。这样,可容易地进行依赖结构分析和汉语-日语机器翻译,其中每个离合词被全面而准确地识别。
在该实施例的汉语-日语机器翻译装置中,依赖结构分析和离合词处理是使用汉语分析表121执行的。然而,每个处理可以无须这样的一个表而执行,例如,当依赖结构分析器104或离合词处理器105持有一个依赖结构模式时。
在该实施例的汉语-日语机器翻译装置中,依赖标记从“代词修饰”变为“谓语修饰”。然而,可以改变该依赖标记为其种其他修饰标志,这取决于被处理的离合词的类型。
在该实施例中,根据本发明的汉语分析装置、根据本发明的汉语分析方法、和使用该汉语分析方法的计算机程序产品被应用于汉语-日语机器翻译装置、汉语-日语机器翻译方法、和汉语-日语机器翻译程序中。但该实施例还可以应用到从汉语翻译成其他语言的机器翻译中。例如,根据本发明的汉语分析装置、根据本发明的汉语分析方法、和使用该汉语分析方法的计算机程序产品可以应用到将汉语翻译成英语的汉语-英语机器翻译装置、汉语-英语机器翻译方法、和汉语-英语机器翻译程序中。
本领域的人员可以容易地想到其他优点和修改。因此,本发明在其更广义的方面不限于这里所示出和描述的特定细节和代表性的实施例。因此,在不背离由所附的权利要求及其等同物所定义的总的发明构思的精神或范围内,可以有各种的修改。
权利要求
1.一种用于分析汉语的装置,包括依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系,这些词通过将一个汉语句子拆分成语素而得到;以及离合词处理器,所述离合词处理器查阅离合词信息,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词,该离合词处理器从这些被分析的词中检测该第一词和第二词,该离合词处理器将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词和该第二词所形成的该离合词。
2.根据权利要求1的装置,进一步包括存储单元,用来存储其中父词与子词被相关联的依赖分析信息,其中该依赖结构分析器在该依赖分析信息中记录所拆分的每个词的父词和子词,并且该离合词处理器基于该离合词信息,从这些被分析的词中检测该第一词和该第二词,并将依赖于该第一词和该第二词的词的依赖目的改变成依赖该分析信息中的该离合词。
3.根据权利要求2的装置,其中,该存储单元还进一步存储汉语字典信息,在该汉语字典信息中作为汉语句子的语素的词、该词的词类和离合词信息彼此相关联;该依赖分析信息包括词和与词相关联的词类;并且该离合词处理器基于该离合词信息,从这些被分析的词中检测该第一词和该第二词,检索该汉语字典信息中的通过组合该第一词和该第二词而形成的离合词,在该依赖分析信息中记录检索到的离合词及其词类,并且将依赖于该第一词和该第二词的词的依赖目的改变成该依赖分析信息中的该离合词。
4.根据权利要求3的装置,其中,该依赖分析信息包括与该词关联的修饰信息,该修改信息表示用于父词的修饰类型;并且该离合词处理器,当将依赖于该第一词和该第二词的词的依赖目的改变成该离合词时,基于该离合词的词类改变该词的修饰信息。
5.根据权利要求4的装置,其中该离合词处理器,当将具有作为修饰信息的代词修饰语的词的依赖目的改变为该离合词时,将该修饰信息改变为谓语修饰语。
6.根据权利要求3的装置,进一步包括含义分析器,用来使用该汉语字典信息和该依赖分析信息分析该汉语句子的含义和内容。
7.根据权利要求6的装置,进一步包括翻译器,用来将汉语句子的依赖结构翻译成汉语之外的另一语言的等价句子的依赖结构。
8.根据权利要求7的装置,其中该汉语之外的另一语言是英语。
9.根据权利要求7的装置,进一步包括翻译句子创建器,用来基于由该翻译器翻译的等价句子的依赖结构,创建该汉语之外的另一语言的等价句子。
10.根据权利要求9的装置,其中该汉语之外的另一语言是英语。
11.根据权利要求9的装置,进一步包括显示单元,用来显示由该翻译句子创建器创建的等价的句子。
12.根据权利要求9的装置,进一步包括打印机,用来打印由该翻译句子创建器创建的等价的句子。
13.一种分析汉语的方法,包括通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系,这些词是通过将一个汉语句子拆分成语素而得到的;查阅离合词信息,该离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词;从这些被分析的词中检测该第一词和第二词;以及将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词与该第二词而形成的该离合词。
全文摘要
根据本发明的一个方面的用于分析汉语的装置,包括一个依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系。这些词通过将一个汉语句子拆分成语素而得到。该装置还包括一个查阅离合词信息的离合词处理器,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词。该离合词处理器从这些分析的词中检测该第一词和该第二词,并随后将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词与该第二词而形成的该离合词。
文档编号G06F17/27GK1627289SQ200410082058
公开日2005年6月15日 申请日期2004年12月9日 优先权日2003年12月10日
发明者出羽达也 申请人:株式会社东芝