一种可插拔组件的制作方法

文档序号:16390442发布日期:2018-12-22 11:24阅读:205来源:国知局
一种可插拔组件的制作方法

本发明属于信息技术领域,尤其涉及一种可插拔组件。



背景技术:

在多语种语言交换以及处理识别中,通常要识别其中的特殊术语以及某些在特定语境下不具备常规含义的普通术语,以便在语言处理中进行甄别以得出正确的识别和处理结果。

现有技术中,通常采用建立一个术语库的方法,通过判断处理后的语料中是否存在包含在术语库的术语,来进行查找并替换识别。然而,由于特殊术语的含义多种多样,而普通术语在特定不同语境下的表现结果也通常出现变化,这种查找识别过程无法采用计算机自动实现,因为机器不能预期这些术语处理后的结果是什么,导致上述查找、识别过程只能人工进行,从而导致效率低下,这样预先配置的特殊术语库并没有发生实际作用。



技术实现要素:

为解决上述问题,本发明设计了一种可插拔组件,可以与不同的术语库以及语言处理模块配合使用,但是该组件与术语库以及语言处理模块之间是相互独立的组件。通过解耦式设计,该组件本身不随术语库以及语言处理模块的功能改变而变化,相反,可以直接与不同的术语库以及语言处理模块相互配合使用。

本发明的技术方案如下:

一种可插拔组件,包括输入端口、输出端口、术语库加载端口以及语言处理组件连接端口,该可插拔组件主体包括一个ac自动机模块。

所述输入端口,用于将待处理的多语种语料输入至所述可插拔组件;

所述可插拔组件通过所述ac自动机,经所述术语库加载端口加载与所述多语种语料对应的术语库;并对所述多语种语料进行第一术语处理;

所述语言处理组件接收所述第一术语处理结果,并对其进行语种识别与转换;

所述ac自动机接收所述语言处理组件执行的语种识别与转换的结果,并对其进行第二术语处理;

所述输出端口输出所述第二术语处理结果。

可选的,所述待处理的多语种语料为待翻译的语料,所述语言处理组件包括多个翻译组件,所述语种识别与转换包括对待翻译的语料进行翻译处理;

可选的,所述第一术语处理包括:所述ac自动机根据所述加载的与所述多语种语料对应的术语库,查找输入的待翻译的语料中满足限定条件的特殊术语,将待翻译的语料中所述满足限定条件的特殊术语替换成不能被所述语言处理组件识别的特殊标记;

可选的,所述第二处理包括:根据所述语种识别与转换的结果,ac自动机基于所述加载的与所述多语种语料对应的术语库,将所述语种识别与转换的结果中的所述特殊标记替换为目标术语,从而输出处理后的翻译结果。

本发明摒弃了以前的术语链指关系确认的方法中,需要从翻译组件中使用模型进行翻译时是将平行语料中术语的链指关系通过模型参数指示出来和翻译组件强捆绑的做法,本发明所述的组件和翻译组件是解耦的,互相独立,是一个可拔插组件,可以和任意翻译引擎对接,完成平行语料中术语链指关系的识别。

附图说明

图1是现有技术的术语库识别方法

图2是本发明的可插拔组件框架图

图3是本发明的可插拔组件用于翻译过程的具体系统图

具体实施例

参见图1,假设需要对某个语料“givemeamagazine”进行语言处理,例如,翻译。该语料为一个描述枪战的文章,正确的翻译结果应当是“给我一个弹匣”。

如果不建立术语库,通常的语言处理输出结果中,有的是“给我一本杂志”,有的是“给我一份期刊”,有的是“给我一份文本”……,结果都不准确,译员接下来只能手动查找,而不能自动查找(因为计算机无法确定该查找哪个词),译员一一手动查找出翻译结果中的“杂志、期刊、文本、军械”等,再将其手动替换为“弹匣”。该过程效率及其低下。可见,即使预先配置了特殊术语库,该过程也无法自动实现,如图1所示。

参照图2,是本发明的可插拔组件框架图,包括输入端口(1)、输出端口(2)、术语库加载端口(3)以及语言处理组件连接端口(4),该可插拔组件主体包括一个ac自动机模块。

所述输入端口(1),用于将待处理的多语种语料输入至所述可插拔组件;

所述可插拔组件通过所述ac自动机,经所述术语库加载端口加载与所述多语种语料对应的术语库;并对所述多语种语料进行第一术语处理;

所述语言处理组件接收所述第一术语处理结果,并对其进行语种识别与转换;

所述ac自动机接收所述语言处理组件执行的语种识别与转换的结果,并对其进行第二术语处理;

所述输出端口输出所述第二术语处理结果。

参见图3,以图1所述的待译语料输入为例,其过程如下:

输入端口输入的待处理的多语种语料(待译语料:图中所示源语种输入)为“givemeamagazine”,预先建立的术语库包含“magazine—弹匣”,该术语库可以根据语义上下文予以限定;

将术语库的术语加载进ac自动机。

接下来,使用ac自动机对待译语料进行匹配,将匹配上的源术语替换成特殊标记。

具体而言,“magazine”属于ac自动机根据自动匹配上的源术语,匹配过程可以考虑语义上下文由ac自动机机制实现。

该源术语由于不能得到正确的翻译,本发明中将其替换为某种特殊标记,例如“%……%”,只要这种标记不能被翻译阵列识别即可;

此时,“givemea%……%”作为标记序列进入翻译阵列,返回的翻译过的语料为“给我一个%……%”;

(4)再次使用术语库,将特殊标记替换回需要替换的目标术语。

此时,“给我一个%……%”可以输出正确的翻译结果:给我一个弹匣(图中所示目标语种输出)。

根据上述步骤可以看出,由于将术语库与ac自动机结合,上述过程可以自动化实现并且保证结果准确,极大的提高了效率。

此外,本发明设计为可插拔的解耦形式,可以方便与多种术语库、多种语言处理组件,例如翻译引擎配合使用。

本发明的可插拔组件使用ac自动机进行多模式串字符匹配,保证了在源语句中匹配字典中术语,特别是在术语库特别大时,匹配此语句中出现了哪些术语,整个时间成本可以下降到原来的对数级别。



技术特征:

技术总结
本发明涉及一种可插拔组件,包括输入端口、输出端口、术语库加载端口以及语言处理组件连接端口,该可插拔组件主体包括一个AC自动机模块,可以与不同的术语库以及语言处理模块配合使用,但是该组件与术语库以及语言处理模块之间是相互独立的组件。通过解耦式设计,该组件本身不随术语库以及语言处理模块的功能改变而变化,相反,可以直接与不同的术语库以及语言处理模块相互配合使用。

技术研发人员:李靖
受保护的技术使用者:传神语联网网络科技股份有限公司
技术研发日:2018.07.23
技术公布日:2018.12.21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1