用于翻译集成服务优化方法、电子装置及储存介质与流程

文档序号:20067126发布日期:2020-03-06 08:36阅读:106来源:国知局
用于翻译集成服务优化方法、电子装置及储存介质与流程

本发明涉及翻译工具领域,特别涉及一种用于翻译集成服务优化方法、电子装置及储存介质。



背景技术:

目前计算机网络翻译致力于为广大互联网用户提供实时便捷的免费翻译服务,满足用户日常沟通等基本翻译需求。然而,伴随着中国社会的发展,国际间经济文化交流的不断深化,跨语言沟通变得越发紧密,用户对翻译的精准度提出了更高的要求。尤其是针对企业合作、学术交流、论文出版等对译文专业性要求极高的领域,简单的机器翻译结果已无法满足这类用户的精准翻译需求。

现有技术中,使用常用翻译引擎服务,会在应用客户端或者通过应用服务端直接请求翻译引擎提供商(例如百度、有道、谷歌等)提供的服务接口。这种模式通常会有下列不足之处:选用某一个翻译引擎,其所提供的语言列表有限;不同的引擎对于相同的翻译请求会返回不同的结果,且质量不一;对于用户不规范的输入,翻译引擎会返回不符合预期的结果;对于时下流行的热门生造词,或者常见的固定习语,部分情况下无法返回最优翻译;通常翻译服务,没有上下文语境的功能,这会导致翻译中有一词多义,并且在不同语境中不同含义的词句翻译不准确。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的主要目的在于提供一种用于翻译集成服务优化方法、电子装置及储存介质,旨在解决现有技术中对不同语境中的词句翻译不准确,和不同翻译引擎翻译结果不同,以及无法正确处理用户不规范输入导致的翻译偏差、热门生造词、上下文语境处理不精确的问题。

为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的用于翻译集成服务优化的系统,所述用于翻译集成服务优化的系统被所述处理器执行时实现如下步骤:

规范处理步骤:

规范化模块获取用户输入数据,并根据数据库匹配适用规则,所述的适用规则包括同音替换、西文拼写和标点补全;

匹配优化步骤:

优化规则模块比较用户经过所述规范化模块处理后的数据输入,根据配置的优化规则,返回优化翻译结果;

引擎选择步骤:

引擎选择模块根据用户输入的数据,选择适合数据语言的引擎,引擎选择的优先级为手动选择优先,引擎评分其次;

语境处理步骤:

语境选择模块对是否存在上下文语境进行判断,若存在上下文语境,则根据语境选择引擎返回的多义结果,并根据返回结果计算语境参数;

评价反馈步骤:

返回的翻译结果进入评价反馈模块,且所述评价反馈模块评分后均会进入引擎选择模块的评分体系。

在其中一个实施例中,所述语境处理步骤中,语境参数的具体计算方式为提取返回结果中的语境关键词,所述的关键词有相关主题的关联度,根据所有关键词与各个主题的关联度,计算出当前对话的主题,以提供下次语境选择,由于一对话中,主题可能发生变化,每句对话的主题关联度在下次计算中指数递减,由对话中每一句句子的话题关联度乘以退化系数的总和,其公式表示为:t=(1/αn)*t0+(1/αn-1)*t1+(1/αn-2)*t2+…+(1/α)*tn-1+tn,其中t0为初始关联度[1,0,0,…,0],α为关联度递减系数。

在其中一个实施例中,所述规范化模块对词性的具体处理方法为:当一句输入中有词性错误时,将错误词性的词组提取出来,进入同音词库中搜索,如果有匹配并且词性正确,则替换搜索结果;拼写矫正有现成的处理算法,仅使用成熟的拼写检查、矫正算法作为特性。

在其中一个实施例中,如有全局优化匹配,则直接返回优化翻译结果;如有部分优化匹配,则替换输入。

此外,为实现上述目的,本发明还提供一种用于翻译集成服务优化方法,所述用于翻译集成服务优化方法包括以下步骤:

规范化模块获取用户输入数据,并根据数据库匹配适用规则,所述的适用规则包括同音替换、西文拼写和标点补全;

优化规则模块比较用户经过所述规范化模块处理后的数据输入,根据配置的优化规则,返回优化翻译结果;

引擎选择模块根据用户输入的数据,选择适合数据语言的引擎,引擎选择的优先级为手动选择优先,引擎评分其次;

语境选择模块对是否存在上下文语境进行判断,若存在上下文语境,则根据语境选择引擎返回的多义结果,并根据返回结果计算语境参数;

返回的翻译结果进入评价反馈模块,且所述评价反馈模块评分后均会进入引擎选择模块的评分体系。

在其中一个实施例中,所述语境参数的具体计算方式为提取返回结果中的语境关键词,所述的关键词有相关主题的关联度,根据所有关键词与各个主题的关联度,计算出当前对话的主题,以提供下次语境选择,由于一对话中,主题可能发生变化,每句对话的主题关联度在下次计算中指数递减,由对话中每一句句子的话题关联度乘以退化系数的总和,其公式表示为:t=(1/αn)*t0+(1/αn-1)*t1+(1/αn-2)*t2+…+(1/α)*tn-1+tn,其中t0为初始关联度[1,0,0,…,0],α为关联度递减系数。

在其中一个实施例中,所述规范化模块对词性的具体处理方法为:当一句输入中有词性错误时,将错误词性的词组提取出来,进入同音词库中搜索,如果有匹配并且词性正确,则替换搜索结果;拼写矫正有现成的处理算法,仅使用成熟的拼写检查、矫正算法作为特性。

在其中一个实施例中,如有全局优化匹配,则直接返回优化翻译结果;如有部分优化匹配,则替换输入。

在其中一个实施例中,所述评价反馈模块包括后台人工评价和客户评价两部分组成。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用于翻译集成服务优化系统,所述用于翻译集成服务优化系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的用于翻译集成服务优化方法的步骤。

本发明的有益效果如下:

本方案弥补了不同服务提供的翻译语言不同,质量不同的不足。对于客户不规范的输入,进行规范化处理,以到达更好的翻译效果。当首选翻译引擎在不支持默写语言的情况下,可以使用备用引擎提供翻译服务。而对于各个引擎都有的语言,则根据翻译结果的优劣,动态选择翻译服务引擎。另外,对于一些各个翻译引擎暂时无法提供的固定翻译/热点生造词,则可以使用优化规则返回更合适贴切的翻译结果。并且在通常翻译服务的基础上,增加了对话翻译的服务,在一个对话中根据上下文语境,调整翻译引擎返回的多义词组。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明用于翻译集成服务优化系统较佳实施例的运行环境示意图;

图2为本发明用于翻译集成服务优化系统较佳实施例的程序模块图;

图3为本发明用于翻译集成服务优化方法较佳实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。

基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,本发明实施例中所有方向性指示(例如上、下、左、右、前、后……)仅用于解释在某一特定状态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或一体成型;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

另外,本发明中各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提供一种用于翻译集成服务优化系统。请参阅图1,是本发明用于翻译集成服务优化系统较佳实施例的运行环境示意图。

在本实施例中,所述的用于翻译集成服务优化系统10安装并运行于电子装置1中。

该电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中,电子装置1可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器1以及网络接口13,存储器11存储有可在处理器12上运行的用于翻译集成服务优化系统1。需要指出的是,图1仅示出了具有组件11-13的电子装置1,但是应当理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的用于翻译集成服务优化系统10等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12常用于控制所述电子装置1的总体操作,例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如用于翻译集成服务优化系统10等。

所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。

用于翻译集成服务优化系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本发明的各实施例。

其中,上述用于翻译集成服务优化系统10被所述处理器12执行时实现如下步骤:

步骤s1:

规范化模块获取用户输入数据,并根据数据库匹配适用规则,所述的适用规则包括同音替换、西文拼写和标点补全;

步骤s2:

优化规则模块比较用户经过所述规范化模块处理后的数据输入,根据配置的优化规则,返回优化翻译结果;

步骤s3:

引擎选择模块根据用户输入的数据,选择适合数据语言的引擎,引擎选择的优先级为手动选择优先,引擎评分其次;

步骤s4:

语境选择模块对是否存在上下文语境进行判断,若存在上下文语境,则根据语境选择引擎返回的多义结果,并根据返回结果计算语境参数;

步骤s5:

返回的翻译结果进入评价反馈模块,且所述评价反馈模块评分后均会进入引擎选择模块的评分体系。

在本实施例中,语境参数的具体计算方式为提取返回结果中的语境关键词,所述的关键词有相关主题的关联度,根据所有关键词与各个主题的关联度,计算出当前对话的主题,以提供下次语境选择,由于一对话中,主题可能发生变化,每句对话的主题关联度在下次计算中指数递减,由对话中每一句句子的话题关联度乘以退化系数的总和,其公式表示为:t=(1/αn)*t0+(1/αn-1)*t1+(1/αn-2)*t2+…+(1/α)*tn-1+tn,其中t0为初始关联度[1,0,0,…,0],α为关联度递减系数。

针对上下文话题关联度公式,有以下对话示例

首先,主题关联相关度是一个n维向量。如同在专利描述文档中提到的,对话主题关联度——(t),由对话中每一句句子的话题关联度ti乘以退化系数(1/α)i-1的总和,表现为公式为:t=(1/αn)*t1+(1/αn-1)*t2+tn。

例如,当对话进行到第3句时,对话的话题关联度为:

t=(1/αn)*t0+(1/αn-1)*t1+(1/αn-2)*t2+…+(1/α)*tn-1+tn,其中t0为初始关联度[1,0,0,…,0],α为关联度递减系数。

为了简化起见,在当前例子中选4个话题,氛围为t0——中性话题,t1——旅游话题,t2——购物话题,t3——赛事/会场话题,α0α2α3α4...则分别代表这四个话题的关联度。由关键词ticket,window,aisle,seat可得出,t1=[0.20.50.10.2](注,此关联度数据为简化版本,实际生产环境中由于包含其它各个话题,明显可知仅此4个话题的关联度值之和不可能为1)。

关于关联度的使用,例如第9句对话:

yes,sir.but,pleaseattachthisclaimtag.

原本译文为:“是的先生。但是,请附加此申明标签。”

但是根据对话截止第八句的话题关联度来看,整个对话中最大的关联度为a1,即当前话题为t1——旅游话题,根据此可以优化“claimtag”为“行李票”。

相似的应用有第12、13句的gate优化为登机口。

在本实施例中,所述规范化模块对词性的具体处理方法为:当一句输入中有词性错误时,将错误词性的词组提取出来,进入同音词库中搜索,如果有匹配并且词性正确,则替换搜索结果;拼写矫正有现成的处理算法,仅使用成熟的拼写检查、矫正算法作为特性。

在本实施例中,如有全局优化匹配,则直接返回优化翻译结果;如有部分优化匹配,则替换输入。

如图3所示,图3为本发明用于翻译集成服务优化方法较佳实施例的流程示意图,该用于翻译集成服务优化方法包括以下步骤:

步骤s1、规范化模块获取用户输入数据,并根据数据库匹配适用规则,所述的适用规则包括同音替换、西文拼写和标点补全;

步骤s2、优化规则模块比较用户经过所述规范化模块处理后的数据输入,根据配置的优化规则,返回优化翻译结果;

步骤s3、引擎选择模块根据用户输入的数据,选择适合数据语言的引擎,引擎选择的优先级为手动选择优先,引擎评分其次;

步骤s4、语境选择模块对是否存在上下文语境进行判断,若存在上下文语境,则根据语境选择引擎返回的多义结果,并根据返回结果计算语境参数;

步骤s5、返回的翻译结果进入评价反馈模块,且所述评价反馈模块评分后均会进入引擎选择模块的评分体系。

在本实施例中,所述语境参数的具体计算方式为提取返回结果中的语境关键词,所述的关键词有相关主题的关联度,根据所有关键词与各个主题的关联度,计算出当前对话的主题,以提供下次语境选择,由于一对话中,主题可能发生变化,每句对话的主题关联度在下次计算中指数递减,由对话中每一句句子的话题关联度乘以退化系数的总和,其公式表示为:t=(1/αn)*t0+(1/αn-1)*t1+(1/αn-2)*t2+…+(1/α)*tn-1+tn,其中t0为初始关联度[1,0,0,…,0],α为关联度递减系数。

本实施例的语境参数的具体计算方式与上述各模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

在本实施例中,所述规范化模块对词性的具体处理方法为:当一句输入中有词性错误时,将错误词性的词组提取出来,进入同音词库中搜索,如果有匹配并且词性正确,则替换搜索结果;拼写矫正有现成的处理算法,仅使用成熟的拼写检查、矫正算法作为特性。

在本实施例中,如有全局优化匹配,则直接返回优化翻译结果;如有部分优化匹配,则替换输入。

在本实施例中,所述评价反馈模块包括后台人工评价和客户评价两部分组成。

本发明计算机可读存储介质具体实施方式与上述电子装置和方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括“、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语旬“包括一个……“限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必倡的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘),包中括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1