基于专利数据的半自动化翻译双语模板的构建方法及系统与流程

文档序号:19992975发布日期:2020-02-22 02:28阅读:152来源:国知局
基于专利数据的半自动化翻译双语模板的构建方法及系统与流程

本发明涉及机器翻译技术领域,尤其涉及一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统。



背景技术:

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,2013年来,随着深入学习的研究取得较大进展,基于人工神经网络的机器翻译逐渐兴起。人工神经网络的机器翻译技术核心是一个用有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识,一个高质量的海量语料库对于机器翻译质量的提高具有十分重要的作用。目前,神经网络机器翻译的翻译质量相比基于统计的机器翻译和基于规则的机器翻译有了极大的提高,但在某些方面,例如涉及到翻译语序的调整方面效果仍不能满足翻译需求。

翻译双语模板作为机器翻译系统中的一种重要的知识,在当下很多机器翻译和协助翻译系统中应用,机器翻译双语模板是一种不可或缺的资源。针对翻译双语模板的过去和构件,在早期的机器翻译系统中,往往是手工从语料库中提取出来的。kitano在他的系统中采取了一种翻译规则的手工编码的方式,采用了人工撰写匹配表达式作为翻译的模板。但是,当语料库越来越大时,这种人工的方法就会变得越来越困难,会带来很多的错误。还有些学者,也提出了自动的机器翻译模板的构建方法,提出了基于类比学习的方法或者基于结构对齐的方法。这两种方法一种需要非常大规模的且存在大量相似的双语语料,一种需要对两种语言高精度的语句分析器,因为条件的限制,两类自动抽取的方法并不能达到满意的精度。

因此,为了解决上述问题,急需发明一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统。



技术实现要素:

本发明的目的在于:提供一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统,通过专利数据的半自动化翻译双语模板的构建方法建立半自动化翻译系统以解决现有技术存在的对专利翻译模板精度差,翻译不准确的技术问题。

本发明提供了下述方案:

s1)一种基于专利数据的半自动化翻译双语模板的建立方法,包括以下步骤:

s2)获取专利领域双语句对齐的双语语料;

根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;

s3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;

s4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;

s5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;

s6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

优选地,预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。

优选地,多层修饰的句子为三层以上的修饰句子。

优选地,聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。

优选地,常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。

优选地,常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。

优选地,覆盖率预设过滤阈值范围为1-7个常量。

优选地,准确率预设阈值范围大于等于3个常量。

优选地,双语语料的语言包括英语、德语、日语、韩语或法语中的两种语言。

本发明还包括一种基于专利数据的半自动化翻译系统,包括:

专利双语语料提取模块210,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;

筛选模块220,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;

聚类模块230,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;

常、变量抽取及模板建立模块240,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;

过滤模块250,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;

校验模块260,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

本发明产生的有益效果:

1、本发明提出的基于专利数据的半自动化翻译双语模板的建立方法,模板的抽取的对象针对专利文献,在大数据的统计基础上,综合专利自身的特点,形成的半自动化的双语模块建立方法,在模块建立前,根据专利领域的特点和长时间的知识积累,获取目前机器翻译可能存在的问题的句子,然后将句子进行大数据的统计分析,形成数据库,同时采用语义和语法分析,对问题句子进行聚类整理,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,对翻译双语模板进行过滤,和人工校验,得到合格的翻译双语模板,采用此翻译双语模板,专利词语、句子的翻译更加准确,便于人的理解;翻译质量和覆盖率方面有了极大的提高,有助于提升机器翻译的翻译质量。

2、本发明所公开的一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统,提出的双语模板的构建方法,建立得到了精准的翻译双语模板。

附图说明

图1为本发明的基于专利数据的半自动化翻译双语模板的构建方法的流程框图;

图2为本发明的半自动化翻译系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。

参见图1所示,本实施例提出了一种基于专利数据的半自动化翻译双语模板的建立方法,包括以下步骤:

s1)获取专利领域双语句对齐的双语语料;

s2)根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;

s3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;

s4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;

s5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;

s6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

具体地,预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。

具体地,多层修饰的句子为三层以上的修饰句子。

具体地,聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。

具体地,常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。

具体地,常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。

具体地,覆盖率预设过滤阈值范围为1-7个常量。

具体地,准确率预设阈值范围大于等于3个常量。

具体地,双语语料的语言包括英语、德语、日语、韩语或法语中的两种语言。

本发明提出的基于专利数据的半自动化翻译双语模板的建立方法,模板的抽取的对象针对专利文献,在大数据的统计基础上,综合专利自身的特点,形成的半自动化的双语模块建立方法,在模块建立前,根据专利领域的特点和长时间的知识积累,获取目前机器翻译可能存在的问题的句子,然后将句子进行大数据的统计分析,形成数据库,同时采用语义和语法分析,对问题句子进行聚类整理,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,对翻译双语模板进行过滤,和人工校验,得到合格的翻译双语模板,采用此翻译双语模板,专利词语、句子的翻译更加准确,便于人的理解。

聚类的算法过程为:基于k均值聚类算法(k-means算法)进行聚类,利用词频-逆文本频率指数(tf-idf算法)计算句子之间的距离;具体步骤为:1)对双语语料集进行分词;2)对分出的各词汇采用进行tf-idf算法进行计算;3)设置聚类中心点的数量k,并随机选取k个聚类中心点作为初始中心点,4)利用tf-idf算法,计算每个对象与各个聚类中心点之间的距离;5)把每个对象分配给距离它最近的聚类中心点;6)重新计算每类中的点到该类中心点的距离;7)分配每个数据到它最近的聚类中心点;8)重复步骤6和步骤7的过程,直到所有的对象不再被分配或是达到最大的迭代次数。

具体地,句子一thesatelliteofclaim2,whereinthefeedarraybeingconfiguredtoreceivethesecondportionofthefirstsignalsincludesbeingconfiguredtoreceivethesecondportionofthefirstsignalsduringascheduled,periodictimeofaknowndurationinwhichthecommunicationinthefirstgeographicregionisabsent.

句子二thegroundbasestationofclaim7,whereintheradio-frequencyequipmentbeingconfiguredtoreceivethesecondportionofthefirstsignalsincludesbeingconfiguredtoreceivethesecondportionofthefirstsignalsduringascheduled,periodictimeofaknowndurationinwhichthecommunicationinthefirstgeographicregionisabsent.

句子三thesatelliteofclaim2,whereinthefeedarraybeingconfiguredtoreceivethesecondportionofthefirstsignalsincludesbeingconfiguredtoreceivethesecondportionofthefirstsignalsduringascheduled,periodictimeofaknowndurationinwhichthecommunicationinthefirstgeographicregionisabsent.

句子四thesatelliteofclaim2,whereinthefeedarraybeingconfiguredtoreceivethesecondportionofthefirstsignalsincludesbeingconfiguredtoreceivethesecondportionofthefirstsignalsinanallocatedportionofafrequencybandduringascheduledtimeofaknowndurationinwhichthecommunicationinthefirstgeographicregionisabsent.

句子五theinteractivetalkingtoyofclaim1,whereinthetoyunitfurthercomprisesamicrophonebeingconnectedwiththecontrollericandconfiguredtoacquireavoiceinput,andanaudiocodecprocessorbeingconnectedtothemicrophoneandthecontrolleric,theaudiocodecprocessorcomprisinganadcandadac,andbeingconfiguredtoprocessvoiceinputacquiredbythemicrophoneandsendtheprocessedaudiodatatothecontrolleric.

观察上述五个句子,按照聚类的算法过程,句子一、句子二、句子三、句子四句子的句意、结构、词汇相似,归为一组,句子五归为一组。

为了保证双语模板中常量和变量对应关系的准确,我们在构建模板时,需要对常量本身、变量本身、常量和常量之间、变量和变量之间做出相应的限制条件以保证双语模板的准确,这些限制条件包括但不限于源语言或者目标语言本身的限制条件、常量或者变量自身的限制条件,还包括源语言和目标语言之间的限制条件、常量之间的限制条件、变量之间的限制条件等等。例如,本发明中的常量知识库的确定是从专利本身翻译的特点总结以及对专利进行分析后得到的高频常用词汇知识库,词汇知识库包括名词、名词短语及固定搭配等,词汇知识库的词条可以是一对一,也可以是一对多,或者多对一。变量包括词汇、短句或句子等形式,在确定源语言数据库和目标语言数据库中的变量关系时,需要对目标语言数据库中的每一个变量与源语言数据中的每一个变量进行相似度的计算,在形成矩阵中选择概率最大的一个进行匹配,完成匹配的变量不再参与其他变量的相似度计算,相似度计算在目标语言数据库中顺序进行。

根据专利本身的特点,相似度计算步骤为:

1)收集中文、英文单语语料数据库;

2)收集确定中文、英文停用词数据库;

3)对收集的中文、英文单语语料数据库进行分词,形成分词数据库;

4)使用wordvec模型对分词数据库进行最小距离计算,找到中文各词距离最小的词及对应的距离,找到英文各词距离最小的词及对应的距离;

5)使用tf-idf算法对找到的距离最小的各词进行相似度计算;

具体地,将输入的中文句子(cn1)翻译成英文句子(en2)、将输入的英文句子(en1)翻译成中文句子(cn2);

对cn1、cn2、en1、en2分别进行分词,形成cn11、cn21、en11、en21;

对以上分词结果去停用词处理,形成cn12、cn22、en12、en22;

对cn12、cn22中各词汇通过wordvec模型进行最小距离计算,找到cn12各词在cn22中各词距离最小的词及对应的距离;

计算cn12与cn22的相似度;

其中λ>0。

同理,计算en12与en22的相似度simen;

本发明中的源语言数据库中的常量和目标语言数据库中的常量的对应关系不限于一对一,可以是一对多,多对一的或者多对多的方式;

本发明中的源语言数据库中的变量和目标语言数据库变量的对应关系不限于一对一,可以是一对多,多对一的或者多对多的方式。

本发明为了保证模板的准确率,在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。

属性限定包括开始属性限定,结尾属性限定、包含属性限定、非包含关系属性限定、词性属性限定及长度属性限定;属性的限定,有助于缩小翻译双语模板的覆盖率和准确率的提高。

该方法中涉及到的专利内容特征库、专利语言学约束库,专利知识库等是在大数据的统计基础上,结合专利翻译人员的总结形成,可应用于包括但不限于专利等各个领域。

本发明还包括一种基于专利数据的半自动化翻译系统,包括:

专利双语语料提取模块210,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;

筛选模块220,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;

聚类模块230,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;

常、变量抽取及模板建立模块240,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;

过滤模块250,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;

校验模块260,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

本实施例还提供一种适于实现上文描述的一种基于专利数据的半自动化翻译双语模板的构建方法及半自动化翻译系统的计算机系统。计算机系统包括处理器和计算机可读存储介质。该计算机系统可以执行根据本发明实施例的方法。

具体地,处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;等等。

计算机可读存储介质可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括筛选模块210、专利双语语料提取模块220、聚类模块230、常、变量抽取及模板建立模块240、过滤模块250、校验模块260。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器执行时,使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例,上述模块中的至少一个可以实现为计算机程序模块,其在被处理器执行时,可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。

根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本发明半自动化翻译系统,适用于专利领域的机器翻译,能够有效的提高机器翻译译文的质量和精度。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1