基于专利数据的半自动化翻译双语模板的构建方法及系统与流程

文档序号:19992975发布日期:2020-02-22 02:28阅读:来源:国知局

技术特征:

1.一种基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:包括以下步骤:

s1)获取专利领域双语句对齐的双语语料;

s2)根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子;

s3)对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库;

s4)从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板;

s5)设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板;

s6)对过滤翻译双语模板进行人工校验,设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

2.根据权利要求1所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:预设语义语法筛选条件包括具有多层修饰的句子、具有复杂逻辑关系的句子、具有插入成分的句子或超过一定长度的句子。

3.根据权利要求2所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:多层修饰的句子为三层以上的修饰句子。

4.根据权利要求3所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:聚类为将源语言数据库中的相同或相近的句子归类为一个单元语言数据库,从而形成多个单元语言数据库。

5.根据权利要求1-4中任一项所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:常量包括词、句、段落、标点符号或特殊字符;变量包括词、句、段落、标点符号或特殊字符;在确定源语言数据库中的常量和目标语言数据库中的常量的对应关系后,对源语言数据库中的常量和目标语言数据库中的常量进行属性限定;在确定源语言数据库中的变量和目标语言数据库中的变量的对应关系后,对源语言数据库中的变量及目标语言数据库变量进行属性的限定。

6.根据权利要求5所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:常量的确定方法为从专利本身翻译的特点以及对专利进行分析后得到的名词、名词短语或词语的固定搭配。

7.根据权利要求6所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:覆盖率预设过滤阈值范围为1-7个常量。

8.根据权利要求7所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:准确率预设阈值范围大于等于3个常量。

9.根据权利要求8所述的基于专利数据的半自动化翻译双语模板的建立方法,其特征在于:双语语料的语言包括英语、德语、日语、韩语、俄语或法语中的两种语言。

10.一种基于专利数据的半自动化翻译系统,其特征在于:包括:

专利双语语料提取模块,用于提取专利领域中的双语句对齐的双语语料,将提取的双语语料发送至筛选模块;

筛选模块,用于根据预设语义语法筛选条件对获取的双语语料进行筛选,筛选出专利领域中翻译存在问题的双语句子,将存在问题的双语句子发送给聚类模块;

聚类模块,用于对筛选出存在问题的双语句子进行拆分,拆分出源语言数据库和目标语言数据库,对源语言数据库进行聚类,将聚类后的源语言数据库与目标语言数据库对应形成双语数据库,将双语数据库发送至常量、变量抽取及模板建立模块;

常、变量抽取及模板建立模块,用于从双语数据库中抽取常用的词条、短语或句段标记为常量,剩余的词条、短语或句段标记为变量;分别对源语言数据库中的常量和目标语言数据库中的常量进行词义、句意和位置匹配,确定源语言数据库中的常量和目标语言数据库中的常量的对应关系;分别对源语言数据库中的变量和目标语言数据库中的变量进行词义、句意和位置匹配,确定源语言数据库中的变量和目标语言数据库中的变量的对应关系,建立翻译双语模板,将翻译双语模板发送至过滤模块;

过滤模块,用于对翻译双语模板进行过滤,根据设定覆盖率预设过滤阈值范围,去除覆盖率预设过滤阈值范围外的翻译双语模板,得到过滤翻译双语模板,将过滤的翻译双语模板发送给校验模块;

校验模块,用于根据设定准确率预设阈值范围,去除准确率预设阈值范围外的过滤翻译双语模板,得到符合要求的合格翻译双语模板。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1