基于成分分析的英语语料自动提取方法和提取器的制造方法

文档序号:10552882阅读:515来源:国知局
基于成分分析的英语语料自动提取方法和提取器的制造方法
【专利摘要】本发明公开了一种基于成分分析的英语语料自动提取方法和提取器,目的在于:通过对成分分析,能够快速提取英语中的所有语料,且提高提取语料准确率,所采用的技术方案为:一种基于成分分析的英语语料自动提取器,包括断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。
【专利说明】
基于成分分析的英语语料自动提取方法和提取器
技术领域
[0001]本发明属于计算语言学和翻译技术领域,涉及一种基于成分分析的英语语料自动提取方法和提取器。
【背景技术】
[0002]在自然语言处理领域,语言检索的工具和技术进展很快,语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串,经过几年的发展,已逐步达到了其高级阶段:提取非连续的可变的语块。本文从语料库研究的角度,分别从连续的语块和非连续的语块两个方面,对英语的语块识别与检索技术和工具进行归纳和评述。
[0003]借助语料库检索手段对学术词汇在信息工程英语语料库中的使用频率和分布特征进行了统计与分析。研究显示学术词汇在信息工程英语语料库中的覆盖率达10.39%,学术词汇对于信息工程学科的适用性得到了验证。在此基础上,对目前普遍采用的语料库高频学术词汇提取方法进行了比较,针对现有方法的不足提出了专业英语高频学术词汇提取的优化策略,从570个学术词族中提取出248个信息工程英语高频学术词族,为开展专业学术英语词汇教学提供了客观依据,显著提高了专业学术词汇教学的针对性。
[0004]多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MffE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对,实验结果表明上述方法可以有效提高MffE提取和对齐的准确率。
[0005]成分分析法是一种融合宏观和微观的系统化的分析方法,适用于包涵多种评估要素的翻译质量评估。基于成分分析法,将翻译质量评估分为“目的语表达”、“文本功能”、“原文内容(非专业性),,和“原文内容(专业性)及术语”四个成分,依据文本类型,设定各成分比重、等级及分值,可实现对译本的定性与定量相结合的评估,使得翻译质量评估更客观、更有可操作性。从语义成分分析的角度出发,探讨了英汉词语的对应关系并试图将成分分析理论用于翻译实践,在尽可能准确传达词语意义的同时使译文更符合翻译的“信达切”三原贝1J。但是现有的英语成分分析更多的研究局限在人工翻译和教学方面,很少和计算机技术结合;语料库的研究专注于语料库本身结构和应用前景的研究上,关于具体适用的语料库建设涉及较少;英语成分分析方法没有用于语料库建设。

【发明内容】

[0006]为了解决现有技术中的问题,本发明提出一种通过对成分分析,能够快速提取英语中的所有语料,且提取语料准确率高的基于成分分析的英语语料自动提取方法和提取器。
[0007]为了实现以上目的,本发明所采用的技术方案为:
[0008]一种基于成分分析的英语语料自动提取器,包括:
[0009]断句模块,用于将英语文本切分为若干个句子;
[0010]成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;
[0011]以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。
[0012]—种基于成分分析的英语语料自动提取方法,包括以下步骤:
[0013]I)打开英语文本,利用断句模块根据分句规则,对英语文本进行分句,得到若干个句子;
[0014]2)利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性;然后每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并;最后短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;
[0015]3)利用语料导出模块将所有标记识别出的名词短语导出形成语料列表。
[0016]所述的步骤I)中断句模块根据标点符号规则,定义句子终止符,遇到终止符判断为句尾,将英语文本切分为若干个句子。
[0017]所述的断句模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。
[0018]所述的步骤I)中采用通用读文件模块获取英语文本,Word文档调用Word的Com接口获取文本,excel文档调用excel的Com接口获取文本。
[0019]所述的步骤2)中成分分析模块从词库取到每个单词的词性,若单词的词性唯一则该单词词性确定;若单词存在多词性,则结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性。
[0020]所述的步骤3)中语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行。
[0021]与现有技术相比,本发明断句模块根据分句规则,对英语文本进行分句得到若干个的句子,再利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性,每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并,短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别,利用语料导出模块将所有标记识别出的名词短语导出形成语料列表,本发明基于英语成分分析,通过英语成分分析,得到所以的一级成分,进一步判断该一级成分是否是一个名词短语,如果是,就是一条语料;通过对每个一级成分进行内部成分分析,得到所有的内部成分,进一步判断该内部成分是否是一个名词短语,如果是,就是一条语料,输出所有分析出的名词短语,即得到所需语料,本发明的英语成分分析是一种基于词库和规则库的英语成分分析方法,规则的成熟和完备能够保证更高的成分分析准确率,从而能够缩减翻译时间,提高翻译效率。本发明能够快速提取英语中的所有语料,成分分析正确率高,从而使语料准确率越大,能够广泛应用于自然语言研究和翻译辅助工具的开发。
[0022]进一步,断句模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾,对于英文句号需要判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符,进一步提高了分句处理的准确性,提高了翻译效率。
[0023]进一步,成分分析模块从词库取到单词的词性,如果词性唯一则该单词词性已经确定,如果存在多词性单词,结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性。如冠词+形容词+待确定词性单词,待确定词性单词具有名词词性和动词词性,则确定该单词为名词词性,词性的识别规则由专业语言学人员编制,并对规则设定优先级,程序调用规则库匹配最优的规则,对没匹配的单词则选择默认词性。
[0024]进一步,语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行,通过排序和去重,方便了后续翻译工作,避免了重复工作,提高了翻译效率。
【具体实施方式】
[0025]下面结合具体的实施例对本发明作进一步的解释说明。
[0026]—种基于成分分析的英语语料自动提取器,包括:断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。
[0027]—种基于成分分析的英语语料自动提取方法,包括以下步骤:
[0028]I)采用通用读文件模块获取英语文本,Word文档调用Word的Com接口获取文本,excel文档调用excel的Com接口获取文本,利用断句模块根据分句规则,对英语文本进行分句,得到若干个句子;断句模块根据标点符号规则,定义句子终止符,遇到终止符判断为句尾,将英语文本切分为若干个句子,断句模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符;
[0029]2)利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性,若单词的词性唯一则该单词词性确定;若单词存在多词性,则结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性;然后每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并;最后短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;
[0030]3)利用语料导出模块将所有标记识别出的名词短语导出形成语料列表,语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行O
[0031 ]本发明英语成分分析具体方法:
[0032]I)根据分句规则,对英语文本进行分句,得到一个个的句子;
[0033]2)将每个句子拆解成一个一个的单词;
[0034]3)检索词库,对每个单词形成所有属性配置;
[0035]4)根据规则库,判断句子谓语部分,再根据规则库对所有单词和单词组合进行判断,判断出该单词和单词组合是什么样的短语,从而根据规则库、该短语在句子中的位置和与相关成分之间的关系,确定该短语的成分,包括主语、宾语、表语、状语等;
[0036]5)根据规则库,判断每个已经确定的成分中的内部成分,往复循环,直至最小语言单位;
[0037]6)完成所有成分的判断。
[0038]本发明的英语成分分析首选判断所有的一级成分,就是本句最大的成分,包括主语部分、谓语部分、宾语部分、状语部分、同位语部分、表语部分等,然后进一步判断每一个成分中的内部成分,以此类推,直至最小语言单位。每个一级成分和内部成分可能就是一个名词短语,其包含的内部成分也可能是一个名词短语,将这些名词短语输出,即完成该句中的语料。
[0039]本发明模块包括:
[0040]1.英语断句模块:
[0041 ]根据标点符号和规则,将英语文本切分为一个个的句子,定义句子终止符,如英文的句号、感叹号、问号等,遇到终止符判断为句尾,英文句号还需要判断是否缩略词,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符;
[0042]2.成分分析模块:
[0043]对每个句子进行成分分析和内部成分分析,得到所有一级成分和所有一级成分的内部成分,将所有成分中的名词短语进行标记:
[0044]I)确定句中每个单词的词性:从词库取到单词的词性,如果词性唯一该单词词性已经确定,如果存在多词性单词,结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性,如冠词+形容词+待确定词性单词具有名词词性和动词词性,可以确定该单词为名词词性,词性的识别规则由专业语言学人员编制,并对规则设定优先级,程序调用规则库匹配最优的规则,对没匹配的单词则选择默认词性;
[0045]2)在词性确定的基础上短语识别,根据短语规则库识别短语,例如冠词+形容词+名词构成名词短语,根据短语规则库匹配句中单词,将多个单词识别成短语;
[0046]3)在短语识别的基础上根据短语合并规则库进行短语合并,例如名词短语+其后修饰的介词短语合并成一个名词短语,短语合并完成后根据语法规则最终得到句子的一级成分,如主语、谓语、宾语、定语、状语、补语、表语等,例如句子由名词短语+谓语短语+名词短语可以识别成主语+谓语+宾语;
[0047]3.语料导出模块:将所有识别出的名词短语导出,形成语料列表。
[0048]本发明使用的具体步骤包括:
[0049]I)运行工具;
[0050]2)打开需要提取语料的文件,可以是Word、Excel、文本等格式,文本文件直接用通用读文件模块获取文本,Word文档调用Word的Com接口获取word中的文本,excel调用excel的Com接口获取excel表格中的文本;
[0051]3)点击“语料提取”,调用英语断句模块、成分分析模块,得到语料,提取的语料以列表的方式保存,每行为一个条语料;
[0052]4)语料排序去除重复,对语料列表运用快速排序算法排序,语料列表有序后,从后往前遍历列表,若相邻两行语料一样,即字符相同,则为重复,删除后一行;
[0053]5)导出语料,导出纯文本格式的语料文件,如果是word或excel文档,则调用对应Com接口导出。
[0054]本发明能够快速提取英语中的所有语料,成分分析正确率高,语料准确率大,能够广泛应用于自然语言研究和翻译辅助工具的开发。
【主权项】
1.一种基于成分分析的英语语料自动提取器,其特征在于,包括: 断句模块,用于将英语文本切分为若干个句子; 成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别; 以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。2.一种基于成分分析的英语语料自动提取方法,其特征在于,包括以下步骤: 1)打开英语文本,利用断句模块根据分句规则,对英语文本进行分句,得到若干个句子; 2)利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性;然后每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并;最后短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别; 3)利用语料导出模块将所有标记识别出的名词短语导出形成语料列表。3.根据权利要求2所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的步骤I)中断句模块根据标点符号规则,定义句子终止符,遇到终止符判断为句尾,将英语文本切分为若干个句子。4.根据权利要求3所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的断句模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。5.根据权利要求2所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的步骤I)中采用通用读文件模块获取英语文本,Word文档调用Word的Com接口获取文本,excel文档调用excel的Com接口获取文本。6.根据权利要求2所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的步骤2)中成分分析模块从词库取到每个单词的词性,若单词的词性唯一则该单词词性确定;若单词存在多词性,则结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性。7.根据权利要求2所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的步骤3)中语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行。
【文档编号】G06F17/27GK105912522SQ201610202321
【公开日】2016年8月31日
【申请日】2016年3月31日
【发明人】白晓文, 陈春纬, 刘庆
【申请人】长安大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1