具有领域定制功能的术语译文挖掘系统及方法
【技术领域】
[0001]本发明涉及一种具有领域定制功能的术语译文挖掘系统及方法,属于专利术语自然语言处理领域,特别是WEB信息挖掘和抽取领域。
【背景技术】
[0002]近几年来,基于Web的翻译资源获取研究开始引起研究者的关注。国内在这方面也有报道,如上海交通大学研究了基于Web的多语翻译词典获取方法;富士通中国研究院研究了基于Web的术语翻译的获取方法;赛迪集团推出的新一代英汉双向翻译系统中也采用了Web词典技术,等等。
[0003]总结前人的研究成果,发现大多的术语抽取研究只是对指定领域的单语语料采用多种方法努力提高术语抽取的精确率和召回率。这无法获知真实领域文本的特点和面向应用的术语抽取应该注意的问题和解决方案。在双语术语获取方面,目前还不能实现领域定制的双语术语的挖掘。所谓领域定制,就是根据用户提出的研究领域,自动分析网页文本的领域相关性,可以抽取不同领域的双语术语译文资源。对于这些方面的深入研究无疑对基于Web的双语资源自动获取研究的实际应用具有重要价值。
【发明内容】
[0004]本发明旨在提供一种具有领域定制功能的术语译文挖掘系统及方法,解决现有技术只是对指定领域的单语语料进行术语抽取的缺陷,进而实现根据输入的领域种子,通过搜索引擎自动获取相关领域的双语语料,并在线挖掘术语译文的目的。本发明实现的系统和方法能自动分析和获取英汉双语领域文本,进行在线的术语译文挖掘,如果输入的是英文就挖掘英文译文,如果输入的是汉语就挖掘汉语的译文。
[0005]本发明的技术解决方案是:
一种具有领域定制功能的术语译文挖掘系统,包括学习训练单元和术语译文挖掘单元,
学习训练单元:包括输入子单元和训练子单元,
输入子单元:输入领域种子用以输入用户指定领域的小规模汉英关键词翻译列表,用以作为学习训练的种子;
训练子单元:从互联网获取用户指定领域的双语网页资源并得到该领域的双语翻译对;
术语译文挖掘单元:采用自反馈、增量式的领域术语翻译自动获取方法,根据接收到的领域术语关键词得到对应的译文并输出。
[0006]进一步地,训练子单元包括双语网站和网页识别模块、双语资源噪声过滤模块、双语网页领域相似度计算模块、翻译句对抽取模块,
双语网站和网页识别模块:采用基于关键词的领域定制模型,首先输入一个特定领域的汉英关键词翻译列表,利用通用搜索引擎建立相关站点集,再利用采集器对每个站点及其相关链接进行扩展查找,形成原始的特定领域的双语网页集,使用向量空间模型对原始双语网页集进行初步过滤形成候选双语网页;
双语资源噪声过滤模块:基于机器翻译特征进一步过滤获取的双语噪声对;
双语网页领域相似度计算模块:计算候选双语网页的领域相似程度,将候选双语网页分成平行网页、可比网页,同时过滤掉不相关的候选网页;
翻译句对抽取模块:利用获取的平行网页和可比网页进一步抽取出双语翻译对,形成对齐的双语文本。
[0007]进一步地,术语译文挖掘单元包括自动获取翻译候选单元模块和选择最终译文模块,
自动获取翻译候选单元模块:从取出的双语翻译对中选择合法的翻译候选单元;
选择最终译文模块:经过筛选和排序,得到最终译文。
[0008]进一步地,在自动获取翻译候选单元模块中,具体为:首先以领域术语、关键词或命名实体,及其翻译作为种子,进行给定领域双语语料库的自动获取;然后,根据获取的双语语料库采用传统的术语翻译获取方法实现领域术语翻译的自动获取;根据获取的术语翻译去获取更大规模的领域双语语料库,再进行新一轮的术语翻译获取;如此经过多次反馈,增量式地获得领域双语语料库及领域术语翻译。
[0009]—种实现上述任一项所述系统的具有领域定制功能的术语译文挖掘方法,包括以下步骤:
51、候选双语混合网页的选取;
52、双语混合网页中双语资源抽取;
53、双语网页领域相似度的计算,计算候选双语网页的领域相似程度,将候选双语网页分成平行网页、可比网页,同时过滤掉不相关的候选网页;
54、基于双语网页的翻译句对抽取,利用获取的平行网页和可比网页进一步抽取出双语翻译对,形成对齐的双语文本;
55、基于领域双语语料库的术语翻译的自动获取,采用自反馈、增量式的领域术语翻译自动获取方法,根据接收到的领域术语关键词得到对应的译文并输出。
[0010]进一步地,步骤SI具体为:采用基于关键词的领域定制模型,首先输入一个特定领域的汉英关键词翻译列表,利用通用搜索引擎建立相关站点集,再利用采集器对每个站点及其相关链接进行扩展查找,形成原始的特定领域的双语网页集,使用向量空间模型对原始双语网页集进行初步过滤形成候选双语网页。
[0011 ] 进一步地,步骤S2中,双语混合网页中双语资源抽取为基于机器翻译特征进一步过滤步骤SI获取的双语噪声对。
[0012]进一步地,步骤S5中,采用自反馈、增量式的领域术语翻译自动获取方法,具体为:首先以领域术语、关键词或命名实体,及其翻译作为种子,进行给定领域双语语料库的自动获取;然后,根据获取的双语语料库采用传统的术语翻译获取方法实现领域术语翻译的自动获取;根据获取的术语翻译去获取更大规模的领域双语语料库,再进行新一轮的术语翻译获取;如此经过多次反馈,增量式地获得领域双语语料库及领域术语翻译。
[0013]本发明的有益效果是:该种具有领域定制功能的术语译文挖掘系统及方法,能满足人们快速获取互联网上某领域的专业术语的需要,为研究人员阅读专业资料提供翻译信息,也为专业词典的编撰和更新提供资源保障。该系统及方法,基于Internet的并行网页文本,通过研究领域定制的WEB术语译文抽取模型和算法,充分利用互联网上的跨语言资源,实现领域定制的术语译文挖掘,为跨语言的自然语言处理任务提供重要的技术和资源支持。该系统及方法,可以应用到专业术语词典的编撰、机器翻译、信息检索、问答系统、主题内容分析等相关领域。
【附图说明】
[0014]图1是本发明实施例具有领域定制功能的术语译文挖掘系统的说明框图。
[0015]图2是实施例具有领域定制功能的术语译文挖掘方法的流程说明示意图。
[0016]图3是实施例中基于Web的特定领域双语语料库获取流程示意图。
[0017]图4是实施例中自反馈、增量式的领域术语翻译获取示意图。
【具体实施方式】
[0018]下面结合附图详细说明本发明的优选实施例。
实施例
[0019]实施例具有领域定制功能的术语译文挖掘系统及方法能够进行在线的术语译文挖掘,如果输入的是英文就挖掘英文译文,如果输入的是汉语就挖掘汉语的译文。
[0020]该种具有领域定制功能的术语译文挖掘系统包括学习训练单元和术语译文挖掘单元两大部分,如图1。
[0021]学习训练单元包括输入子单元和训练子单元。输入子单元输入领域种子用以输入用户指定领域的小规模汉英关键词翻译列表,用以作为学习训练的种子。训练子单元采用预定的方法从互联网获取用户指定领域的双语网页资源并得到该领域的双语翻译对。
[0022]训练子单元包括双语网站和网页识别模块、双语资源噪声过滤模块、双语网页领域相似度计算模块、翻译句对抽取模块。图3给出了基于Web的特点领域双语语料库获取流程。
[0023]双语网站和网页识别模块:采用基于关键词的领域定制模型,首先输入一个特定领域的汉英关键词翻译列表,规模可以很小,利用通用搜索引擎建立相关站点集,再利用采集器对每个站点及其相关链接进行扩展查找,形成原始的特定领域的双语网页集,使用向量空间模型对原始双语网页集进行初步过滤形成候选双语网页。
[0024]这种双语言混合网页指的是单个网页包含多种语言的内容。根据一个网页如果包含一对翻译对,那么它可能包含互为翻译内容的启发,提交一对翻译对到搜索引擎,搜索引擎将会返回包含这对翻译词的网页。
[0025]候选双语网站和网页是指可能含有双语文本的网站和网页。识别候选双语网站和网页的目的是要进一步将双语文本的获取限制在可能的网站和网页上,将大大提高双语资源获取速度。
[0026]双语资源噪声过滤模块:基于机器翻译特征进一步过滤获取的双语噪声对;
双语网页领域相似度计算模块:计算候选双语网页的领域相似程度,将候选双语网页分成平行网页、可比网页,同时过滤掉不相关的候选网页。
[0027]这里将从定量分析和定性分析两种角度研究双语网页的领域相似性度量方法。定量的方法以数值的形式描述双语网页的领域相似程度,如基于关键词频度或位置的特征向量空间模型的各种相似度计算方法等。定性分析方法采用支持向量机分类模型实现双语网页的领域分类。
[0028]翻译句对抽取模块:利用获取的