本发明涉及一种语言翻译的方法,特别是一种利用机器的语言翻译的方法。
背景技术:
语言的机器翻译最早出现于20世纪40年代,并伴随着计算机技术的进展不断完善。近十年来,一路发展而来的传统机器翻译系统和方法,有了持续的提高。主流的现有技术机器翻译,是先行分别建立源语言和目标语言的词库或字库。当翻译一个句子时,机器把输入的源语言的句子,拆分成主语、谓语、宾语、状语等成分,而后按照两个词库中词与词之间的对应关系,找出目标语言中相应的词,再将目标语言的词组成句子,得到翻译后的句子。由于不同的语言中,对名词的性、格、数,动词的时态、变位,形容词的性等研发处理有许多不同之处,所以在组建目标语言句子的过程中,难免出现语法错误,降低了翻译的准确性。
技术实现要素:
本发明的目的是提供一种大句库翻译方法,要解决的技术问题是提高机器翻译语言时的准确率。
本发明采用以下技术方案:一种大句库翻译方法,包括以下步骤:
一、设置源语言大句库模块、目标语言大句库模块、多义句库模块、同义句库模块、搜索引擎模块、句子调出模块、翻译输出模块、语音输入输出模块、文字输入输出模块、显示模块和使用者选择模块;
所述源语言大句库模块通过人工或电脑统计日常生活和工作中常用源语言短句在会话中出现的频率,从出现次数最高开始排列,将最先出现的表示一个句意的句子作为源语句,删除句意相似或相同的排列在后面的句子,存储进源语言大句库模块;再按源语句句意多重表达含义和相似与相同扩展源语句,分别形成多义句库和同义句库;
所述目标语言大句库模块通过人工或电脑对源语言大句库、多义句库、同义句库中句子的一一对应翻译获得,建立目标语言大句库与源语言大句库、多义句库、同义句库中句子相互对应的编码关系后,存储在目标语言大句库模块;
二、使用者选择源语言和目标语言,输入需要翻译的句子,发送到搜索引擎模块;
三、搜索引擎模块从源语言大句库模块中找出与输入句子相同的源语句句子,发送至句子调出模块,句子调出模块根据源语句与多义句和同义句的对应关系,在多义句库模块和同义句库模块中找出与源语句句子对应关系的多义句和同义句,将源语句、多义句和同义句发送至显示模块显示;
四、使用者从显示模块的源语句、多义句和多义句中,选出与自己想要表达的语义最接近的句子,发送至使用者选择模块,使用者选择模块将使用者选出的句子转换成目标语言大句库中对应的编码,发送至目标语言大句库模块;
五、目标语言大句库模块根据编码找到目标语言中的相应句子,发送至翻译输出模块。
本发明的步骤一,源语言大句库模块存储有不少于两万个句子。
本发明的步骤一,多义句库模块中通过人工或电脑对构成源语句中的词进行分解、分析,对源语句中同一词具有多重表达含义构成的词进行归纳统计,用不同含义的词代替源语句,获得相应的多义句,建立源语句与多义句的对应关系,存储进多义句库模块。
本发明的步骤一,同义句库模块中通过人工或电脑对构成源语句中的词进行分解、分析,对源语句中词的同义词进行归纳统计,用不同的词代替源语句,获得相应的同义句,建立源语句与同义句的对应关系,存储进同义句库模块。
本发明的步骤二,输入需要翻译的句子,采用语音或文字输入需要翻译的句子;采用语音输入时,语音输入输出模块对使用者发出的语音句子进行语音识别,得到需要翻译的句子的文字,发送到搜索引擎模块;采用文字输入时,文字输入输出模块将使用者输入的句子发送到搜索引擎模块。
本发明的步骤三,搜索引擎模块从源语言大句库模块中没有找出与输入句子相同的源语句句子,句子调出模块在多义句库模块和同义句库模块中找出与输入句子相同的多义句和同义句,根据多义句和同义句与源语句的对应关系,找出源语句句子,将源语句、多义句和同义句发送至显示模块显示。
本发明的步骤五,翻译输出模块将翻译后的句子发送至文字输入输出模块,驱动显示模块显示。
本发明的步骤五,显示模块设有源语言区域和目标语言区域,源语言区域和目标语言区域与语音输入输出模块连接。
本发明的步骤一,源语言大句库模块、目标语言大句库模块、多义句库模块、同义句库模块、搜索引擎模块、句子调出模块和翻译输出模块设置在服务器上,语音输入输出模块、文字输入输出模块、显示模块和使用者选择模块设置在智能终端上,建立智能终端与服务器经网络联网。
本发明的智能终端为智能手机、上网本或个人电脑,网络为因特网。
本发明与现有技术相比,以句库替代词库,采用了完整句子对应完整句子的翻译方法,避免了将源语言句子拆分为单词,翻译单词,再由目标语言单词组成句子的过程中,带来的各种语法错误,并采用了多义句和同义句的处理方法,明显提高了翻译的准确度,利用互联网,方便使用者。
附图说明
图1是本发明的方法采用的系统结构示意图。
图2是本发明的方法流程图。
图3是本发明实施例1的操作流程图。
图4是本发明实施例2的操作流程图。
图5是本发明实施例3的操作流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。如图1所示,本发明的大句库翻译方法,建立n个智能终端与服务器经网络联接的系统,智能终端为智能手机、上网本或个人电脑,n为使用本发明方法的智能终端的数量,网络为因特网。本发明的大句库翻译方法,也可以应用在单台翻译的机器上。
如图2所示,本发明的大句库翻译方法,包括以下步骤:
一、在服务器上设置源语言大句库模块、目标语言大句库模块、多义句库模块、同义句库模块、搜索引擎模块、句子调出模块和翻译输出模块。在智能终端上设置语音输入输出模块、文字输入输出模块、显示模块和使用者选择模块,建立智能终端与服务器经因特网联网。
源语言大句库模块存储有不少于两万个句子,每个句子都表示一个完整的意思。通过人工或电脑统计日常生活和工作中常用源语言短句在会话中出现的频率,从出现次数最高开始排列,将最先出现的表示一个句意的句子作为源语句,删除句意相似或相同的排列在后面的句子,然后将排列的不少于两万个句子存储进源语言大句库模块。
再按源语句句意多重表达含义和相似与相同扩展源语句,形成多义句库和同义句库。
多义句库模块中存储的每个句子都表示一个完整的意思,多义句库根据源语言大句库中的源语句按多重意思表达进行扩展,得到多义句库的句子。通过人工或电脑对构成源语句中的词进行分解、分析,对源语句中同一词具有多重表达含义构成的词进行归纳统计,用不同含义的词代替源语句,获得相应的多义句,建立源语句与多义句的对应关系,存储进多义句库模块。
同义句库模块中存储的每个句子都表示一个完整的意思,同义句库根据源语言大句库模块中的源语句按相同意思进行扩展获得同义句库的句子。通过人工或电脑对构成源语句中的词进行分解、分析,对源语句中词的同义词进行归纳统计,用不同的词代替源语句,获得相应的同义句,建立源语句与同义句的对应关系,存储进同义句库模块。
目标语言大句库模块中存储的每个句子都表示一个完整的意思,通过人工或电脑对源语言大句库、多义句库、同义句库中句子的一一对应翻译获得,建立目标语言大句库与源语言大句库、多义句库、同义句库中句子相互对应的编码关系后,存储在目标语言大句库模块。
二、使用者选择源语言和目标语言,采用语音或文字输入需要翻译的句子。采用语音输入时,语音输入输出模块按现有技术对使用者发出的语音句子进行语音识别,得到需要翻译的句子的文字,发送到搜索引擎模块。采用文字输入时,文字输入输出模块将使用者输入的句子发送到搜索引擎模块。
三、搜索引擎模块从源语言大句库模块中找出与输入句子相同的源语句句子,发送至句子调出模块,句子调出模块根据源语句与多义句和同义句的对应关系,在多义句库模块和同义句库模块中找出与源语句句子对应关系的多义句和同义句,将源语句、多义句和同义句发送至显示模块显示。
本发明为了提高翻译的准确性,采用了多义句和同义句的“阶梯处理法”。当一个句子表达有多重意思时,该句子被称为多义句。使用者输入的源语言句子为一个多义句时,句子调出模块利用事先建立好的多义句库中的源语句与多义句的对应关系,查看源语句是否有多义句,若有多义句,判断出该句是多义句,在显示模块呈现过渡界面(阶梯界面),显示模块驱动的界面上罗列该源语句句子和源语句句子对应的多个意思的多义句。当多个句子表达相同意思时,该多个句子被称为同义句。使用者输入的源语言为一个同义句时,句子调出模块利用事先建立好的同义句库中的源语句与同义句的对应关系,查看源语句是否有同义句,若有同义句,判断出该句是同义句,在显示模块呈现过渡界面(阶梯界面),显示模块驱动的界面上罗列该源语句句子和源语句句子对应的多个相同意思的同义句。若没有多义句或同义句,则不显示多义句或同义句。这样,可以方便使用者准确选择需要被翻译的源语言句子,获得准确的翻译结果。
在一组句子中,每个句子表达的意思相同,例如:“这是我妻子”、“这是我太太”、“这是我老婆”具有想相同的含义,这样一组句子称为一组同义句,在源语句句子“这是我妻子”后面列出同义句句子“这是我太太”、“这是我老婆”。
搜索引擎模块从源语言大句库模块中没有找出与输入句子相同的源语句句子,搜索引擎模块将没有搜索到源语句句子的信息发送至句子调出模块,或人工操作句子调出模块,句子调出模块在多义句库模块和同义句库模块中找出与输入句子相同的多义句和同义句,根据多义句和同义句与源语句的对应关系,找出源语句句子,将源语句、多义句和同义句发送至显示模块显示。在源语句后面列出多义句和同义句。
四、使用者从显示模块驱动的界面显示的源语句、多义句和多义句中,选出与自己想要表达的语义最接近的句子,发送至使用者选择模块,使用者选择模块将使用者选出的句子转换成目标语言大句库中对应的编码,发送至目标语言大句库模块。
五、目标语言大句库模块根据编码找到目标语言中的相应句子,发送至翻译输出模块,翻译输出模块将翻译后的句子发送至文字输入输出模块,驱动显示模块显示。
显示模块设有源语言区域和目标语言区域,用于同时显示源语言和目标语言的句子,源语言区域和目标语言区域与语音输入输出模块连接。使用者给显示模块的源语言区域或目标语言区域输入发音信号(点击智能终端的显示屏幕的源语言区域或目标语言区域),语音输入输出模块驱动智能终端的喇叭发出相应句子的发音。
本发明的方法,可以是对任意两种语音之间的翻译。
实施例1,把汉语“他们在谈话”翻译成维吾尔语,选择源语言为汉语,目标语言为维吾尔语。文字输入“他们在谈话”,搜索引擎模块从源语言大句库模块中找到源语句句子“他们在谈话”,句子调出模块根据源语句在多义句库模块和同义句库模块中找出与源语句对应关系的多义句和同义句“他们在吃饭”,“他们在谈工作”,“他们”,“他们吃饭”多个句子,使用者从显示模块驱动的界面显示的源语句、多义句和同义句中,选出与自己想要表达的语义最接近的句子“他们在谈话”,使用者选择模块将使用者选出的句子转换成目标语言大句库中对应的编码,发送至目标语言大句库模块,目标语言大句库模块根据编码找到目标语言中的相应句子,发送至翻译输出模块,屏幕上出现汉语“他们在谈话”和维吾尔语文字,点击其中一种文字,可以听到相应的发音。
如图3所示,本实施例中,可以这么操作:先在智能手机输入界面中选择“汉语>维吾尔语”,之后在输入框用文字输入“他们在谈话”,点击“搜索“,此时界面上出现“他们在谈话”,“他们在吃饭”,“他们在谈工作”、“他们”,“他们吃饭”多个句子。点击“他们在谈话”,屏幕上会出现汉语“他们在谈话”和维吾尔语文字,点击其中一种文字,可以听到相应句子的发音。
实施例2,把汉语句子“我去上学了”翻译为英语,选择源语言为汉语,目标语言为英语。文字输入“我去上学了”,搜索引擎模块从源语言大句库模块中找到源语句句子,句子调出模块根据源语句在多义句库模块和同义句库模块中找出与源语句对应关系的多义句,“我去上学了”是多义句,译为英语时可以有不同翻译法。如果问话是“你昨天到哪里去了?”,回答可以是“我去上学了。”此时翻译应为“I went to school”。如果一个学生告诉别人他(她)将马上去学校,而说“我去上学了”,翻译应为“I am going to school”。为了避免翻译错误,阶梯界面上显示为两种表达:“我去了学校了”和“我现在去学校”,前者对应“I went to school”,后者对应“I am going to school”,使用者从显示模块驱动的界面选出与自己想要表达的语义最接近的句子,使用者选择模块将使用者选出的句子转换成目标语言大句库中对应的编码,发送至目标语言大句库模块,目标语言大句库模块根据编码找到目标语言中的相应句子,发送至翻译输出模块,屏幕上出现汉语“我去了学校了”或“我现在去学校”和英语文字,点击其中一种文字,可以听到相应的发音。如此可以使翻译更准确。
如图4所示,本实施例中,为了避免翻译错误,阶梯界面上可写为两种表达:“我去了学校了”和“我现在去学校”,前者对应“I went to school”,后者对应“I am going to school”,如此可以使翻译更准确。
实施例3,把汉语句子“这是我老公”译成英语,选择源语言为汉语,目标语言为英语。文字输入“这是我老公”,搜索引擎模块从源语言大句库模块中没有找到源语句句子,搜索引擎模块将没有搜索到源语句句子的信息发送至句子调出模块,句子调出模块在同义句库模块中找出与输入句子“这是我老公”同义的同义句,“这是我丈夫”,“这是我男人”句子,根据同义句与源语句的对应关系,找出源语句句子“这是我丈夫”,使用者从显示模块驱动的界面显示的源语句和同义句中,选出与自己想要表达的语义最接近的句子“这是我丈夫”,使用者选择模块将使用者选出的句子转换成目标语言大句库中对应的编码,发送至目标语言大句库模块,目标语言大句库模块根据编码找到目标语言中的相应句子,发送至翻译输出模块,屏幕上出现汉语“这是我老公”和英语“This is my husband”文字,点击其中一种文字,可以听到相应句子的发音。
如图5所示,本实施例中,在源语言大句库中的中文句子中没有“这是我老公”这句话,搜索不到,点击“同义句”,阶梯界面上会显示“这是我老公”“这是我丈夫”、“这是我男人”句子,“这是我丈夫”是源语言大句库中可以找到翻译的句子,点击得到翻译结果“This is my husband”。
实施例1~3中,可以采用联想启天M7300服务器,华为P9智能手机,visual C++程序语言实现。
本发明中的方法,通过统计日常生活和工作中常用源语言短句在会话中出现的频率,将最先出现的表示一个句意的句子作为源语句,再按句意相似或相同扩展源语句,形成多义句库和同义句库,以句库替代了传统方法中的词库,采用了完整句子对应完整句子的翻译方法,避免了“将源语言句子拆分为单词,翻译单词,再由目标语言单词组成句子”过程中,带来的各种语法错误,并采用了多义句和同义句的阶梯处理法,明显提高了翻译的准确度。