本技术涉及翻译,尤其涉及一种平行语料筛选方法、平行语料筛选设备和计算机可读存储介质。
背景技术:
1、随着互联网技术的高速发展,人与人之间的时空距离骤然缩短,国际交往日益频繁便利。为了方便使用不同语言的人们之间畅通无阻的交流,以及实现不同语种的文字材料间快速翻译,机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。
2、在相关技术中,大部分的机器翻译模型都是以数据驱动,在语料集上对模型进行训练,得到表现良好的参数结果,应用在系统中。对于机器翻译模型的质量优劣的评价,一个高质量的语料起到非常重要的作用。厂商一般通过计算抽取到的双语语料的互译匹配率,进而通过互译匹配率来筛选高质量的语料。
3、而在相关技术中,仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求。
技术实现思路
1、本技术实施例通过提供一种平行语料筛选方法、平行语料筛选设备和计算机可读存储介质,解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
2、本技术实施例提供了一种平行语料筛选方法,所述平行语料筛选方法包括:
3、对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;
4、根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;
5、当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;
6、筛选所述词共现率大于或者等于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料。
7、可选地,所述对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句的步骤包括:
8、根据语种提取算法,按照语种类型将所述双语语料分割成所述第一语种以及所述第二语种;
9、根据语料切割算法,确定所述第一语种对应的所述第一语句,以及所述第二语种对应的所述第二语句,其中,所述第一语句与所述第二语句为相关联的句子。
10、可选地,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤包括:
11、获取所述第一语句或所述第二语句中的字符;
12、根据预设的编码格式确定所述字符对应的编码值;
13、根据所述编码值确定所述第一语句以及所述第二语句中有效字符所占比重,根据所述比重确定所述第一语句的第一有效度,以及所述第二语句的第二有效度;
14、获取模型训练库,根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度;
15、若所述第一有效度以及所述第二有效度都大于或者等于第一阈值,且所述第一流畅度以及所述第二流畅度都大于或者等于第二阈值,判定满足所述双语清洗要求。
16、可选地,所述根据所述模型训练库确定所述第一语句的第一流畅度,以及所述第二语句的第二流畅度的步骤包括:
17、将所述第一语句或所述第二语句分割成基本单词;
18、从第一个所述基本单词开始,确定所述基本单词的前序单词以及后序单词,当所述前序单词、所述基本单词以及所述后序单词组成的词组与所述模型训练库匹配时,记所述词组为流畅词组,直至遍历全部的所述基本单词;
19、获取所述流畅词组对应的单词,根据所述单词的数量占所述基本单词的比重,确定所述第一流畅度以及所述第二流畅度。
20、可选地,所述确定关联的所述第一语句和所述第二语句之间的词共现率的步骤包括:
21、确定所述双语语料对应的数据量;
22、当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;
23、根据所述第一基本单词以及所述第二基本单词,确定所述第一语句和所述第二语句之间的所述词共现率。
24、可选地,所述根据所述第一基本单词以及所述第二基本单词,确定所述第一语句以及所述第二语句的词共现率的步骤包括:
25、根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;
26、确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。
27、可选地,所述确定所述待筛选语料对应的数据量的步骤之后,还包括:
28、当所述数据量小于或者等于数据阈值时,确定所述待筛选语料对应的翻译模型;
29、根据所述翻译模型对所述第一语句以及所述第二语句的匹配程度进行评分;
30、基于评分结果确定所述第一语句与所述第二语句间的所述词共现率。
31、可选地,所述根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求的步骤之后,还包括:
32、当所述第一语句以及所述第二语句满足所述双语清洗要求时,确定所述第一语句对应的第一词向量,以及所述第二语句对应的第二词向量;
33、确定所述第一词向量对应的第一句向量,以及所述第二词向量对应的第二句向量;
34、确定所述第一句向量以及所述第二句向量的欧式距离;
35、当所述欧式距离小于距离阈值时,将所述第一语句以及所述第二语句关联保存为训练目标语料。
36、此外,本技术还提出一种平行语料筛选设备,所述平行语料筛选设备包括存储器、处理器及存储在存储器上并可在处理器上运行的平行语料筛选程序,所述处理器执行所述平行语料筛选程序时实现如上所述的平行语料筛选方法的步骤。
37、此外,本技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有平行语料筛选程序,所述平行语料筛选程序被处理器执行时实现如上所述的平行语料筛选方法的步骤。
38、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
39、1、由于采用了对待筛选的双语语料进行分句处理,确定第一语种对应的第一语句和第二语种对应的第二语句;根据所述第一语句和所述第二语句对应的有效度和流畅度,确定所述双语语料是否满足双语清洗要求;当所述双语语料满足所述双语清洗要求时,确定关联的所述第一语句和所述第二语句之间的词共现率;筛选所述词共现率大于预设阈值的所述第一语句和所述第二语句,关联保存为训练目标语料,所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。
40、2、由于采用了确定所述双语语料对应的数据量;当所述数据量大于数据阈值时,确定所述第一语句对应的第一基本单词,以及所述第二语句对应的第二基本单词;根据语义识别算法,当所述第一基本单词以及所述第二基本单词语义匹配时,判定所述第一基本单词与所述第二基本单词词共现;确定词共现的所述第一基本单词的数量与所述第一语句单词数量的比值,根据所述比值确定所述词共现率。所以,有效解决了相关技术中仅通过互译匹配率筛选语料所得到的结果往往存在许多病句,并不能满足质量要求的技术问题,实现了高效率提取高质量语料的技术效果。