本申请实施例涉及自然语言处理,特别涉及一种翻译方法、装置、设备、介质及程序产品。
背景技术:
1、分词技术是一项基础的自然语音处理(natural language processing,nlp)底层技术。例如,在句子翻译的过程中,首先需要将待翻译的句子拆分成词,基于拆分后的词生成词序列,之后对词序列进行编码与解码,最终输出翻译后的句子。
2、常见的中文分词工具有jieba分词工具、pkuseg分词工具、以及swcs分词工具等。不同的分词工具对同一句子会产生总体相似、细节不同的分词结果。尤其是对新词和专有名词,不同分词工具会因训练语料的不同,而展示出不同的切分方式。
技术实现思路
1、本申请实施例提供了一种翻译方法、装置、设备、介质及程序产品。所述技术方案如下:
2、根据本申请的一方面内容,提供了一种翻译方法,所述方法包括:
3、通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;
4、通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;
5、通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;
6、从所述至少两个解码结果中确定出翻译结果。
7、根据本申请的另一方面内容,提供了一种翻译装置,所述装置包括:
8、分词模块,用于通过至少两种分词方式对待翻译句子进行分词处理,得到至少两个词序列;
9、编码模块,用于通过翻译模型对所述至少两个词序列进行嵌入编码,得到至少两个编码向量;
10、解码模块,用于通过所述翻译模型对所述至少两个编码向量进行解码,得到至少两个解码结果;
11、输出模块,用于从所述至少两个解码结果中确定出翻译结果。
12、根据本申请的另一方面内容,提供了一种计算机设备,所述计算机设备包括处理器、与所述处理器相连的存储器,所述存储器上存储有程序指令,所述处理器执行所述程序指令时实现如本申请各个方面提供的翻译方法。
13、根据本申请的另一方面内容,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时实现如本申请各个方面提供的翻译方法。
14、根据本申请的另一个方面内容,提供了一种计算机程序产品(或计算机程序),所述计算机程序产品(或计算机程序)包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令时实现如本申请各个方面提供的翻译方法。
15、根据本申请的另一个方面内容,提供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时,用于实现如本申请各个方面提供的翻译方法。
16、本申请实施例提供的技术方案带来的有益效果可以包括:
17、本申请提供的翻译方法,采用多种分词方式对待翻译句子进行分词处理,得到多个词序列,之后通过翻译模型同时针对多个词序列进行编码与解码,得到多个解码结果,也即得到多个待选的翻译结果,从多个待选的翻译结果中确定出一个翻译结果。上述翻译方法中采用多种分词方式,缓解了新词和专业词在一种分词方式下切分不准确的问题,同时针对各种分词方式对应的词序列进行翻译,从中选取出更准确地翻译结果,提升了模型鲁棒性。
1.一种翻译方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述至少两种分词方式包括第一分词方式和第二分词方式;
3.根据权利要求2所述的方法,其特征在于,所述通过所述第一分词方式将所述待翻译句子拆分成字与词,生成第一词序列;通过所述第二分词方式将所述待翻译句子拆分成字与词,生成第二词序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述第一子词序列和所述第二子词序列作为一个整体,将序列中目标词频对应的子词拆分成字,得到所述第一子词序列对应的所述第一词序列和所述第二子词序列对应的所述第二词序列,包括:
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1至4任一所述的方法,其特征在于,所述从所述至少两个解码结果中确定出翻译结果,包括:
7.根据权利要求1至4任一所述的方法,其特征在于,所述翻译模型的训练过程包括:
8.一种翻译装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器相连的存储器,所述存储器上存储有程序指令,所述处理器执行所述程序指令时实现如权利要求1至7任一所述的翻译方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时实现如权利要求1至7任一所述的翻译方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至7任一所述的翻译方法。