一种终端设备及目标语料模板的生成方法与流程

文档序号:37548992发布日期:2024-04-08 13:56阅读:11来源:国知局
一种终端设备及目标语料模板的生成方法与流程

本申请涉及自然语言理解,尤其涉及一种终端设备及目标语料模板的生成方法。


背景技术:

1、人机交互是指通过计算机等输入、输出的终端设备,以有效的方式实现人与终端设备对话的技术。例如,多语言对话系统即是人机交互的领域之一。在多语言对话系统的应用场景中,可以获取到某个语种的训练语料,如中文的训练语料,之后,通过该训练语料可以获取到该语种对应的语料模板,即,可以获取到中文的语料模板。然而,在多语言对话系统中,通常情况下只能获取到某个语种的语料模板,如上述中文语料模板。

2、为了获取到其他语种的语料模板,可以购买其他语种的训练数据来生成对应语种的语料模板,或者,通过人工翻译获得对应语种的语料模板,但无论采用上述哪种方式,都增加了使用成本。因此,在不增加使用成本、不改变现有系统框架的基础上,为了获得其他语种的语料模板,可以通过直译某一种现有语料模板的方式如直译中文模板的方式获取其他语种的语料模板,即,既要保持原文内容、又保持原文形式的翻译方法。

3、但是,在直译的过程中,针对无槽位或者有槽位但语法相近的两种语言,直译效果还基本满足使用需求。但是,大部分语种的语料模板在直译的过程中,会出现明显的语法错误,导致待翻译的其他语种语料模板即目标语料模板准确率低,影响用户的体验感。


技术实现思路

1、本申请提供一种终端设备及目标语料模板的生成方法,可以提升目标语料模板的准确率,进而提升用户的体验感。

2、第一方面,本申请一些实施例提供一种终端设备,包括:

3、显示器,被配置为显示用户界面;

4、控制器,被配置为:

5、计算源语料模板中的实体翻译结果,以生成种子实体;

6、选定待翻译源语料模板,以及,根据所述种子实体对所述待翻译源语料模板执行实体填充;

7、翻译填充后的待翻译源语料模板,以生成目标语料;

8、将所述目标语料中的种子实体替换为槽位类型,以生成目标语料模板。

9、在一些实施例中,所述控制器执行计算源语料模板中的实体翻译结果,以生成种子实体的步骤,进一步被配置为:

10、选定源语料模板,确定所述源语料模板中的固定实体和待翻译实体;对所述固定实体和所述待翻译实体进行填充,生成填充模板;翻译所述填充模板,以生成翻译语料;对所述翻译语料执行分词,以及计算各个分词结果的统计得分;根据所述统计得分确定所述源语料模板中的实体翻译结果;根据所述实体翻译结果确定种子实体。

11、在一些实施例中,所述控制器执行翻译所述填充模板,以生成翻译语料的步骤,进一步被配置为:

12、将所述填充模板输入神经网络模型,所述神经网络模型用于对所述填充模板执行解译;获取所述神经网络模型输出的对所述填充模板的解译结果;基于机器翻译的方式翻译所述解译结果,以生成翻译语料。

13、在一些实施例中,所述控制器执行对所述翻译语料执行分词的步骤,进一步被配置为:

14、基于n-gram算法设定预设数量个词单位的划分长度;按照所述划分长度对所述翻译语料执行分词。

15、在一些实施例中,所述控制器执行计算各个分词结果的统计得分的步骤,进一步被配置为:

16、为所述分词结果赋予初始分数;遍历所述翻译语料,以获取所述分词结果的出现次数;根据所述初始分数和所述出现次数计算所述分词结果的统计得分。

17、在一些实施例中,所述控制器执行根据所述统计得分确定所述源语料模板中的实体翻译结果的步骤之前,进一步被配置为:

18、识别所述分词结果中的停用词;删除所述分词结果中的停用词,以生成筛选词;计算所述筛选词的统计得分,以及,根据所述统计得分确定所述源语料模板中的实体翻译结果。

19、在一些实施例中,所述控制器执行根据所述统计得分确定所述源语料模板中的实体翻译结果的步骤,进一步被配置为:

20、遍历所述分词结果的统计得分;对所述统计得分执行降序排列,以获取所述统计得分的最大值;获取所述最大值对应的分词结果;将所述分词结果对应的实体语义值作为所述源语料模板中的实体翻译结果。

21、在一些实施例中,所述控制器执行根据所述种子实体对所述待翻译源语料模板执行实体填充的步骤,进一步被配置为:

22、遍历所述待翻译源语料模板,以获取所述待翻译源语料模板的槽位;获取所述种子实体与所述槽位的对应关系;根据所述种子实体和所述对应关系填充所述待翻译源语料模板的槽位。

23、在一些实施例中,所述控制器执行将所述目标语料中的种子实体替换为槽位类型,以生成目标语料模板的步骤,进一步被配置为:

24、识别所述目标语料中的种子实体;获取所述种子实体在所述目标语料中的位置;根据所述种子实体在所述目标语料中的位置将所述目标语料中的所述种子实体替换为槽位类型,以生成目标语料模板。

25、由以上技术方案可知,本申请一些实施例提供一种终端设备,可以计算源语料模板中的实体翻译结果,以生成种子实体,生成种子实体后,可以选定待翻译源语料模板,以及根据种子实体对待翻译源语料模板执行实体填充。填充完成后,通过翻译填充后的待翻译源语料模板生成目标语料,并将目标语料中的种子实体替换为槽位类型,最终生成目标语料模板。通过本申请技术方案获得的目标语料模板翻译的准确率更高、更符合相应语种的语法规则,通过某一种已知的源语料模板可以获取到其他语种的目标语料模板,从而可以解决不同语种之间语料模板的冷启动问题。同时,该方式无需额外使用目标语种的训练语料,从而可以减少使用成本,提升用户体验。

26、第二方面,本申请一些实施例还提供一种目标语料模板的生成方法,该方法可以应用于第一方面的终端设备,所述终端设备包括显示器和控制器,所述目标语料模板的生成方法包括:

27、计算源语料模板中的实体翻译结果,以生成种子实体;

28、选定待翻译源语料模板,以及,根据所述种子实体对所述待翻译源语料模板执行实体填充;

29、翻译填充后的待翻译源语料模板,以生成目标语料;

30、将所述目标语料中的种子实体替换为槽位类型,以生成目标语料模板。

31、由以上技术方案可知,本申请一些实施例提供一种目标语料模板的生成方法,该方法可以提升目标语料模板翻译的准确率,使目标语料模板更符合相应语种的语法规则。通过某一种已知的源语料模板可以获取到其他语种的目标语料模板,从而可以解决不同语种之间语料模板的冷启动问题。同时,该方式无需额外使用目标语种的训练语料从而可以减少使用成本,提升用户体验。



技术特征:

1.一种终端设备,其特征在于,包括:

2.根据权利要求1所述的终端设备,其特征在于,所述控制器执行计算源语料模板中的实体翻译结果,以生成种子实体的步骤,进一步被配置为:

3.根据权利要求2所述的终端设备,其特征在于,所述控制器执行翻译所述填充模板,以生成翻译语料的步骤,进一步被配置为:

4.根据权利要求2所述的终端设备,其特征在于,所述控制器执行对所述翻译语料执行分词的步骤,进一步被配置为:

5.根据权利要求2所述的终端设备,其特征在于,所述控制器执行计算各个分词结果的统计得分的步骤,进一步被配置为:

6.根据权利要求2所述的终端设备,其特征在于,所述控制器执行根据所述统计得分确定所述源语料模板中的实体翻译结果的步骤之前,进一步被配置为:

7.根据权利要求2所述的终端设备,其特征在于,所述控制器执行根据所述统计得分确定所述源语料模板中的实体翻译结果的步骤,进一步被配置为:

8.根据权利要求1所述的终端设备,其特征在于,所述控制器执行根据所述种子实体对所述待翻译源语料模板执行实体填充的步骤,进一步被配置为:

9.根据权利要求1所述的终端设备,其特征在于,所述控制器执行将所述目标语料中的种子实体替换为槽位类型,以生成目标语料模板的步骤,进一步被配置为:

10.一种目标语料模板的生成方法,其特征在于,应用于终端设备,所述终端设备包括显示器和控制器,所述目标语料模板的生成方法包括:


技术总结
本申请提供一种终端设备及目标语料模板的生成方法,通过终端设备可以计算源语料模板中的实体翻译结果以生成种子实体,生成种子实体后,可以选定待翻译源语料模板,并根据种子实体对待翻译源语料模板执行实体填充。填充完成后,通过翻译填充后的待翻译源语料模板生成目标语料,并将目标语料中的种子实体替换为槽位类型生成目标语料模板。通过本方案获得的目标语料模板准确率更高、更符合相应语种的语法规则,通过已知的源语料模板可以获取到其他语种的目标语料模板,从而可以解决不同语种之间语料模板的冷启动问题。同时,该方式无需额外使用目标语种的训练语料,从而可以减少使用成本,提升用户体验。

技术研发人员:胡仁林,朱守勤
受保护的技术使用者:VIDAA国际控股(荷兰)公司
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1