一种语料生成方法、语料生成装置及智能设备与流程

文档序号:20779508发布日期:2020-05-19 21:06阅读:来源:国知局

技术特征:

1.一种语料生成方法,其特征在于,包括:

接收输入语句;

对所述输入语句进行实体词语识别;

若所述输入语句存在一个以上实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有一个以上词槽组合,每一词槽组合至少包括一个词槽;

基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上实体词语进行匹配及替换,得到一个以上替换语料。

2.如权利要求1所述的语料生成方法,其特征在于,所述基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上实体词语进行匹配及替换,得到一个以上替换语料,包括:

基于所述词槽组合列表,生成一个以上词槽组合树,其中,包含相同词槽的词槽组合之间形成同一词槽组合树中的子节点及父节点;

若所述输入语句所包含的实体词语中,存在能够与目标词槽组合树中的根节点相匹配的实体词语,则基于所述目标词槽组合树对所述输入语句中的各个实体词语进行匹配及替换,得到一个以上替换语料,其中,所述目标词槽组合为任一词槽组合树。

3.如权利要求2所述的语料生成方法,其特征在于,所述基于所述目标词槽组合树对所述输入语句中的各个实体词语进行匹配及替换,得到一个以上替换语料,包括:

以所述目标词槽组合树的根节点为起点,根据父节点至子节点的顺序依次将所述目标词槽组合树中的各个词槽组合与所述输入语句中的实体词语进行匹配及替换,得到一个以上替换语料。

4.如权利要求1所述的语料生成方法,其特征在于,所述基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上实体词语进行匹配及替换,得到一个以上替换语料,包括:

检测所述输入语句的各个实体词语之间,是否存在重叠;

若有存在重叠的一个以上实体词语,则分别统计存在重叠的一个以上实体词语的长度;

在存在重叠的一个以上实体词语中,将长度最长的实体词语作为待替换实体词语,并将不存在重叠的实体词语作为待替换实体词语;

基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上待替换实体词语进行匹配及替换,得到一个以上替换语料。

5.如权利要求1至4任一项所述的语料生成方法,其特征在于,在所述得到一个以上替换语料之后,所述语料生成方法还包括:

将各个替换语料输入至已训练的意图识别模型中,得到各个替换语料的意图得分及语言模型得分;

基于各个替换语料的意图得分及语言模型得分,确定目标替换语料;

将所述目标替换语料的意图确定为所述输入语句的意图。

6.如权利要求5所述的语料生成方法,其特征在于,所述将各个替换语料输入至已训练的意图识别模型中,得到各个替换语料的意图得分及语言模型得分,包括:

将目标替换语料输入至已训练的意图识别模型中,得到所述目标替换语料属于各个意图类别的意图得分及所述目标替换语料的语言模型得分,其中,所述目标替换语料为任一替换语料;

根据所述目标替换语料所包含的词槽确定目标词槽组合;

将所述目标词槽组合所对应的意图类别确定为所述目标替换语料所属的意图类别;

将所述目标替换语料所属的意图类别的意图得分确定为所述目标替换语料的意图得分。

7.如权利要求5所述的语料生成方法,其特征在于,所述基于各个替换语料的意图得分及语言模型得分,确定目标替换语料,包括:

检测是否存在符合预设的第一条件的替换语料,所述第一条件为:意图得分大于预设的意图得分阈值,且语言模型得分大于预设的语言模型得分阈值;

若存在符合所述第一条件的替换语料,则分别计算各个符合所述第一条件的替换语料的得分总值,并将符合所述第一条件的替换语料中得分总值最高的替换语料确定为目标替换语料,其中,得分总值为意图得分与语言模型得分的和;

若不存在符合所述第一条件的替换语料,则检测是否存在符合预设的第二条件的替换语料,所述第二条件为:意图得分大于预设的意图得分阈值;

若存在符合所述第二条件的替换语料,则分别计算各个符合所述第二条件的替换语料的得分总值,并将符合所述第二条件的替换语料中得分总值最高的替换语料确定为目标替换语料。

8.一种语料生成装置,其特征在于,包括:

接收单元,用于接收输入语句;

识别单元,用于对所述输入语句进行实体词语识别;

获取单元,用于若所述输入语句存在一个以上实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有一个以上词槽组合,每一词槽组合至少包括一个词槽;

生成单元,用于基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上实体词语进行匹配及替换,得到一个以上替换语料。

9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。


技术总结
本申请公开了一种语料生成方法、语料生成装置、智能设备及计算机可读存储介质,其中,该方法包括:接收输入语句;对所述输入语句进行实体词语识别;若所述输入语句存在一个以上实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有一个以上词槽组合,每一词槽组合至少包括一个词槽;基于所述词槽组合列表中所包含的词槽组合,对所述输入语句所包含的一个以上实体词语进行匹配及替换,得到一个以上替换语料。本申请方案通过预设的词槽组合列表对词槽替换作出限制,避免以无效的词槽组合对输入语句进行词槽替换,可以一定程度上减少错误的替换语料的生成,实现后续对替换语料的处理效率的提升。

技术研发人员:黄日星;熊友军
受保护的技术使用者:深圳市优必选科技股份有限公司
技术研发日:2019.12.26
技术公布日:2020.05.19
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1