一种文本类型确定方法及装置与流程

文档序号:20684516发布日期:2020-05-08 18:42阅读:来源:国知局

技术特征:

1.一种文本类型确定方法,其特征在于,包括:

获得待检测对话文本;

通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;

对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;

将确定的预设文本类型确定为该文本的文本类型。

2.根据权利要求1所述的方法,其特征在于,所述获得待检测对话文本包括:

获得对话语音;

对所述对话语音进行语音识别,获得语音识别结果;

将所述语音识别结果转化为待检测对话文本。

3.根据权利要求1所述的方法,其特征在于,所述获得该文本对应的词组向量,包括:

对该文本进行结巴分词处理,获得分词结果向量;

对所述分词结果向量进行停用词过滤处理,获得词组向量。

4.根据权利要求1所述的方法,其特征在于,所述场景分类模型的训练过程可以包括:

获得携带有场景类别标记的训练对话文本;

对所述训练对话文本进行结巴分词处理,获得训练分词结果向量;

对所述训练分词结果向量进行停用词过滤处理,获得训练词组向量;

对所述训练词组向量进行机器学习,获得场景分类模型,其中,所述场景分类模型的输入为:文本对应的词组向量,输出为:与该文本对应的场景类型。

5.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:

在所述场景类型对应的每种预设文本类型的词库:确定该文本是否包含该词库中的词汇,如果是,则确定该文本与该预设文本类型匹配。

6.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:

在所述场景类型对应的每种预设文本类型的文本模板库:确定该文本与该文本模板库中各文本模板的相似度,当该文本与该文本模板库中至少一个文本模板的相似度大于预设阈值时,则确定该文本与该预设文本类型匹配。

7.根据权利要求1所述的方法,其特征在于,所述在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型,包括:

将该文本输入该文本对应的场景类型的文本类型识别模型中,获得文本类型识别模型输出的文本类型。

8.一种文本类型确定装置,其特征在于,包括:对话文本获得单元、指定角色文本获得单元、词组向量获得单元、场景类型获得单元、文本类型匹配单元和文本类型确定单元,

所述对话文本获得单元,用于获得待检测对话文本;

所述指定角色文本获得单元,用于通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;

所述词组向量获得单元,用于对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量;

所述场景类型获得单元,用于将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型;

所述文本类型匹配单元,用于在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;

所述文本类型确定单元,用于将确定的预设文本类型确定为该文本的文本类型。

9.根据权利要求8所述的装置,其特征在于,所述对话文本获得单元包括:对话语音获得子单元、语音识别结果获得子单元和对话文本转化子单元,

所述对话语音获得子单元,用于获得对话语音;

所述语音识别结果获得子单元,用于对所述对话语音进行语音识别,获得语音识别结果;

所述对话文本转化子单元,用于将所述语音识别结果转化为待检测对话文本。

10.根据权利要求8所述的装置,其特征在于,所述词组向量获得单元包括:分词结果向量获得子单元和词组向量获得子单元,

所述分词结果向量获得子单元,用于对该文本进行结巴分词处理,获得分词结果向量;

所述词组向量获得子单元,用于对所述分词结果向量进行停用词过滤处理,获得词组向量。


技术总结
本发明公开了一种文本类型确定方法及装置,可以获得待检测对话文本;通过与角色对应的角色用语库,识别所述待检测对话文本中指定角色对应的至少一个文本;对所述指定角色对应的所述至少一个文本中的任一个文本:获得该文本对应的词组向量,将所述词组向量输入至预先训练好的场景分类模型中,获得所述场景分类模型输出的与该文本对应的场景类型,在所述场景类型对应的各种预设文本类型中,确定与该文本匹配的预设文本类型;将确定的预设文本类型确定为该文本的文本类型。本发明可以通过场景分类的技术手段确定对话文本的文本类型。

技术研发人员:秦艳婷;李思雯;陈健
受保护的技术使用者:慧择保险经纪有限公司
技术研发日:2019.12.31
技术公布日:2020.05.08
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1