1.本发明涉及计算机技术领域,尤其涉及一种意图识别数据处理系统。
背景技术:2.随着人工智能的快速发展,意图识别在很多应用场景中尤为重要,例如语音识别、智能问答等应用场景。现有的意图识别技术主要基于闲聊等场景,但对于垂直领域的意图体系并不完善。以民航领域为例,现有的机场、航空公司的意图识别主要从客服沿用的知识库抽象而来,语料有限,且意图之间重叠、混淆的情况时有发生,无法实现意图界限分明、场景覆盖全面。部分现有技术的意图识别主要基于规则,缺乏灵活性,仅当用户输入的问题能够命中关键规则的时候,系统才能给到用户准确的意图识别结果,而用户的问题存在多样性、表述不规范及存在错别字等特点。此时,基于规则的方法则也很难准确识别用户意图。此外,现有的意图识别技术还缺乏对垂直领域基础知识的融合,以民航领域为例,民航业有很多专业性的词汇,包括航司名称、机场名称及简称、别名;甚至包括对于航班动态的掌握,目前的意图识别系统对于这些背景信息及民航知识图谱信息的融入很少,因此意图识别准确度低。由此可知,如何提高意图识别准确度成为亟待解决的技术问题。
技术实现要素:3.本发明目的在于,提供一种意图识别数据处理系统,提高了意图识别准确度。
4.根据本发明一方面,提供了一种意图识别数据处理系统,包括基于预设的垂直领域信息构建的知识图谱、意图分类模型,存储有计算机程序的存储器和处理器,当所述处理器在执行所述计算机程序时,实现以下步骤:步骤s1、获取用户query,并对所述用户query进行预处理,得到用户query的第一分词列表{q1,q2,
…
q
m
},m为用户query分词数量,q
i
为第i个分词,i的取值为1到m,初始化i=1,执行步骤s2;步骤s2、基于q
i
检索所述知识图谱,判断是否存在对应标签信息,若存在,则设置q
i’=q
i
+预设分隔符+t
i
+预设分隔符,其中,t
i
为q
i
对应的标签信息,否则,设置q
i’=q
i
;步骤s3、判断i是否小于m,若是,则设置i=i+1,返回执行步骤s2,否则,基于所有q
i’生成第二分词列表{ q1’
,q2’
,
…
q
m’};步骤s4、将{ q1’
,q2’
,
…
q
m’}转换为输入向量,将所述输入向量输入所述意图分类模型中,生成意图识别结果。
5.本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种意图识别数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本发明基于预设的垂直领域信息构建知识图谱和意图分类模型,基于知识图谱改写用户query,在模型输入中引入了分词在知识图谱上对应的标签信息,生成意图分类模型的输入,提高了意图分类模型的鲁棒性和准确性,从而提高了意图识别的准确性。
6.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
7.图1为本发明实施例提供的意图识别数据处理系统示意图。
具体实施方式
8.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种意图识别数据处理系统的具体实施方式及其功效,详细说明如后。
9.本发明实施例提供了一种意图识别数据处理系统,如图1所示,包括基于预设的垂直领域信息构建的知识图谱、意图分类模型,存储有计算机程序的存储器和处理器,其中,垂直领域是只做细分产业,是纵向分布的,垂直领域的意图识别具有自己领域的特殊性,例如民航领域、铁路运输领域等等。垂直领域的语料相较于传统领域的语料数量少很多,因此基于垂直领域信息构建的知识图谱近似于星型拓扑结构,而非网状结构,其能够涵盖该垂直领域的所有信息,使得知识图谱具有该垂直领域的普适性和侧重性,且能起到很好的语义消歧作用,从而提高对用户意图的识别能力。仍以民航领域为例,基于民航领域信息构建的知识图谱包括涉及购票、安检及托运流程、乘机服务、出入境规定等多方面信息。民航领域信息可以通过不同的数据源来获取,例如航旅app服务器、机场问答知识库、航空公司官网数据库信息、民航局刊发的航空旅行指南信息等等,本发明实施例对此不做限定。
10.当所述处理器在执行所述计算机程序时,实现以下步骤:步骤s1、获取用户query,并对所述用户query进行预处理,得到用户query的第一分词列表{q1,q2,
…
q
m
},m为用户query分词数量,q
i
为第i个分词,i的取值为1到m,初始化i=1,执行步骤s2;其中,query即的查询信息,具体可以为问句、陈述句或者词语等信息。
11.步骤s2、基于q
i
检索所述知识图谱,判断是否存在对应标签信息,若存在,则设置q
i’=q
i
+预设分隔符+t
i
+预设分隔符,其中,t
i
为q
i
对应的标签信息,否则,设置q
i’=q
i
;其中,通过添加对应标签信息可以起到语义消歧以及引入关键词信息等作用,以民航领域为例,标签信息具体可包括机场、航空公司、国内城市、机场大巴途径地点等等,本发明对具体的垂直领域以及具体标签信息不作限定。例如,地点信息,具体应该划归到酒店、机场大巴或是机场内服务设施导航往往存在歧义,知识图谱的引入可以起到消歧的作用。再如,t1、t2(航站楼),v1、v2(贵宾厅),民航领域内的很多简写,但专有名词有其特殊含义,是通用场景中无法习得的,通过知识图谱引入,可以引入其他关键信息,引导意图识别模型作出正确的意图判断。
12.步骤s3、判断i是否小于m,若是,则设置i=i+1,返回执行步骤s2,否则,基于所有q
i’生成第二分词列表{ q1’
,q2’
,
…
q
m’};步骤s4、将{ q1’
,q2’
,
…
q
m’}转换为输入向量,将所述输入向量输入所述意图分类模型中,生成意图识别结果。
13.需要说明的是,输入向量的具体形式可根据模型框架具体确定,例如可以直接基于{ q1’
,q2’
,
…
q
m’}中的每个分词分别转换为预设的字符构建输入向量,也可以是将{ q1’
,q2’
,
…
q
m’}中的每个字分别转换为对应的字符构建所述输入向量,其中所转换的字符具体可以为数字字符等。
14.作为一种实施例,所述系统还包括基于预设的垂直领域信息构建的第一语料库和意图类型信息,所述第一语料库中存储有预先标注意图类型的样本用户query,所述意图类型信息包括n个意图类型,当所述处理器在执行所述计算机程序时,还实现以下步骤:步骤s10、基于所述知识图谱、第一语料库、意图分类信息训练得到所述意图分类模型,具体可包括:步骤s101、构建意图分类模型框架,所述意图分类模型框架的输入为输入向量信息,输出为n维向量{p1,p2,
…
p
n
},其中,p
n
为输入向量信息属于第n意图类型的概率值,n的取值为1到 n ,p1+p2+
…
+p
n
=1;步骤s102、基于所述第一语料库构建样本用户query集合,基于每一样本用户query执行步骤s1至步骤s3,生成样本用户query对应的第二分词列表,并转换为样本输入向量,基于训练样本实际所述意图类型构建样本输出真实值;步骤s103、将所述样本输入向量输入所述意图分类模型框架得到样本输出预测值,基于所述样本输出真实值和所述样本输出预测值判断当前模型是否收敛,若收敛,则生成所述意图分类模型,否则,更新所述第一语料库,返回执行步骤s102。
15.需要说明的是,基于知识图谱生成意图分类模型的输入向量涉及异质信息融合,由于知识图谱和意图分类模型的输入是两个独立的向量空间,因此无法直接融合,本发明实施例基于知识图谱来确定标签信息,然后再添加到对应的分词上,可以理解的是,q
i
+预设分隔符+t
i
+预设分隔符,包括将预设分隔符+t
i
+预设分隔符添加到q
i
之前,或者将预设分隔符+t
i
+预设分隔符添加到q
i
之后,但所有q
i
添加的前后位置是一致的。需要说明的是,由于本发明实施例所述的应用场景中,第一语料库中的语料数量有限,且垂直领域的语料具有侧重性,因此大多模型框架采用有监督训练的模式很难使模型收敛。作为一种优选实施例,意图分类模型框架为基于bert调整得到的多分类模型框架,对应地,需要将{ q1’
,q2’
,
…
q
m’}中的每个字分别转换为对应的字符构建所述输入向量,且本发明通过在原文本添加标签信息,通过无监督的方式引入知识图谱标签信息,无需进行进一步的预训练过程,直接增加知识图谱标签信息对一整句话的影响相对平缓,且能强调重点分词,对模型稍加训练即可达到收敛效果,提高了模型训练的效率,且能提升模型的鲁棒性。
16.由于第一语料库中样本数量有限,因此可在模型训练过程中,扩充第一语料库,提高模型训练效率,作为一种实施例,所述系统还包括基于预设的垂直领域信息构建的第二语料库,所述第二语料库中存储有未标注意图类型的用户query;所述步骤s103中,更新所述第一语料库,包括:步骤s113、从所述第二语料库中获取第一候选用户query集合,基于每一候选用户query执行步骤s1至步骤s3,生成候选用户query对应的第二分词列表,并转换为候选输入向量;步骤s114、将所述候选输入向量输入当前意图分类模型框架中得到候选输出预测值,将所述候选输出预测值输出至预设显示装置进行验证;
其中,具体可直接通过人工验证。
17.步骤s115、基于验证结果获取第一候选用户query集合得到的每一意图类型的准确率,将准确率低于预设的准确率阈值的候选用户query标注意图类型,添加到所述第一语料库中。
18.需要说明的是,通过步骤s115可以确定当前哪一类型的意图对应的样本用户query准确度低,并对应补充,均衡样本,提高样本精确度,进而提高意图识别模型的收敛速度。
19.作为一种实施例,所述步骤s103还包括:步骤s116、获取max(p
n
)小于预设的概率阈值的候选用户query构建第二候选用户query集合;步骤s117、将所述第二候选用户query集合中的候选用户query逐一输出至预设显示装置,若接收到用户输入的意图类型标注信息,则对该候选用户query标注对应的意图类型,添加到所述第一语料库中。
20.需要说明的是,第二候选用户query集合中存储的是无法通过当前意图识别模型识别的候选用户query,可能是当前模型精确度不够、也可能是模型对该候选用户query对应的意图类型不敏感,因此,从第二候选用户query集合中标注意图类型,能够提高样本精确度,使得模型也能尽快学习到敏感性低的样本类型,进而提高意图识别模型的收敛速度。
21.作为一种实施例,所述系统还包括基于预设的垂直领域信息构建的特征词映射表和分词词库,所述步骤s1中,对所述用户query进行预处理,得到用户query的第一分词列表{q1,q2,
…
q
m
},包括:步骤s11、基于预设的特征词格式对用户query进行格式转换;其中,格式转换具体可包括字母大小写转换、全角半角转换等。
22.步骤s12、基于所述分词词库将格式转换后的用户query进行分词,得到待处理分词列表;步骤s13、根据所述特征词映射表对所述待处理分词列表中的分词进行改写和/或纠错处理,生成{q1,q2,
…
q
m
}。
23.其中,分词改写处理具体包括简称改全称,别名改标准行程,也包括基于用户信息增加的默认信息等等,所述默认信息可包括用户的位置信息。分词改写还可包括对省略语句扩充等等。
24.分词纠错处理具体可包括基于预设的错别字词典纠错、基于编辑距离的纠错及基于模型的纠错。基于预设的错别字词典纠错通过分析历史用户问题日志里的常见错误,总结出用户易错问题,并进行纠正;编辑距离指的是在两个单词<w1,w2>之间,由其中一个单词w1,转换为另一个单词w2所需要的最少单字符编辑操作次数。
25.与一般场景的纠错不同,本发明实施例的分词纠错处理更关注预设的垂直领域内问题。为此,通过分析智能客服问答日志,对常见问题进行整理和总结,构建了对应垂直领域的纠错词典,实现垂直领域问题的理解和纠错,提高了用户query预处理的准确性。此外,在语音转文字的纠错中,采用拼音编辑距离对文本进行纠错,编辑距离较小的正确结果对文本进行纠错和替换;基于模型的纠错具体可引入的seq2seq模型,通过标注整理易错问题数据,训练纠错模型并完成纠错任务。
26.作为一种实施例,所述知识图谱包括特征词与标签信息的映射关系,所述标签信息包括共有标签信息和独有标签信息,所述独有标签信息中包括参考信息和独有标签,所述步骤s2包括:步骤s21、基于q
i
检索所述知识图谱,若存在q
i
对应的单个标签信息,则将该标签信息确定为待处理标签信息,执行步骤s23,若存在多个标签信息,则执行步骤s22;步骤s22、将多个标签信息呈现在预设显示装置上,若在预设时间内接收到选择信息,则将选择的标签信息确定为待处理标签信息,若超过预设时间未接收到选择信息,则将预设的默认标签信息确定为待处理标签信息,执行步骤s23;步骤s23、若所述待处理标签信息为共有标签信息,则将所述待处理标签信息确定为q
i
的标签信息,若所述待处理标签信息为独有标签信息,则执行步骤s24;步骤s24、提取用户query对应的参考信息,若所述query对应的参考信息与独有标签信息对应的参考信息相同,则将对应的独有标签确定为q
i
的标签信息,否则,q
i
进行分词,将每一分词作为q
i
,返回执行步骤s21。
27.通过步骤s21
‑
步骤s24能够基于知识图谱快速地为每一分词确认对应的标签信息,且通过划分共有标签信息和独有标签信息进行判断,提高了标签信息的针对性,能够使得获取到的标签信息更加准确。
28.作为一种实施例,所述步骤s4包括:步骤s41、将所述输入向量输入所述意图分类模型中,输出{p
i1
,p
i2
,
…
p
in
},p
in
为q
i
属于的第n意图类型的概率;步骤s42、判断max(p
in
)是否小于预设的概率阈值,若大于等于,则将第x类型确定为所述意图识别结果,x=argmax(p
in
),否则,将所述意图识别结果确定为除所述n个意图类型的其他类型。
29.通过意图分类模型能够快速获取用户query对应的意图,但部分意图类型在下基于意图分类模型的结果还无法准确获取到用户真正的意图,因此可对意图识别结果进行进一步修正,作为一种实施例,所述系统还包括预设意图类型列表,所述预设意图类型列表中存储的便是需要进一步判断的意图类型,具体包括预设意图类型以及对应的至少一个参考信息和子意图,参考信息具体可包括位置信息、行程信息等等。所述步骤s4之后还包括:步骤s5、判断所述意图识别结果是否属于所述预设意图类型列表,若是,则提取用户query对应的参考信息;其中,参考信息具体可以直接基于用户query提取,若无法直接提取到,则可结合对应的背景信息进行提取,具体可以设置其他数据库,例如用户行程信息数据库等,基于其他数据库的对应信息来确定用户query对应的参考信息。
30.步骤s6、基于所述用户query对应的参考信息与所述预设意图类型列表进行配,确定对应的子意图。
31.本发明一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,部分步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
32.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽
然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。