运维指令意图识别方法、装置、电子设备和存储介质与流程

文档序号:31563188发布日期:2022-09-20 18:37阅读:35来源:国知局
运维指令意图识别方法、装置、电子设备和存储介质与流程

1.本发明涉及运维业务支撑技术领域,尤其涉及一种运维指令意图识别方法、装置、电子设备和存储介质。


背景技术:

2.随着自然语言处理技术(natural language processing,nlp)的发展,聊天机器人已经扩展到运维领域。通过与运维机器人进行人机交互,以一问一答的方式轻松完成运维动作,可以大幅度提高运维人员工作效率,从繁杂的重复性工作中解放出来。
3.目前,运维机器人的执行流程包括理解用户输入指令的意图,并执行意图对应的动作。其中,意图理解任务多通过文本分类或者相似度匹配的方式实现。但是在机器人场景下,用户在使用过程中可能会输入大量不可预知的其他类别的问题,导致文本分类的实现难度极大。而由于运维指令多为短文本,其中一两个非关键词就可能会直接影响到相似度匹配的可靠性,导致相似度匹配在运维场景下的准确率欠佳。


技术实现要素:

4.本发明提供一种运维指令意图识别方法、装置、电子设备和存储介质,用以解决现有的运维指令意图识别方法可靠性差、错误率高的问题。
5.本发明提供一种运维指令意图识别方法,包括:
6.确定待识别的运维指令中的通用分词和领域分词;
7.基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;
8.将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
9.根据本发明提供的一种运维指令意图识别方法,对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词;
10.从所述运维指令的所有分词中删除所述运维实体分词,并对剩余的各分词进行领域词匹配,将匹配成功的分词作为领域分词,将匹配失败的分词作为通用分词。
11.根据本发明提供的一种运维指令意图识别方法,所述对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词,包括:
12.基于专有名词字典,对所述运维指令进行分词,得到分词序列;
13.将所述分词序列输入至运维实体识别模型中,得到所述运维实体识别模型输出的运维实体分词;
14.其中,所述运维实体识别模型是基于样本分词序列及其运维识别标签训练得到的,所述样本分词序列是基于所述专有名词字典对样本指令进行分词得到的。
15.根据本发明提供的一种运维指令意图识别方法,所述词向量是基于如下步骤确定的:
16.基于分布式词向量字典,确定任一分词的分布式词向量;
17.基于所述任一分词在所述运维指令中的位置,确定所述任一分词的位置编码向量;
18.基于所述任一分词的分布式词向量和位置编码向量,确定所述任一分词的词向量。
19.根据本发明提供的一种运维指令意图识别方法,所述领域权重是基于如下步骤确定的:
20.对所述逆文本频率指数字典中所有分词的逆文本频率指数按照从大到小的顺序排序,得到逆文本频率指数序列;
21.将逆文本频率指数序列的上四分位数作为所述领域权重。
22.根据本发明提供的一种运维指令意图识别方法,所述将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图,包括:
23.分别计算所述运维指令的指令向量和各候选意图对应指令的指令向量之间的相似度;
24.基于各候选意图对应的相似度,确定所述运维指令的意图。
25.本发明还提供一种运维指令意图识别装置,包括:
26.分词划分单元,用于确定待识别的运维指令中的通用分词和领域分词;
27.加权融合单元,用于基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;
28.意图识别单元,用于将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
29.根据本发明提供的一种运维指令意图识别装置,所述分词划分单元包括:
30.实体识别子单元,用于对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词;
31.领域匹配子单元,用于从所述运维指令的所有分词中删除所述运维实体分词,并对剩余的各分词进行领域词匹配,将匹配成功的分词作为领域分词,将匹配失败的分词作为通用分词。
32.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述运维指令意图识别方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述运维指令意图识别方法的步骤。
34.本发明提供的运维指令意图识别方法、装置、电子设备和存储介质,通过逆文本频率指数确定运维指令中各通用分词的通用权重和各领域分词的领域权重,从而构建指令向
量,在突出了运维领域专有名词含义的同时,保障了语义特征的准确性。在此基础上通过相似度匹配的方式进行意图识别,有效降低了意图识别的算力要求,节约了大量的人工和机器成本,有助于提高运维领域意图识别的识别可靠性和识别效率。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1是本发明提供的运维指令意图识别方法的流程示意图之一;
37.图2是本发明提供的词向量确定方法的流程示意图;
38.图3是本发明提供的分布式词向量字典对应模型的结构示意图;
39.图4是本发明提供的运维指令意图识别方法的流程示意图之二;
40.图5是本发明提供的运维指令意图识别装置的结构示意图;
41.图6是本发明提供的电子设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.目前,意图理解任务多通过文本分类或者相似度匹配的方式实现。传统的文本分类算法有经典的线性支持向量机(linearsvm),逻辑回归(logistic)等。相似度匹配则通常需要神经网络算法例如lstm,textcnn等进行特征提取,并在此基础上进行匹配计算,相似度匹配算法指标较多,有基于距离的方法如欧氏距离,曼哈顿距离,有基于角度的方法如余弦相似度等。
44.上述现有算法直接用在运维机器人场景下存在如下缺陷:
45.针对文本分类算法,采用分类算法进行意图识别始存在一个分类算法的通病,分类模型需要对其他类别(非运维机器人内置意图)的判定专门优化,难度较大且人工调试成本较高。分类算法属于有监督算法,可以较容易地对训练样本中包含的数据类别进行分类,但是在机器人的场景下,用户在使用过程中会输入大量不可预知的其它类别问句,如何将这些类别准确识别是文本分类算法的实现难点。
46.针对相似度匹配算法,虽然相似度配合阈值可以有效解决其他类别的问题,但是相比于有监督的分类算法,相似度匹配算法对于内置意图的识别效果会差一些。影响因素主要有:
47.其一,运维机器人场景下用户输入均为短文本语句,一两个非关键词就可能会影响到相似度匹相似度;
48.其二,对于未登录词(oov)以及运维领域特有的词语需要特别处理,否则在短文本下会凸显其影响;
49.其三,现有一些深度网络,如孪生网络可以学习文本间相似度,但是需要有大量运维数据的支持。人工整理数据成本较大,耗时也较长。
50.针对以上问题,本发明实施例提供一种运维指令意图识别方法,可以在短文本场景且不重度依赖运维语料的前提下,快速高效地实现意图识别。
51.图1是本发明提供的运维指令意图识别方法的流程示意图之一,如图1所示,该方法包括:
52.步骤110,确定待识别的运维指令中的通用分词和领域分词。
53.具体地,待识别的运维指令即需要进行意图识别的运维指令,例如用户通过文本输入或者语音输入后进行转写得到的指令,此处所指的运维指令是文本形式,例如“帮我重启某某系统”、“查询某某节点的资源配置情况”。
54.文本形式的运维指令可以通过分词处理,划分为多个分词,在此基础上,可以将运维指令中包含的各个分词按照是否属于运维领域的专用词汇进行划分,从而得到运维指令中的通用分词和领域分词。
55.此处所指的领域分词即运维指令中包含的运维领域的专用词汇,例如某某系统名简称、某某设备名称、某某技术简称、某某操作简称等。通用分词即运维指令中包含的领域分词之外的分词。
56.步骤120,基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重。
57.具体地,为了区分运维指令中的各个分词本身对于意图识别的贡献度,尤其是在运维这一特定场景下对于运维意图识别的贡献度,本发明实施例中区分了运维指令中的通用分词和领域分词,并引入逆文本频率指数(inverse document frequency,idf)分别确定其分别对应的通用权重和领域权重。
58.进一步地,通用场景下的逆文本频率指数字典包含了通用场景下的各个分词,即各个通用分词的逆文本频率指数。因此,通过查询通用场景下的逆文本频率指数字典,可以直接获取运维指令中的各个通用分词的逆文本频率指数,并由此确定各个通用分词的通用权重。此处,各个通用分词的通用权重可以是逆文本频率指数本身,也可以是在逆文本频率指数的基础上乘以预设系数或者进行归一化得到的。需要说明的是,各通用分词的逆文本频率指数越高,则其对应的通用权重越高。
59.区别于各通用分词,领域分词由于其领域特殊性,在通用场景下出现的概率极小,因此通用场景下的逆文本频率指数字典中并不包含领域分词的逆文本频率指数。但是考虑到在运维指令中,领域分词通常较通用分词对于运维意图的识别贡献度更高,因此可以根据各个通用分词的通用权重,确定一个高于通用权重的权重值作为领域分词的权重值。例如,可以通过逆文本频率指数字典,确定通用分词的逆文本频率指数的均值、中位数等统计值,进而以此为参考设置高于通用权重的领域权重。
60.在此基础上,即可基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权求和,并将加权求和的结果作为运维指令的指令向量。此处,通过区分通用权重和领域权重进行加权求和所得的指令向量,在突出了
运维领域专有名词含义的同时,保障了语义特征的准确性。
61.步骤130,将运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
62.此处,各候选意图即预先设定好的运维场景下可能出现的运维意图。可以预先由工作人员确定分别对应于各个候选意图的样本运维指令,并基于步骤110、120的方式抽取各个样本运维指令的指令向量,从而得到各个候选意图对应指令的指令向量。
63.在此之后,即可将运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,例如可以通过相似度匹配的方式,计算运维指令的指令向量分别与各候选意图对应指令的指令向量之间的相似度,并根据相似度大小确定匹配结果。此处所得的匹配结果可以是不存在相匹配的候选意图,或者与某个候选意图对应指令的指令向量相匹配,可以根据匹配结果确定该运维指令的意图。
64.本发明实施例提供的方法,通过逆文本频率指数确定运维指令中各通用分词的通用权重和各领域分词的领域权重,从而构建指令向量,在突出了运维领域专有名词含义的同时,保障了语义特征的准确性。在此基础上通过相似度匹配的方式进行意图识别,有效降低了意图识别的算力要求,节约了大量的人工和机器成本,有助于提高运维领域意图识别的识别可靠性和识别效率。
65.基于上述实施例,步骤110包括:
66.对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词;
67.从所述运维指令的所有分词中删除所述运维实体分词,并对剩余的各分词进行领域词匹配,将匹配成功的分词作为领域分词,将匹配失败的分词作为通用分词。
68.具体地,运维实体是运维场景下需要具体操作的对象,例如作业对象、操作目标、执行范围,以及代指这些对象、目标、范围的字符等。在实际的运维场景下,运维实体具有很多变形,有时可能会很长甚至包含中文词语,如果直接进行向量化,此部分会严重影响整个运维指令的向量化表示效果。而运维实体本身对运维指令意图的识别并不起太大的作用。因此将运维实体识别出来后,可以将运维实体对应的分词删除,不参与后续的向量化操作。
69.进一步地,可以在从运维指令的所有分词中删除掉运维实体分词之后,再进行领域分词和通用分词的区分,从而节省计算量。
70.基于上述任一实施例,步骤110中,所述对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词,包括:
71.基于专有名词字典,对所述运维指令进行分词,得到分词序列;
72.将所述分词序列输入至运维实体识别模型中,得到所述运维实体识别模型输出的运维实体分词;
73.其中,所述运维实体识别模型是基于样本分词序列及其运维识别标签训练得到的,所述样本分词序列是基于所述专有名词字典对样本指令进行分词得到的。
74.此处,专有名词字典是在收录了通用场景下的各分词的基础上,进一步收录了运维场景下的特有分词的字典,此处所指的特有分词可以是某系统名简称、某设备名称、某技术简称、某操作简称等。
75.通过专有名词字典对运维指令进行分词,可以确保其分词结果的可靠性和准确性。进一步地,可以将专有名词字典对应的数据库输入到分词器中,从而构建针对于运维场
景的专用分词器,并应用该专用分词器进行分词处理。
76.随即,将分词所得的分词序列输入到运维实体识别模型中,由运维实体识别模型对分词序列中各个分词进行运维实体识别,并输出运维实体分词。
77.此外,在上述步骤执行之前,还可以预先对运维实体识别模型进行训练,训练步骤包括:首先,采集运维场景下的运维指令作为样本指令,接着应用专有名词字典对各样本指令进行分词,得到各样本指令的分词结果,即各样本指令的样本分词序列,以及各样本指令的运维识别标签。在此基础上,可以应用样本分词序列及其运维识别标签构建的训练集,基于bilstm+crf算法进行ner(named entity recognition,实体命名识别)模型训练,从而得到运维实体识别模型。
78.基于上述任一实施例,图2是本发明提供的词向量确定方法的流程示意图,如图2所示,词向量的确定方法包括:
79.步骤210,基于分布式词向量字典,确定任一分词的分布式词向量。
80.此处,分布式词向量字典是收录了各个分词的分布式词向量的字典,可以选用开源的大规模中文语料训练得到的分布式词向量字典。分布式词向量字典的训练可以通过cbow(continuous bag-of-word model)型的word2vec算法实现。
81.在实际使用时,对于分布式词向量字典中存在的分词,可以直接获取其对应的词向量作为分布式词向量,对于分布式词向量字典中没有收录的分词,即未登录词,可以获取该分词的每个字向量,并将各字向量相加求平均后作为其分布式词向量。
82.分布式词向量字典的引入,可以提升运维机器人对用户输入语句的意图识别的泛化能力,即使在机器人内置样本有限的情况下,依靠分布式词向量字典也可以获得样本中没有收录的词向量,到达准确识别用户意图的目的。
83.步骤220,基于所述任一分词在所述运维指令中的位置,确定所述任一分词的位置编码向量。
84.此处,各分词在运维指令中的位置可以是首位、末位或者中间位置,还可以是具体的排序,本发明实施例对此不作具体限定。针对各分词的位置,可以进行编码,从而得到各分词的位置编码向量。此处对位置进行编码具体可以通过position embedding算法或者其他类型的编码算法实现,本发明实施例对此不作具体限定。
85.步骤230,基于所述任一分词的分布式词向量和位置编码向量,确定所述任一分词的词向量。
86.此处,针对任一分词,其词向量可以是整合分布式词向量和位置编码向量两部分信息得到的,例如可以是将分布式词向量与位置编码向量相加得到的,也可以是将分布式词向量与位置编码向量拼接得到的。
87.本发明实施例提供的方法,通过应用分布式词向量字典,保证了意图识别的泛化能力,从而在不重度依赖运维语料的前提下,实现了快速高效的意图识别;在此基础上,将各分词在运维指令中的位置编码在词向量中,提高了意图识别对于语序的敏感性,有助于提高意图识别的准确率。
88.基于上述任一实施例,图3是本发明提供的分布式词向量字典对应模型的结构示意图,如图3所示,图中的w(t)代表每个样本指令中的词或字,cbow型依靠分词w(t)的上下文(w(t-2),w(t-1),w(t+1),w(t+2))推算出词w(t)。这样计算的结果使得训练样本中相近
的词在向量上会有相近的表示,例如“执行”和“操作”、“关闭”和“结束”等。
89.基于上述任一实施例,领域权重是基于如下步骤确定的:
90.对所述逆文本频率指数字典中所有分词的逆文本频率指数按照从大到小的顺序排序,得到逆文本频率指数序列;
91.将逆文本频率指数序列的上四分位数作为所述领域权重。
92.此处,考虑到在运维指令中,领域分词通常较通用分词对于运维意图的识别贡献度更高,因此可以根据各个通用分词的通用权重,确定一个高于通用权重的权重值作为领域分词的权重值,具体可以将逆文本频率指数字典中所有分词的逆文本频率指数按照从大到小的顺序排序,并从中选取其上四分位数作为领域权重。
93.基于上述任一实施例,步骤130包括:
94.分别计算所述运维指令的指令向量和各候选意图对应指令的指令向量之间的相似度;
95.基于各候选意图对应的相似度,确定所述运维指令的意图。
96.具体地,此处的相似度计算可以通过余弦相似度、欧几里得距离、曼哈顿距离等方式实现,例如,可以采用如下公式计算余弦相似度cosθ:
[0097][0098]
式中,a和b分别为运维指令的指令向量和候选意图对应指令的指令向量。由此得到的相似度结果取值范围为[-1,+1],越趋近于1代表越相近。
[0099]
针对各候选意图对应的相似度,可以从中选取相似度最高的候选意图作为运维指令的意图,也可以预先设定一个相似度阈值,将相似度大于相似度阈值的候选意图作为运维指令的意图。
[0100]
基于上述任一实施例,图4是本发明提供的运维指令意图识别方法的流程示意图之二,如图4所示,该方法包括:
[0101]
步骤410,准备不同类型的样本指令、运维实体标注、专有名词字典、以及训练得到运维实体识别模型:
[0102]
此处,不同类型的样本指令即应用于不同运维场景或不同领域的指令,将上述指令作为基础的“种子”样本。具体可以按照不同的执行动作、不同的执行对象作为样本指令的类型划分依据,例如:“帮我重启某某系统”、“查询某某节点的资源配置情况”,这两个指令的执行动作分别是“重启”和“查询”,因此可判断为不同的意图类型。
[0103]
专有名词字典收录特定运维场景下的特有词汇,例如,某系统名简称、某设备名称、某技术简称、某操作简称等。
[0104]
运维实体标注:整理特定运维场景中的运维实体,例如运维实体可以是指某作业名,具体可以是“test123”,也可以是“server_test”等。
[0105]
运维实体识别模型:是基于上述运维实体标注训练得到的命名实体识别模型(ner),可用于识别输入的语句文本中的运维实体分词。
[0106]
步骤420,对待识别的运维指令进行分词处理:
[0107]
可以将步骤410中的专有名词字典对应的数据库输入分词器,构建自定义分词器,基于分词器对输入的运维指令文本进行分词处理,获得分词后的文本。
[0108]
例如,输入的文本为:执行**系统的xxx作业。通过分词处理后,可得到分词后的文本如下:执行、**、系统、xxx作业。
[0109]
步骤430,对分词后得到的分词序列进行运维实体识别;删除运维实体后,对各分词进行通用词、领域词识别:
[0110]
首先通过运维实体识别模型对运维指令进行运维实体识别,得到运维指令中的运维实体分词。在此基础上,去除运维实体对应的分词,并将剩余分词与专有名词字典中的分词进行匹配,从而划分通用分词和领域分词。
[0111]
步骤440,基于分布式词向量字典,对各分词进行向量化处理并引入位置特征:
[0112]
应用cbow型的word2vec,确定各分词的分布式词向量,并对各分词在运维指令中的位置进行编码,得到各分词的位置编码向量。随即,将每个分词的分布式词向量与其对应的位置编码向量相加,由此获得与各分词一一对应的带有位置信息的词向量。
[0113]
步骤450,基于idf确定通用权重和领域权重,进而加权确定指令向量:
[0114]
可以基于通用场景下的文本确定通用场景下的逆文本频率指数字典,其中各个通用分词的逆文本频率指数idf可以通过如下公式确定:
[0115][0116]
需要说明的是,一般进行向量化,通常选用的是tf-idf,而非idf本身,但是考虑到运维场景下的指令多为短文本形式,词频tf的值基本为1,因此不再计算tf值。针对于通用分词,可以直接将通用分词的idf作为该分词的通用权重,针对于领域分词,将通用分词的idf的上四分位数或者是其他预先设定好的值作为领域分词的领域权重。
[0117]
在此基础上,将各通用分词的词向量和各领域分词的词向量进行加权求和,并将加权求和的结果作为运维指令的指令向量。
[0118]
步骤460,指令向量相似度匹配,确定运维指令对应的意图:
[0119]
可以从中选取相似度最高的候选意图作为运维指令的意图,也可以预先设定一个相似度阈值,将相似度大于相似度阈值的候选意图作为运维指令的意图。
[0120]
基于上述任一实施例,图5是本发明提供的运维指令意图识别装置的结构示意图,如图5所示,该装置包括:
[0121]
分词划分单元510,用于确定待识别的运维指令中的通用分词和领域分词;
[0122]
加权融合单元520,用于基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;
[0123]
意图识别单元530,用于将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
[0124]
本发明实施例提供的装置,通过逆文本频率指数确定运维指令中各通用分词的通用权重和各领域分词的领域权重,从而构建指令向量,在突出了运维领域专有名词含义的同时,保障了语义特征的准确性。在此基础上通过相似度匹配的方式进行意图识别,有效降低了意图识别的算力要求,节约了大量的人工和机器成本,有助于提高运维领域意图识别的识别可靠性和识别效率。
[0125]
基于上述任一实施例,所述分词划分单元包括:
[0126]
实体识别子单元,用于对所述运维指令进行运维实体识别,得到所述运维指令中的运维实体分词;
[0127]
领域匹配子单元,用于从所述运维指令的所有分词中删除所述运维实体分词,并对剩余的各分词进行领域词匹配,将匹配成功的分词作为领域分词,将匹配失败的分词作为通用分词。
[0128]
基于上述任一实施例,所述实体识别子单元用于:
[0129]
基于专有名词字典,对所述运维指令进行分词,得到分词序列;
[0130]
将所述分词序列输入至运维实体识别模型中,得到所述运维实体识别模型输出的运维实体分词;
[0131]
其中,所述运维实体识别模型是基于样本分词序列及其运维识别标签训练得到的,所述样本分词序列是基于所述专有名词字典对样本指令进行分词得到的。
[0132]
基于上述任一实施例,该装置还包括词向量确定单元,用于:
[0133]
基于分布式词向量字典,确定任一分词的分布式词向量;
[0134]
基于所述任一分词在所述运维指令中的位置,确定所述任一分词的位置编码向量;
[0135]
基于所述任一分词的分布式词向量和位置编码向量,确定所述任一分词的词向量。
[0136]
基于上述任一实施例,该装置还包括权重确定单元,用于:
[0137]
对所述逆文本频率指数字典中所有分词的逆文本频率指数按照从大到小的顺序排序,得到逆文本频率指数序列;
[0138]
将逆文本频率指数序列的上四分位数作为所述领域权重。
[0139]
基于上述任一实施例,所述意图识别单元用于:
[0140]
分别计算所述运维指令的指令向量和各候选意图对应指令的指令向量之间的相似度;
[0141]
基于各候选意图对应的相似度,确定所述运维指令的意图。
[0142]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行运维指令意图识别方法,该方法包括:确定待识别的运维指令中的通用分词和领域分词;基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
[0143]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0144]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的运维指令意图识别方法,该方法包括:确定待识别的运维指令中的通用分词和领域分词;基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
[0145]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的运维指令意图识别方法,该方法包括:确定待识别的运维指令中的通用分词和领域分词;基于各通用分词的通用权重和各领域分词的领域权重,对各通用分词的词向量和各领域分词的词向量进行加权融合,得到所述运维指令的指令向量,所述通用权重和所述领域权重是基于通用场景下的逆文本频率指数字典确定的,所述领域权重大于所述通用权重;将所述运维指令的指令向量和各候选意图对应指令的指令向量进行匹配,基于匹配结果从各候选意图中选取所述运维指令的意图。
[0146]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选取其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0147]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0148]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1