数据处理方法、装置及电子设备与流程

文档序号:33527426发布日期:2023-03-22 07:26阅读:65来源:国知局
数据处理方法、装置及电子设备与流程

1.本技术涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及电子设备。


背景技术:

2.运维服务过程中会产生大量的自然语言文本,其来源包括工单、日志、告警信息、邮件、交谈记录等运维环节的产出。
3.目前,多采用人工分析运维文本的方式,才能获得到运维问题。但这种方式存在效率低的缺陷。
4.因此,亟需一种能够高效获得运维问题的技术方案。


技术实现要素:

5.有鉴于此,本技术提供一种数据处理方法、装置及电子设备,如下:
6.一种数据处理方法,包括:
7.获得目标文本;
8.根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,所述描述语句中至少包含所述目标文本中与所述目标领域相对应的短语;
9.输出所述描述语句;
10.其中,所述目标领域为通过对目标文本中的短语进行解析而确定的。
11.上述方法,优选的,根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,包括:
12.获得所述目标文本的语法依存关系树,所述语法依存关系树中包含多个树节点,所述树节点对应于所述目标文本中的短语,所述树节点之间的连接关系表征所述目标文本中的短语之间的语法依存关系;
13.根据所述语法依存关系树,获得目标语法结构,所述目标语法结构对应于所述目标文本中的目标名词,所述目标名词为表征目标领域的名词;
14.在所述目标文本中,获得与所述目标语法结构对应的预设语义元素相对应的短语;
15.按照目标领域对应的语句描述规则,将获得到的短语进行处理,以得到描述语句。
16.上述方法,优选的,在获得描述语句之后,所述方法还包括:
17.将所述描述语句输入主题模型,以得到所述描述语句对应的目标主题;
18.根据所述描述语句,获得每个所述目标主题对应的短语,每个所述目标主题对应的短语为所述目标主题对应的所述描述语句中操作主体对应的短语、操作客体对应的短语以及操作本体对应的短语;
19.针对每个所述目标主题,根据所述目标主题对应的短语,按照所述目标领域对应的语句描述规则,获得至少一个摘要语句。
20.上述方法,优选的,所述主题模型通过以下方式获得:
21.按照多个参数组分别构建初始模型,所述初始模型能够针对输入的语句输出相应的主题,所述参数组中包含至少一个建模参数;
22.以数据集中每个文档内的目标语句为输入,以所述目标语句对应的标签主题为输出,对所述初始模型进行训练;
23.根据所述数据集中的文档,获得所述初始模型对应的模型语义连贯性参数;所述模型语义连贯性参数表征所述初始模型输出的主题的语义连贯性;
24.根据所述模型语义连贯性参数,对所述初始模型进行筛选,以得到主题模型。
25.上述方法,优选的,根据所述数据集中的文档,获得所述初始模型对应的模型语义连贯性参数,包括:
26.将所述数据集中的所述目标语句输入所述初始模型,以得到所述目标语句对应的预测主题;
27.根据所述数据集中的文档,获得每个所述预测主题对应的主题语义连贯性参数;所述主题语义连贯性参数表征所述预测主题的语义连贯性;
28.按照所述预测主题对应的权重,对所述预测主题对应的主题语义连贯性参数进行处理,以得到所述初始模型对应的模型语义连贯性参数。
29.上述方法,优选的,根据所述数据集中的文档,获得每个所述预测主题对应的主题语义连贯性参数,包括:
30.在所述数据集所包含的文档中提取与所述预测主题相关联的词,以得到词集合;
31.对所述词集合中的词进行切分,以得到多个词集对;每个所述词集对中包含两个词集;
32.按照所述数据集中滑动窗口,获得每个所述词集对中两个词集对应的共现概率;
33.针对每个所述词集对,至少根据所述共现概率,获得所述词集对中两个词集之间的关联程度参数;
34.根据每个所述词集对中两个词集之间的关联程度参数,获得所述预测主题对应的主题语义连贯性参数。
35.上述方法,优选的,所述滑动窗口中词的数量根据所述数据集中的文档获得。
36.上述方法,优选的,所述目标文本中的目标名词通过以下方式获得:
37.提取所述目标文本中的初始名词;
38.获得每个所述初始名词在预设词库中的第一词频和所述初始名词在所述目标领域中的第二词频;
39.根据所述第一词频和所述第二词频,获得每个所述初始名词的领域特定程度参数,所述领域特定程度参数表征所述初始名词与所述目标领域相关联的程度;
40.根据所述领域特定程度参数,在所述初始名词中获得所述领域特定程度参数大于或等于程度阈值的名词,以得到目标名词。
41.一种数据处理装置,包括:
42.文本获得单元,用于获得目标文本;
43.语句获得单元,用于根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,所述描述语句包含所述目标文本中与所述目标领域相关的短语;
44.语句输出单元,用于输出所述描述语句;
45.其中,所述目标领域为通过对目标文本中的短语进行解析而确定的。
46.一种电子设备,包括:
47.存储器,用于存储计算机程序以及所述计算机程序运行所产生的数据;
48.处理器,用于执行所述计算机程序,以实现:获得目标文本;根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,所述描述语句包含所述目标文本中与所述目标领域相关的短语;输出所述描述语句;其中,所述目标领域为通过对目标文本中的短语进行解析而确定的。
49.从上述技术方案可以看出,本技术公开的一种数据处理方法、装置及电子设备中,通过对文本中的短语进行解析,按照目标领域对应的语句描述规则构建出包含目标领域相关短语的描述语句,由此实现描述语句的输出。可见,本实施例中相对于人工对文本筛选目标领域的短语的方式,通过对文本中的短语进行解析来获得描述语句,从而达到提高描述语句的获取效率的目的。。
附图说明
50.为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
51.图1为本技术实施例一提供的一种数据处理方法的流程图;
52.图2-图8分别为本技术实施例一提供的一种数据处理方法的部分流程图;
53.图9为本技术实施例二提供的一种数据处理装置的结构示意图;
54.图10、图11及图12分别为本技术实施例二提供的一种数据处理装置的另一结构示意图;
55.图13为本技术实施例三提供的一种电子设备的结构示意图;
56.图14为本技术适用于it运维场景中基于it运维文本的运维问题挖掘与描述方法流程图;
57.图15为本技术适用于it运维场景中运维问题短语描述的提取流程图;
58.图16为本技术适用于it运维场景中语法依存关系树的示例图;
59.图17为本技术适用于it运维场景中基于某工单数据分析生成的语法依存关系状态转移局部图;
60.图18本技术适用于it运维场景中基于主题模型从运维问题短语描述中挖掘运维问题类型的过程图;
61.图19本技术适用于it运维场景中从2022年第一季度it运维工单中挖掘出的若干常见问题类型及其描述示例图。
具体实施方式
62.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本技术保护的范围。
63.参考图1所示,为本技术实施例一提供的一种数据处理方法的实现流程图,该方法可以适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于提高在文本中获取描述语句的效率。
64.具体的,本实施例中的方法可以包含如下步骤:
65.步骤101:获得目标文本。
66.其中,目标文本可以为特定场景下所生成的文本,如某系统运行过程中所产生的运维文本,等等。
67.步骤102:根据目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,描述语句中至少包含目标文本中与目标领域相对应的短语。
68.其中,目标领域为通过对目标文本中的短语进行解析而确定的,例如,可以通过对目标文本中的短语进行词频统计,基于词频确定目标文本对应的目标领域。
69.具体的,本实施例中可以将目标文本中与目标领域相关的短语按照目标领域对应的语句描述规则进行短语组合,以得到描述语句。
70.步骤103:输出描述语句。
71.例如,将描述语句通过显示屏或扬声器进行输出,以图像或声音等方式为用户输出描述语句。
72.由上述方案可知,本技术实施例一提供的一种数据处理方法中,通过对文本中的短语进行解析,按照目标领域对应的语句描述规则构建出包含目标领域相关短语的描述语句,由此实现描述语句的输出。可见,本实施例中相对于人工对文本筛选目标领域的短语的方式,通过对文本中的短语进行解析来获得目标领域对应的描述语句,从而达到提高描述语句的获取效率的目的。
73.在一种实现方式中,步骤102中在根据目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句时,可以通过以下方式实现,如图2中所示:
74.步骤201:获得目标文本的语法依存关系树。
75.其中,语法依存关系树中包含多个树节点,树节点对应于目标文本中的短语,树节点之间的连接关系表征目标文本中的短语之间的语法依存关系。
76.具体的,本实施例中可以通过对目标文本中的文本语句进行语法依存关系的解析,进而基于解析处的目标文本中各文本语句中短语之间的语法依存关系,得到目标文本的语法依存关系树。
77.步骤202:根据语法依存关系树,获得目标语法结构,目标语法结构对应于目标文本中的目标名词,目标名词为表征目标领域的名词。
78.具体的,本实施例中可以首先在目标文本获得目标领域对应的目标名词,然后,按照目标名词,根据语法依存关系获得目标领域对应的目标语法结构。
79.步骤203:在目标文本中,获得与目标语法结构对应的预设语义元素相对应的短语。
80.其中,每种语法结构均对应有特定的预设语义元素以及特定的语义。以动词+宾语的语法结构为例,其语义在运维领域里为:需要操作某事物,相应的语义元素为:动词为操作,且,宾语为操作客体。
81.基于此,在目标文本中,按照目标语法结构对应的预设语义元素,筛选出相应的短语。例如,按照“动词为操作,且,宾语为操作客体”的语义元素,在目标文本中筛选出对应于“动词+宾语”的语法结构的短语。
82.步骤204:按照目标领域对应的语句描述规则,将获得到的短语进行处理,以得到描述语句。
83.其中,目标领域对应的语句描述规则即为目标语法结构对应的语句描述规则。例如,将获得到的短语按照“动词+宾语”的语法结构对应的语句描述规则进行语句拼接,以得到相应的描述语句,如“按下(动词)主控件(宾语)”。
84.基于以上方案,在一种实现方式中,目标文本中的目标名词通过以下方式获得,如图3中所示:
85.步骤301:提取目标文本中的初始名词。
86.例如,本实施例中可以通过对目标文本中各文本语句进行分词处理,以得到目标文本中的词语,之后在得到的词语中,按照词语类型提取属于名词类型的初始名词。
87.步骤302:获得每个初始名词在预设词库中的第一词频和初始名词在目标领域中的第二词频。
88.其中,预设词库可以为开放领域的词库,如互联网中的开放词库等。目标领域为特定领域,如a领域,目标领域对应于有本地词库,如a领域的词典库等。基于此,本实施例针对每个初始名词进行词频统计,进而得到每个初始名词在预设词库中的第一词频以及在目标领域的本地词库中的第二词频。也就是说,每个初始名词分别有第一词频和第二词频。第一词频可以用open_domain_freq(word)表示,第二词频可以用local_domain_freq(word)表示。
89.步骤303:根据第一词频和第二词频,获得每个初始名词的领域特定程度参数,领域特定程度参数表征初始名词与目标领域相关联的程度。
90.其中,本实施例中在根据第一词频和第二词频,获得每个初始名词的领域特定程度参数之前,可以先删除初始名词中第二词频小于或等于词频阈值的名词。词频阈值可以为:所有第二词频的平均值减去所有第二词频的三倍方差。也就是说,本实施例中先按照所有初始名词的第二词频对应的词频阈值对初始名词进行筛选,将第二词频小于或等于词频阈值的初始名词剔除。
91.例如,词频阈值可以用threshold表示。基于此,本实施例中的threshold可以通过以下公式(1)获得:
[0092][0093]
具体的,步骤303中可以对第二词频与第一词频的比值取对数,以得到表征每个初始名词与目标领域相关联的程度的领域特定程度参数。
[0094]
其中,初始名词wotd的领域特定程度参数用domain_specific_ratio(word)表示,wotd代表初始名词,domain_specific_ratio(word)可以通过以公式(2)获得:
[0095][0096]
进一步的,本实施例中可以通过sigmoid函数对领域特定程度参数进行平滑和归
一化处理,平滑和归一化处理得到的领域特定程度参数用domain_specific_weight(word),其可以通过以下公式(3)获得:
[0097][0098]
步骤304:根据领域特定程度参数,在初始名词中获得领域特定程度参数大于或等于程度阈值的名词,以得到目标名词。
[0099]
其中,程度阈值:所有初始名词对应的领域特定程度参数的平均值减去参数的方差。程度阈值可以用threshold表示,threshold可以通过以下公式(4)获得:
[0100][0101]
也就是说,本实施例中按照所有初始名词的领域特定程度参数对应的程度阈值,对初始名词进行筛选,进而将领域特定程度参数大于或等于程度阈值的初始名词确定为目标名词,即对应于目标领域的名词。
[0102]
基于以上方案,在一种实现方式中,步骤202中可以通过如下以下方式获得目标语法结构,如图4中所示:
[0103]
步骤401:根据语法依存关系树,获得每个目标名词对应的语法依存关系链条。
[0104]
其中,语法依存关系链条表征目标名词与其在目标文本的上下文中的至少一个短语之间的语法依存关系。
[0105]
具体的,本实施例中可以针对每个目标名词,从目标名词出发,按照语法依存关系树中短语对应的树节点之间的连接关系提取到该目标名词对应的语法依存关系链条。语法依存关系链条中包含有多个短语且短语之间依次连接,相连接的短语之间具有语法依存关系。
[0106]
以文本语句为:“the client user cannot receive verification code after upgrading the os system”为例,基于其语法依存关系树中的领域名词“verificationcode”,获得相应的其中一条语法依存关系链条为:verification code

(dobj)

receive

(prep)

after

(pcomp)

upgrading

(dobj)
[0107]

the os system。
[0108]
步骤402:根据语法依存关系链条,获得语法依存关系状态转移图。
[0109]
其中,语法依存关系状态转移图中包含开始节点和结束节点,开始节点与结束节点之间包含至少一条节点路径,一条节点路径表征一种语法结构;节点路径中包含至少一个路径节点,路径节点对应于语法依存关系链条中目标名词对应的语法依存关系,路径节点之间具有语法依存关系转移概率,语法依存关系转移概率表征路径节点对应的语法依存关系之间发生转移的概率。
[0110]
具体的,本实施例中可以对语法依存关系链条中短语之间的语法依存关系进行统计,以得到语法依存关系转移概率,之后,基于语法依存关系转移概率以及相应的语法依存关系,构建语法依存关系状态转移图。
[0111]
步骤403:在语法依存关系状态转移图中,获得存在频次满足筛选条件的至少一条目标路径。
[0112]
其中,筛选条件为:节点路径的存在频次大于频次阈值。基于此,本实施例中将存在频次大于频次阈值的节点路径确定为高频的节点路径,即目标路径。
[0113]
需要说明的是,本实施例中在高频的节点路径之前,先对节点路径进行初始筛选,例如,对语法依存关系状态转移图中,去掉节点路径中有语法依存关系转移概率大于概率阈值如0.05的节点路径,并去掉对应于连接词的语法依存关系且前后文语义关联度小于关联阈值的节点路径,在经过初始筛选后,将剩余的节点路径进行合并。也就是说,本实施例中先对节点路径进行初始筛选,然后对节点路径进行合并,之后再筛选出高频的节点路径作为目标路径。
[0114]
步骤404:根据目标路径对应的语法结构,获得目标语法结构。
[0115]
具体的,本实施例中根据目标路径中路径节点对应的语法依存关系以及语法依存关系之间的状态转移,获得相应的语法结构,即目标语法结构。如:动词+宾语的语法结构。
[0116]
在一种实现方式中,在步骤102中获得描述语句之后,本实施例中的方法还可以包含如下步骤,如图5所示:
[0117]
步骤104:将描述语句输入主题模型,以得到描述语句对应的目标主题。
[0118]
其中,主题模型能够对输入的描述语句进行处理,以输出该描述语句对应的目标主题。具体的,主题模型可以基于机器学习算法构建,并通过大量训练样本进行训练得到。
[0119]
需要说明的是,可能存在多条描述语句对应的目标主题相一致,因此,一个目标主题可能对应于一条描述语句或多条描述语句。
[0120]
具体的,主题模型可以针对输入的描述语句输出多个初始主题,每个初始主题对应有主题概率,本实施例中针对这多个初始主题,筛选出主题概率从大到小排序在前x位的初始主题作为目标主题或者筛选出主题概率大于或等于主题阈值的初始主题作为目标主题,x为大于或等于1的正整数。
[0121]
步骤105:根据描述语句,获得每个目标主题对应的短语。
[0122]
其中,每个目标主题对应的短语为目标主题对应的描述语句中操作主体对应的短语、操作客体对应的短语以及操作本体对应的短语。
[0123]
也就是说,本实施例中对目标主题对应的描述语句中操作主体、操作客体以及操作本体对应的短语进行提取,以得到操作主体对应的短语、操作客体对应的短语以及操作本体对应的短语。例如,本实施例中对描述语句中操作本体对应的短语“按下”、操作主体对应的短语“用户”以及操作客体对应的短语“主控件”进行提取,得到该描述语句对应的目标主题在该描述语句中对应的短语。
[0124]
具体的,本实施例中可以先按照目标主题对描述语句进行分组,将对应于相同目标主题的描述语句划分到同一组中,之后,再从分组中提取相应目标主题对应的短语,如操作本体以及操作主客体的短语。
[0125]
步骤106:针对每个目标主题,根据目标主题对应的短语,按照目标领域对应的语句描述规则,获得至少一个摘要语句。
[0126]
具体的,本实施例中分别针对每个目标主题,按照目标领域对应的语句描述规则,将该目标主题对应的短语进行语句拼接,以得到相应的摘要语句。一个目标主题可以有一
条或多条摘要语句。
[0127]
例如,本实施例中利用主题建模的方式从运维文本的问题描述语句中挖掘运维常见问题类别即运维主题,并总结提取出问题摘要。
[0128]
基于以上方案,在步骤106之前,本实施例中可以先针对每个目标主题,删除目标主题对应的短语中频次满足第一筛选条件如频次低于第一阈值的短语,再执行步骤106。
[0129]
另外,在步骤106之后,本实施例中还可以针对每个目标主题,删除摘要语句中频次满足第二筛选条件如频次低于第二阈值的语句,由此得到高频的语句作为摘要语句。
[0130]
基于以上方案,本实施例中的主题模型可以通过以下方式获得,如图6中所示:
[0131]
步骤601:按照多个参数组分别构建初始模型,初始模型能够针对输入的语句输出相应的主题。
[0132]
其中,这里的参数组中包含至少一个建模参数,建模参数表征初始模型的模型架构,如主题个数等。每个参数组对应于一个初始模型。
[0133]
步骤602:以数据集中每个文档内的目标语句为输入,以目标语句对应的标签主题为输出,对初始模型进行训练。
[0134]
其中,数据集中包含多个文档,每个文档中包含多个目标语句。
[0135]
具体的,本实施例中通过数据集中的文档对初始模型中的模型参数如权重等参数进行优化训练。
[0136]
步骤603:根据数据集中的文档,获得初始模型对应的模型语义连贯性参数。
[0137]
其中,模型语义连贯性参数表征初始模型输出的主题的语义连贯性。
[0138]
具体的,本实施例中可以使用数据集中的文档,对初始模型输出的主题进行语义连贯性解析,进而根据解析出的主题的语义连贯性来获得初始模型的模型语义连贯性,用模型语义连贯性参数表示。
[0139]
步骤604:根据模型语义连贯性参数,对初始模型进行筛选,以得到主题模型。
[0140]
在一种实现方式中,本实施例中可以将模型语义连贯性参数大于或等于连贯性阈值的初始模型确定为主题模型,或者,本实施例中将模型语义连贯性参数最大的初始模型确定为主题模型。
[0141]
在另一种实现方式中,每个初始模型可以对应有多个模型语义连贯性参数,每个模型语义连贯性参数对应的获得方式不同,本实施例中可以针对不同的获得方式,对初始模型的模型语义连贯性参数从大到小进行排序,根据各个模型语义连贯性参数的排序位置获得该初始模型的排序平均值,再按照排序平均值在多个初始模型中筛选出主题模型。例如,将该初始模型在多个获得方式上对应的各个模型语义连贯性参数的排序位置按照获得方式的数量求平均,进而将所得到的排序平均值从大到小排序到在前y个或排序平均值大于或等于平均值阈值的初始模型确定为主题模型,y为大于或等于1的正整数。
[0142]
在一种实现方式中,步骤603中在根据所述数据集中的文档,获得所述初始模型对应的模型语义连贯性参数时,可以通过如下方式实现,如图7中所示:
[0143]
步骤701:将数据集中的目标语句输入初始模型,以得到目标语句对应的预测主题。
[0144]
其中,本实施例中可以将目标语句输入到初始模型中,以得到每个目标语句对应的预测主题。预测主题为初始模型针对目标语句输出的主题概率从大到小排序在前x位的
主题或主题概率大于或等于主题阈值的主题。
[0145]
步骤702:根据数据集中的文档,获得每个预测主题对应的主题语义连贯性参数。
[0146]
其中,主题语义连贯性参数表征预测主题的语义连贯性。
[0147]
具体的,本实施例中可以在数据集中的文档中,获得与预测主题相关联的词,然后基于每个预测主题对应的这些词,获得每个预测主题对应的主题语义连贯性参数。
[0148]
步骤703:按照预测主题对应的权重,对预测主题对应的主题语义连贯性参数进行处理,以得到初始模型对应的模型语义连贯性参数。
[0149]
其中,预测主题对应的权重为:数据集中包含预测主题的文档的数量与数据集中所有文档的数量之间的比值。
[0150]
具体的,本实施例中可以,对预测主题对应的主题语义连贯性参数按照预测主题对应的权重进行加权求和,以得到初始模型对应的模型语义连贯性参数。
[0151]
其中,步骤702中在根据数据集中的文档,获得每个预测主题对应的主题语义连贯性参数时,可以通过以下方式获得,如图8中所示:
[0152]
步骤801:在数据集所包含的文档中提取与预测主题相关联的词,以得到词集合。
[0153]
其中,一个预测主题对应于一个词集合,词集合中包含有该预测主题在数据集所包含的文档中所关联的词。
[0154]
步骤802:对词集合中的词进行切分,以得到多个词集对;每个词集对中包含两个词集。
[0155]
具体的,本实施例中可以通过预设的切分算法对词集合划分成若干组词集对,这些词集对构成相应的集合。
[0156]
步骤803:按照数据集中滑动窗口,获得每个词集对中两个词集对应的共现概率。
[0157]
其中,滑动窗口中词的数量根据数据集中的文档获得。
[0158]
在一种实现方式中,滑动窗口中词的数量可以通过以下方式获得:
[0159]
首先,针对数据集中的每个文档,将文档中词的数量除以第一词集合中词的数量,以得到第一比值;第一词集合中的词为:对文档中去掉预设的停用词后剩余的词进行词形还原后的词;
[0160]
之后,根据每个文档对应的第一比值,获得第一数量,第一数量为滑动窗口中词的数量。
[0161]
也就是说,本实施例中先针对数据集中的每个文档,去掉预设的停用词后,对剩余的词进行词形还原,然后,将每个文档中最后剩余的词组成第一词集合,基于此,将每个文档中词的数量除以该文档对应的第一词集合中的词的数量,由此得到第一比值,然后根据第一比值获得滑动窗口中词的数量。例如,将第一比值按照文档的数量求平均,将得到的平均值取整数作为滑动窗口中词的数量。
[0162]
在另一种实现方式中,滑动窗口中词的数量可以通过以下方式获得:
[0163]
首先,针对数据集中的每个文档,将文档中词的数量除以第二词集合中词的数量,以得到第二比值;第二词集合中的词为:第一词集合中的目标名词,即目标领域对应的词。
[0164]
之后,根据每个文档对应的第二比值,获得第二数量,所述第二数量为所述滑动窗口中词的数量。
[0165]
也就是说,本实施例中先针对数据集中的每个文档,去掉预设的停用词后,对剩余
的词进行词形还原,然后,将每个文档中最后剩余的词组成第一词集合,再然后提取第一词集合中的目标名词以组成第二词集合,基于此,将每个文档中词的数量除以该文档对应的第二词集合中的词的数量,由此得到第二比值,然后根据第二比值获得滑动窗口中词的数量。例如,将第二比值按照文档的数量求平均,将得到的平均值取整数作为滑动窗口中词的数量。
[0166]
基于以上实现,在一种实现方式中,步骤803中可以按照如下方式获得每个词集对中两个词对应的共现概率:
[0167]
针对每个词集对,将数据集中同时包含词集对中两个词的滑动窗口的数量除以数据集中所能够形成的滑动窗口的数量,以得到每个所述词集对中两个词对应的共现概率。
[0168]
在另一种实现方式中,步骤803中也可以按照如下方式获得每个词集对中两个词对应的共现概率:
[0169]
针对每个词集对,将数据集中同时包含词集对中两个词以及与词集对中的词相关联的词的滑动窗口的数量除以数据集中所能够形成的滑动窗口的数量,以得到所述每个词集对中两个词对应的共现概率。
[0170]
步骤804:针对每个词集对,至少根据共现概率,获得词集对中两个词集之间的关联程度参数。
[0171]
具体的,本实施例中可以通过计算词集对中两个词集关联程度的函数similarity(
·
),基于共现概率,获得到词集对中两个词集之间的关联程度参数。
[0172]
在一种实现方式中,本实施例中可以通过uci_npmi算法对共现概率进行处理,以得到词集对中两个词集之间的关联程度参数。
[0173]
在另一种实现方式中,本实施例中可以通过c_v算法对共现概率进行处理,以得到词集对中两个词集之间的关联程度参数。
[0174]
在其他实现方式中,本实施例中也可以结合单现概率和共现概率获得词集对中两个词集之间的关联程度参数,具体如下:
[0175]
根据共现概率、词集对中第一词集对应的单现概率和词集对中第二词集对应的单现概率,获得词集对中两个词集之间的关联程度参数;
[0176]
其中,词集对中第一词集对应的单现概率为:将数据集中包含词集对中第一词集的滑动窗口的数量除以数据集中所形成的滑动窗口的数量。
[0177]
而词集对中第二词集对应的单现概率为:将数据集中包含词集对中第二词集的滑动窗口的数量除以数据集中所形成的滑动窗口的数量。
[0178]
步骤805:根据每个词集对中两个词集之间的关联程度参数,获得预测主题对应的主题语义连贯性参数。
[0179]
具体的,本实施例中可以对所有词集对中两个词集之间的关联程度参数按照词集对的数量求平均,以得到预测主题对应的主题语义连贯性参数。
[0180]
其中,主题语义连贯性参数用coherence_score(topic)表示,coherence_score(topic)可以通过以下公式(5)获得:
[0181]
[0182][0183]
其中,w为与预测主题相关联的词组成的集合,w_pairs为w划分出的词集对组成的集合,《ω

,ω

》i为词集对,其中包含两个词集ω

和ω


[0184]
在一种实现方式中,本实施例中通过u_mass算法获得到的词集对中两个词集之间的关联程度参数用表示,ωi为第i个词集,ωj为第j个词集,n为w
pairs
中词集的数量,ωi和ωj组成一个词集对。基于此,可以通过以下公式(6)获得:
[0185][0186]
在另一种实现方式中,本实施例中通过uci_npmi算法获得到的词集对中两个词集之间的关联程度参数用similarity
uci_npmi
(ωi,ωj)表示,similarity
uci_npmi
(ωi,ωj)可以通过以下公式(7)获得:
[0187][0188]
其中,npmi(ωi,ωj)可以通过以下公式(8)获得,npmi(ωi,ωj)为对词集对中的两个词集的点互信息进行归一化处理得到的点互信息:
[0189][0190]
需要说明的是,公式(7)中的npmi(ωi,ωj)可以替换为pmi(ωi,ωj),可以通过以下公式(9)获得:
[0191][0192]
在另一种实现方式中,本实施例中通过uci_npmi算法获得到的词集对中两个词集之间的关联程度参数用similarity
c_v
(ωi,ωj)表示,similarity
c_v
(ωi,ωj)可以通过以下公式(10)获得:
[0193]
[0194]
其中,通过以下公式(11)获得:
[0195][0196]
以上方案中,滑动窗口中词的数量可以使用第一数值或第二数值,其中,第一数量用sliding_window_sizea表示,第二数量用sliding_window_sizeb表示,sliding_window_sizea可以通过如下公式(12)获得,sliding_window_sizeb可以通过如下公式(13)获得:
[0197][0198][0199]
基于以上方案,在获得到各预测主题topic的主题语义连贯性参数coherence_score(topici)之后,通过如下公式(14)获得模型语义连贯性参数coherence_score(model):
[0200][0201]
其中,doc_num(topici)为数据集中包含第i个预测主题topici的文档数量,total_doc_num为数据集中所有文档的数量。
[0202]
进一步的,在获得模型语义连贯性参数之后,可以按照如下公式(15)获得到多种指标下各初始模型的排名平均值score(model):
[0203][0204]
其中,m为获得模型语义连贯性参数的获得方式,如使用uci_npmi算法、滑动窗口选择size_a得出初始模型的coherence_score的方式;coherence_rankm(model)为m获得方式下所获得的该初始模型model的模型语义连贯性参数在所有初始模型中的排序位置,metrics为获得方式的数量。
[0205]
参考图9,为本技术实施例二提供的一种数据处理装置的结构示意图,该装置可以配置在能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主
要用于提高在文本中获取描述语句的效率。
[0206]
具体的,本实施例中的装置可以包含如下单元:
[0207]
文本获得单元901,用于获得目标文本;
[0208]
语句获得单元902,用于根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,所述描述语句包含所述目标文本中与所述目标领域相关的短语;
[0209]
语句输出单元903,用于输出所述描述语句;
[0210]
其中,所述目标领域为通过对目标文本中的短语进行解析而确定的。
[0211]
由上述方案可知,本技术实施例二提供的一种数据处理装置中,通过对文本中的短语进行解析,按照目标领域对应的语句描述规则构建出包含目标领域相关短语的描述语句,由此实现描述语句的输出。可见,本实施例中相对于人工对文本筛选目标领域的短语的方式,通过对文本中的短语进行解析来获得描述语句,从而达到提高描述语句的获取效率的目的。
[0212]
在一种实现方式中,语句获得单元902在根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句时,具体用于:
[0213]
获得所述目标文本的语法依存关系树,所述语法依存关系树中包含多个树节点,所述树节点对应于所述目标文本中的短语,所述树节点之间的连接关系表征所述目标文本中的短语之间的语法依存关系;
[0214]
根据所述语法依存关系树,获得目标语法结构,所述目标语法结构对应于所述目标文本中的目标名词,所述目标名词为表征目标领域的名词;
[0215]
在所述目标文本中,获得与所述目标语法结构对应的预设语义元素相对应的短语;
[0216]
按照目标领域对应的语句描述规则,将获得到的短语进行处理,以得到描述语句。
[0217]
在一种实现方式中,本实施例中的装置还可以包含如下单元,如图10中所示:
[0218]
摘要获得单元904,用于将所述描述语句输入主题模型,以得到所述描述语句对应的目标主题;根据所述描述语句,获得每个所述目标主题对应的短语,每个所述目标主题对应的短语为所述目标主题对应的所述描述语句中操作主体对应的短语、操作客体对应的短语以及操作本体对应的短语;针对每个所述目标主题,根据所述目标主题对应的短语,按照所述目标领域对应的语句描述规则,获得至少一个摘要语句。
[0219]
在一种实现方式中,本实施例中的装置还可以包含如下单元,如图11中所示:
[0220]
模型获得单元905,用于按照多个参数组分别构建初始模型,所述初始模型能够针对输入的语句输出相应的主题,所述参数组中包含至少一个建模参数;以数据集中每个文档内的目标语句为输入,以所述目标语句对应的标签主题为输出,对所述初始模型进行训练;根据所述数据集中的文档,获得所述初始模型对应的模型语义连贯性参数;所述模型语义连贯性参数表征所述初始模型输出的主题的语义连贯性;根据所述模型语义连贯性参数,对所述初始模型进行筛选,以得到主题模型。
[0221]
具体的,模型获得单元905在根据所述数据集中的文档,获得所述初始模型对应的模型语义连贯性参数时,具体用于:将所述数据集中的所述目标语句输入所述初始模型,以得到所述目标语句对应的预测主题;根据所述数据集中的文档,获得每个所述预测主题对应的主题语义连贯性参数;所述主题语义连贯性参数表征所述预测主题的语义连贯性;按
照所述预测主题对应的权重,对所述预测主题对应的主题语义连贯性参数进行处理,以得到所述初始模型对应的模型语义连贯性参数。
[0222]
其中,模型获得单元905在根据所述数据集中的文档,获得每个所述预测主题对应的主题语义连贯性参数时,具体用于:在所述数据集所包含的文档中提取与所述预测主题相关联的词,以得到词集合;对所述词集合中的词进行切分,以得到多个词集对;每个所述词集对中包含两个词集;按照所述数据集中滑动窗口,获得每个所述词集对中两个词集对应的共现概率;针对每个所述词集对,至少根据所述共现概率,获得所述词集对中两个词集之间的关联程度参数;根据每个所述词集对中两个词集之间的关联程度参数,获得所述预测主题对应的主题语义连贯性参数。
[0223]
具体的,所述滑动窗口中词的数量根据所述数据集中的文档获得。
[0224]
在一种实现方式中,本实施例中的装置还可以包含如下单元,如图12中所示:
[0225]
名词获得单元906,用于提取所述目标文本中的初始名词;获得每个所述初始名词在预设词库中的第一词频和所述初始名词在所述目标领域中的第二词频;根据所述第一词频和所述第二词频,获得每个所述初始名词的领域特定程度参数,所述领域特定程度参数表征所述初始名词与所述目标领域相关联的程度;根据所述领域特定程度参数,在所述初始名词中获得所述领域特定程度参数大于或等于程度阈值的名词,以得到目标名词。
[0226]
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。
[0227]
参考图13,为本技术实施例三提供的一种电子设备的结构示意图,该电子设备可以包括如下结构:
[0228]
存储器1301,用于存储计算机程序以及所述计算机程序运行所产生的数据;
[0229]
处理器1302,用于执行所述计算机程序,以实现:获得目标文本;根据所述目标文本中的短语,按照目标领域对应的语句描述规则,获得描述语句,所述描述语句包含所述目标文本中与所述目标领域相关的短语;输出所述描述语句;其中,所述目标领域为通过对目标文本中的短语进行解析而确定的。
[0230]
由上述方案可知,本技术实施例三提供的一种电子设备中,通过对文本中的短语进行解析,按照目标领域对应的语句描述规则构建出包含目标领域相关短语的描述语句,由此实现描述语句的输出。可见,本实施例中相对于人工对文本筛选目标领域的短语的方式,通过对文本中的短语进行解析来获得描述语句,从而达到提高描述语句的获取效率的目的。
[0231]
以目标文本为运维文本为例,为获得运维文本中的问题描述和问题摘要,以下对本技术的技术方案进行举例说明:
[0232]
本技术的技术方案以it运维服务中产生的运维文本为输入,进行自然语言语法分析,建立特定语法单元与运维问题语义要素之间的对应关系,以短语形式描述文本中提到的运维问题。进而利用主题建模技术从中挖掘运维常见问题类别,并总结提取出问题摘要。同时定义了适用于短语形式语料库的主题模型语义连贯性评估指标,支持主题模型在自定义参数范围内自动调优。
[0233]
本技术的技术方案的核心要点如下:
[0234]
1、从it运维文本提取短语形式的运维问题描述:
[0235]
a、通过自定义算法锁定文本中的常用领域名词,解析识别出的领域名词所在文本的语法结构,提取从核心词出发到语法树叶子节点的语法依存关系链条。
[0236]
b、提取运维文本语料库中的所有语法关系链条,生成语法节点和语法关系上的概率状态转移图,得到高频语法结构。
[0237]
c、建立高频语法结构单元与运维问题中特定语义要素之间的对应逻辑,基于此提取运维文本中的运维问题语义要素,根据原始文本的语法结构,构造短语形式的运维问题描述。
[0238]
2、利用主题建模技术从短语语料库中挖掘运维问题分类:
[0239]
a、基于短语形式的运维问题描述语料库,建立主题模型(如lda模型),挖掘文本主题作为运维问题分类。
[0240]
b、定义适用于短语形式语料库的主题模型语义连贯性评估指标,实现模型参数的自动调优,具体包括:
[0241]
1)根据短语形式的语料库数据特征自动设定评估算法中的滑动窗口参数,使得评价指标更适合本技术的实现场景。
[0242]
2)基于主题和文本间的分布关系,在聚合各主题语义连贯性时加入主题在模型中的重要性侧重点。
[0243]
3)综合语义连贯性的三种侧重点不同的算法,根据模型综合排名定义评估结果。
[0244]
3、生成运维问题分类的概要描述:
[0245]
a、以主题模型的主题作为运维问题分类,分析语料库中各条短语描述的相关主题,按照主题聚合相关的运维问题短语描述。
[0246]
b、统计分析每个主题相关描述中的运维语义要素,根据原始文本的语法结构,生成运维问题分类的概要描述。
[0247]
可见,采用本技术的技术方案之后具有如下优势:
[0248]
1、为it运维问题提供一种简短精炼、半结构化的描述:
[0249]
本技术中从it运维文本中提取短语形式的运维问题描述,直接聚焦到运维问题涉及的系统、工具等事物,以及异常问题、受阻操作等场景。这解决了运维文本的口语化、详略程度不一、质量参差不齐、包含较多噪音等数据质量问题。因此:
[0250]
本技术提高了数据质量,提取出运维问题的半结构化信息,便于机器自动分析运维文本,支持更多的智能运维分析场景。而且,本技术中,更精炼的运维问题描述帮助运维工程师、数据分析人员提高了人工阅读、分析、总结运维文本的效率。
[0251]
2、自动挖掘运维文本中蕴含的运维问题分类,并提供可读性和可理解性良好的描述:
[0252]
本技术中使用主题模型分析运维问题的短语描述,以主题为问题类型,基于主题相关的短语构造问题描述,因此:
[0253]
a、无需预定义的问题分类体系,无监督地挖掘运维问题分类,解决了运维问题分类体系复杂、变化频繁,有监督学习需要的人力开销大等问题。
[0254]
b、解决了运维问题分类的自动摘要和描述问题。传统主题模型的主题以词表示可理解性差,结合相关短语中的信息,可以为每个主题(即问题分类)提供可理解性良好的描述,并无需人工标注;同时,以短语描述问题类型,又比传统文本摘要方法的语句级输出有
更好的可读性。
[0255]
3、实现主题模型训练的参数自动调优:
[0256]
本技术中支持模型参数的定制化,基于模型输入数据的特点设计模型评估方法,可以在自定义参数组合范围中自动地选择最优参数组合、最优模型。
[0257]
本技术提出的基于it运维文本的运维问题挖掘与描述方法流程图如图14中所示。it运维文本来自于it运维数据(如工单、日志、告警信息、邮件等)中提取的自然语言文本。本方法的第一步,从it运维文本中提取短语形式的运维问题描述。第二步,基于短语语料库建立主题模型,挖掘文本中蕴含的运维问题分类。第三步,基于主题模型的主题和相关短语描述,提取每一类问题的摘要描述。如下:
[0258]
1、从it运维文本中提取短语形式的运维问题描述:
[0259]
如图15的运维问题短语描述的提取流程图所示。主要包括以下步骤:
[0260]
1)识别运维文本中的领域名词;
[0261]
2)解析运维文本的完整语法依存关系树;
[0262]
3)基于1)、2)的输出,提取领域名词上下文的语法依存关系链条;
[0263]
4)基于运维文本数据集中的所有语法依存关系链,生成概率状态转移图,挖掘高频语法结构;
[0264]
5)建立语法结构单元与运维问题特定语义元素间的对应关系;
[0265]
6)基于5)定义的逻辑,从运维文本中提取短语形式的运维问题描述。
[0266]
1.1、识别领域名词:
[0267]
提取运维文本中的名词短语,通过比较文本中的名词词频分布与开放领域的名词词频分布,识别领域常用术语/概念/实体(以下统称领域名词)。
[0268]
首先,开放领域词频的获取,如:根据开放领域的英文语料库中提供的词频数据,计算开放领域中每个名词的词频,即第一词频。
[0269]
然后,特定领域词频的获取,如:给定运维文本数据集,完成分词、词形还原等预处理后,进行词性标注,识别其中的所有名词,并特别标记名词短语中的核心名词。对这些名词,计算其在全数据集(包括非名词)中的词频,即第二词频。
[0270]
其次,词的领域特定程度的获取:
[0271]
1)过滤低频词和噪音词:
[0272]
考虑到部分词存在拼写错误或者偶然因素,本技术中先过滤部分低频名词。过滤阈值的获取参考公式(1)。词频低于该阈值的词被过滤。同时,没有充当过名词短语中的核心名词的词也被过滤。
[0273]
2)领域特定程度:
[0274]
词的领域特定程度用同一个词在本领域和开放领域的词频之比值(domain_specific_ratio(word))来度量,为缩小数据绝对值,本技术中可以通过公式(2)对比值进行对数化。
[0275]
考虑到仅在本领域语料中出现而未在开放领域预料中出现的情形,使用sigmoid函数对上述指标进行平滑和归一化,如公式(3)中所示。
[0276]
最后,筛选领域名词:
[0277]
筛选领域名词的阈值根据领域数据集中各名词的领域特定程度的统计参数确定,
阈值如公式(4)中所示。如果一个名词的领域特定程度超过上述阈值,则认为该词属于领域名词。
[0278]
例如,以某产品的it运维工单为例展示上述实现过程。
[0279]
该数据集的领域词频计算结果显示:
[0280][0281]
σ(domain
_
specific_weight(word))=0.0999
[0282][0283]
据此,计算某工单文本“the client user cannot receive verification code after upgrading the os system.”一句中,verification一词的领域特定程度:
[0284][0285]
因此,vertification属于领域名词,它所在在名词短语vertification code被识别为领域词组。
[0286]
1.2分析运维文本的语法结构:
[0287]
为每条运维文本:

解析其语法依存关系树;

提取领域名词上下文的语法依存关系链;

挖掘运维文本数据集中的常见语法结构。
[0288]
1.2.1提取领域名词上下文的语法依存关系链条:
[0289]
基于解析运维文本得到的语法依存关系树:
[0290]
a)识别领域名词,在语法树中识别其对应节点;
[0291]
b)找到与领域名词节点直接关联的动词节点,以该“领域名词

动词”为初始关联;
[0292]
c)从上述初始关联出发,沿依存关系指向,追溯到语法树叶子节点,得到语法依存关系链条。
[0293]
从一个领域名词出发,可能得到多条语法依存关系链条。此过程的实现用伪代码描述下:
[0294]
输入:一段文本(text)
[0295]
输出:领域名词上下文的语法依存关系链条(dependency_paths)
[0296]
算法代码:
[0297][0298]
以前述的it运维工单描述“the client user cannot receive verification code after upgrading the os system.”为例,构建的语法依存关系树如图16所示。
[0299]
从领域名词“verification code”出发,按上述算法执行,可以得到如下语法依存关系链:
[0300]
verificationcode

(dobj)

receive

(prep)

after

(pcomp)

upgrading

(d obj)

the os system
[0301]
verification code

(dobj)

receive

(neg)

not
[0302]
verification code

(dobj)

receive

(aux)

can
[0303]
verification code

(dobj)

receive

(nsubj)

the client user
[0304]
这里涉及的语法依存关系类型包括:
[0305]
dobj直接宾语,prep介词修饰语,pcomp介词补足语,neg否定词,aux助动词,nsubj主语。
[0306]
1.2.2挖掘运维文本数据中的常见语法结构:
[0307]
此部分发现运维文本中的常见语法结构,用于与运维语义元素建立对应关系:
[0308]
a)解析运维文本数据集中所有文本的语法树,提取所有领域名词相关语法依存关系链条;
[0309]
b)将全部语法关系链对应的语法依存关系序列转写为概率状态转移图;
[0310]
c)合并语法关系状态图中的相似语法结构,发现高频语法结构。
[0311]
其中,转写状态转移图的算法伪代码描述如下:
[0312]
输入:若干语法关系链条(dependency_paths)
[0313]
输出:语法关系的概率状态转移图(state_diagram)
[0314]
算法:
[0315][0316][0317]
如图17中所示,为基于某工单数据分析生成的语法依存关系状态转移图(局部)。
[0318]
通过分析状态转移图,本技术识别出发生频率p》0.05的高频语法结构;同时根据语法依存关系类型,去除表示子句、从句及之间连接关系的conj、advcl、ccomp等前后语义间隔明显的语法依存关系。据此,本技术识别出it运维文本中的高频语法依存关系结构:
[0319]
a)dobj:动词+宾语(领域名词)
[0320]
b)nsubj+dobj/dobj+nsubj:主语(领域名词)+谓语+宾语(另一领域名词)
[0321]
c)nsubj:主语(领域名词)+动词
[0322]
d)nsubjpass:主语(领域名词)+被动式动词
[0323]
e)nsubj+advmod:主语(领域名词)+系词+表语
[0324]
f)+prep+pobj:上述结构均有可能连接+介词/连词+名词短语
[0325]
1.3基于语法结构提取运维问题的短语描述:
[0326]
运维文本中描述的运维问题通常可以分为两类:执行某操作时受阻;某事物处于异常状态。其中,操作的主体(subject)是操作的执行者,客体(object)是操作的执行对象。运维领域中的主客体和事物包含诸如产品、设备、系统、工具、软件、用户、工程师等具象或抽象概念。
[0327]
结合上述分析所得的高频语法结构,本技术建立高频语法结构单元与运维问题特定语义元素间的对应关系。根据该逻辑关系,可以从运维文本中提取出描述运维问题的短语片段,并对应到特定的运维问题语义元素,如下表1所示:
[0328][0329]
以某实际it运维工单描述“the client user cannot receive verification code after upgrading the os system.”为例,提取出的运维问题短语描述为:
[0330]
a)client user not receive verification code:
[0331]
操作主体:client user;
[0332]
操作:receive;
[0333]
操作客体:verification code。
[0334]
b)upgrade os system:
[0335]
操作:upgrade;
[0336]
操作客体:os system。
[0337]
2、基于主题模型从运维问题的短语描述中挖掘问题分类:
[0338]
如图18所示,为基于主题模型从运维问题短语描述中挖掘运维问题类型的过程。
此部分基于前一部分的输出,即运维问题的短语描述,利用主题模型挖掘运维文本中的常见问题分类。主要包括以下步骤:
[0339]
1)通过分词、词形还原、停用词过滤、词袋化等处理,将每条运维问题的短语描述转化为词袋形式的文档,构成主题建模过程的输入语料库。
[0340]
2)自定义参数范围,训练不同建模参数组合下的主题模型。
[0341]
3)根据语料库数据特征,定义主题模型评估公式,评估候选主题模型的效果,确定最优参数组合和最优主题模型。
[0342]
4)以主题模型主题为问题分类,聚合相关的运维问题短语描述,提取问题类别的描述。
[0343]
2.1、主题模型的评估方法:
[0344]
根据输入数据特点,在评估主题模型效果时,本技术根据数据特点定义了一种基于语义连贯性的评估指标。语义连贯性度量的是与主题相关的各单词之间在语义上的关联程度,主题内的各单词关联程度越高,主题的语义连贯性越高,该主题的质量也越好。
[0345]
其中,评估指标的定义和使用具体包括以下几个关键环节:
[0346]
2.1.1、计算语义连贯性的基础算法
[0347]
本技术在三种语义连贯性评估算法上进行改进,并综合三种基础算法的评估结果。主题的语义连贯性评分通用公式如公式(5)
[0348]
其中,与topic关联的词构成集合w,根据算法将词集w切分为若干组词集对,这些词集对构成集合w_pairs,每一个词集对《ω’,ω

》包含两个词集ω’,ω

,都是集合w的子集。similarity(
·
)即计算词集对中的两个词集关联程度的函数。
[0349]
1)语义连贯性评估的三种基础算法:
[0350]
本技术使用u_mass、uci_npmi、c_v三种算法计算语义连贯性。通常地,两个单词或单词集合的关联程度,是基于它们在数据集文档中的共现和单独出现频率来计算的,不同评估算法在切分词集和计算关联度时侧重点不同。这三种算法分别侧重于:
[0351]
a)u_mass算法:
[0352]
将每个词只与主题中位于其前面的词(one-preceding)组对分割,以文档为单位统计共现次数,计算条件概率,如公式(6)所示。
[0353]
b)uci_npmi算法:
[0354]
将主题词集中每个单词两两组对(one-one)组对进行分割,计算点互信息(pointwise mutual information,pmi)并进行归一化(normalize)处理,统计共现时基于文档中的滑动窗口。该方法侧重考虑共现之间的距离,和单文档之内的多次共现。具体可以参考公式(7)、公式(8)以及公式(9)。
[0355]
c)c_v算法:
[0356]
考虑单词在全数据集中的常见共现单词,在统计两词共现时纳入与这两词经常共现的词的共现频率,具体可以参考公式(10)和公式(11)。
[0357]
2)根据数据集特征设置滑动窗口参数:
[0358]
除u_mass方法外,另两个方法均需给定滑动窗口。与前人工作通常所基于的数据集不同,本技术针对的数据都是短语形式,文档长度明显小于常用数据集,因此在选择滑动窗口时要根据数据集特点予以调整。具体地,可以定义两种滑动窗口大小,相应地从每个指
标算法派生出两种度量公式,如公式(12)和公式(13)中所示。
[0359]
其中,d是数据集的文档集合,doci是d中的文档,可以与w一样。|doci|表示文档的长度,valid_word_set(doci)表示该文档中去除停用词、词形还原后所有的单词集合,domain_specific_word_set(doci)则在上述集合中进一步过滤,只保留领域特定词。
[0360]
2.1.2、基于主题权重计算模型的语义连贯性:
[0361]
语义连贯性指标算法中的聚合方法,最常用的是对各主题的连贯性评估结果求平均值。本技术更关注可以被识别为问题分类并且覆盖面广的主题,因此本算法在计算语义连贯性时以主题相关的文档数量作为主题权重,对每个主题的语义连贯性求加权平均值,得出该模型的整体语义连贯性评估结果,如列公式(14)中所示。
[0362]
其中,topic是model中的主题,n是主题总数量。对数据集中的每个文档,基于主题模型计算与该文档相关的主题及其概率分布,选取相关概率最高的主题作为与该文档关联最密切的支配性主题,doc_num(topici)即该主题所支配文档的数量,即主题权重。
[0363]
2.1.3、聚合多指标排名选择最优模型及对应参数组合:
[0364]
分别对每种指标下各模型的表现进行排名,计算每种参数组合所生成模型在各种指标下排名的平均值,取平均排名最靠前者作为最优参数组合,对应训练出的模型为最优模型,如公式(15)所示。
[0365]
其中,公式(15)中的coherence_rank表示该模型的语义连贯性得分(coherence_score)在所有候选模型中的排序名次,m表示评估方法集合metrics中的一种评估方法。例如,基于100种参数组合生成了100个候选模型,使用uci_npmi算法、滑动窗口选择size_a得出每个模型的coherence_score,某模型model1的得分在所有模型分数中排名第20位,则该模型的coherence_rank
uci_npmi(sw_a)
(model1)=20。
[0366]
其中,第2步中的基于主题建模挖掘运维问题分类的全部过程可以用以下伪代码进行描述:
[0367]
输入:词袋形式的语料数据集(corpus,a set of word sets),参数择优范围(parameter_combinations)
[0368]
输出:最优模型(best_model)、最优参数组合(best_parameter_combination)
[0369]
算法:
[0370][0371]
3、生成运维问题类型的描述:
[0372]
基于使用运维问题短语描述语料训练的主题模型,以模型主题为问题分类,采用以下方法生成每个问题分类的描述:
[0373]
1)基于主题模型,计算与每条运维问题描述相关的主题概率分布,选取概率最大的主题,与该条描述建立关联;
[0374]
2)按主题聚合运维问题描述,统计每个主题下所有运维问题描述中的高频主客体和高频操作;
[0375]
3)根据高频语法结构模板,按照频度从高到低组合高频主客体和操作构成短语,保留在该主题相关描述中真实存在的短语组合,依频率从高到低顺序作为该问题类型的描述。
[0376]
以某实际it运维工单2022年第一季度数据为例,本技术进行主题建模识别出的问题分类及常见问题汇总,如图19中所示,为从2022年第一季度it运维工单中挖掘出的若干常见问题类型及其描述。
[0377]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0378]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和
软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0379]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0380]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1