基于频繁项集算法的电力文本知识发现方法及设备

文档序号：31158332发布日期：2022-08-17 07:29阅读：来源：国知局

技术特征：
1.基于频繁项集算法的电力文本知识发现方法，其特征在于，包括以下步骤：步骤一，建自然语言处理与信息抽取模型；所述自然语言处理与信息抽取模型，用于获取电力文本句法结构知识并构建本体字典，对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理，形成电力数据文本；步骤二，对步骤一中的电力数据文本进行识别抽取，形成电力设备故障诊断数据库；步骤三，构建关联规则挖掘模型；关联规则挖掘模型采用频繁项集算法构建频繁模式树fp-tree，对步骤二中的电力设备故障诊断数据库进行压缩，并保留频繁项集的关联信息；步骤四，根据步骤三中的关联信息，将电力设备故障诊断数据库中的各数据项按照支持度排序，形成电力数据组；步骤五，将步骤四中电力数据组中的每个数据项按降序或升序依次插入到频繁模式树fp-tree的节点中，识别出频繁出现的属性值集，同时每个节点处均记录该节点出现的支持度；步骤六，根据步骤五中的属性值集以及支持度，获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。2.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述实体识别包括以下内容：步骤11，基于深度学习模型，构建神经网络模型并利用神经网络模型将文字符号特征表示为分布式特征信息；步骤12，利用步骤11中的分布式特征信息，优化网络参数，训练网络模型；步骤13，利用步骤12中的网络模型对电力文本中的语句实体进行识别。3.如权利要求2所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述深度学习模型基于双向长短时记忆网络bi-lstm以及条件随机场crf进行构建；所述双向长短时记忆网络bi-lstm包括输入门、遗忘门、输出门，其基于上一时刻的隐藏层信息和本时刻的输入信息计算三个门机制的值，再与上一时刻存储单元中的信息进行整合得到本时刻的单元输出，同时对隐藏层信息和存储单元信息进行更新作为下一时刻双向长短时记忆网络bi-lstm的输入；双向长短时记忆网络bi-lstm的计算公式如下：i＝σ(x
t
u
i
+s
t-1
w
i
)f＝σ(x
t
u
f
+s
t-1
w
f
)o＝σ(x
t
u
o
+s
t-1
w
o
)g＝tanh(x
t
u
g
+s
t-1
w
g
)c
t
＝c
t-1
＊f+g＊is
t
＝tanh(c
t
)＊o其中x
t
表示t时刻网络输入值，s
t-1
表示t-1时刻隐藏层神经元的激活值，c表示记忆单元，u、w分别表示模型参数，σ表示sigmoid激活函数，s
t
表示t时刻lstm隐藏层的激活值，i、f、o分别表示输入门、遗忘门、输出门。
4.如权利要求3所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述条件随机场crf基于隐马尔可夫模型和最大熵模型进行构建，其计算公式如下：所述条件随机场crf基于隐马尔可夫模型和最大熵模型进行构建，其计算公式如下：其中，x为输入电力文本序列，y为实体标注序列，p(y/x)为给定x条件下输出序列y的条件概率分布，s
i
(y
i
，x，i)为状态特征函数，t
k
(y
i-1
，y
i
，x，i)，z(x)为规范因子。5.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述分词与词性标注，包括以下内容；步骤21，根据收集整理好的若干份电力文本整理，得到的电力分词语料库；步骤22，采用空格的方式，通过深度学习模型，将步骤21中的电力分词语料库的词一一分割出来，并对词进行词性标注；所述词性为名词或动词或形容词或副词或量词；所述新词发现基于序列标注方法与基于信息熵进行词挖掘。6.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述事件单元抽取包括以下内容；通过对电力文本进行离线挖掘，找出词与词的相近、同义关系，进行词的标准化；通过分析语言单位内成分之间的依存关系，得到其句法结构；建立实体/属性/值的链接模型，将电力文本中出现的术语或别名与知识库节点/词典中标准词建立对应关系；建立属性值抽取模型、属性值推理模型，对给定输入设备的电力文本，识别出电力文本中目标命名实体对应的属性与对应值，抽取出标准化的实体、属性、值三元组，并作为输入信息输入至关联规则挖掘模型。7.如权利要求1所述的基于频繁项集算法的电力文本知识发现方法，其特征在于，所述频繁项集算法的具体实现过程如下：s1：构造频繁1项集模型，对电力文本数据集进行扫描并设定最小支持度，统计所有单个元素的支持度，删除不满足给定的最小支持度的元素，将频繁1项集放入项头表，并按照支持度降序排列；s2：根据s1中的频繁1项集模型，对原始数据进行扫描，剔除非频繁1项集数据，并按照支持度降序排列，形成顺序数据集；s3：将s2中的顺利数据集按照顺序输入到频繁模式树fp-tree中；排序靠前的节点是祖先节点，而排序靠后的节点是子孙节点；如果有共用的祖先，则对应的公用祖先节点计数加1；插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点；直到所有的数据都插入到频繁模式树fp-tree后，频繁模式树fp-tree在关联规则挖掘模型中建立完成；s4：挖掘频繁项集，其包括以下内容：关联规则挖掘模型对频繁模式树fp-tree由叶子节点到根节点的顺序进行遍历，生成每个频繁元素节点的条件模式基，以所查找项为终点的路径集合，表示所查找项与树根节
tree，识别出频繁出现的属性值集以及每个节点处的支持度，获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则。

技术总结
本发明公开了基于频繁项集算法的电力文本知识发现方法及设备，属于电力设备运维技术领域。本发明的基于频繁项集算法的电力文本知识发现方法，构建自然语言处理与信息抽取模型，获取电力文本句法结构知识并构建本体字典，对电力文本进行实体识别、分词与词性标注、新词发现以及事件单元抽取处理，使得电力文本分布规律、形式统一，形成电力数据文本。同时，本发明构建关联规则挖掘模型，利用频繁项集算法构建频繁模式树FP-tree，识别出频繁出现的属性值集以及每个节点处的支持度；从而获取电力文本中故障现象特征与故障发生原因、处置方案之间的关联规则，发现电力文本中蕴含的知识，为电力设备故障诊断提供更精准的辅助决策。策。策。

技术研发人员：梅冰笑蔺家骏王渊李晨王雅雯陈珉张强马国明邵先军杨智金凌峰
受保护的技术使用者：华北电力大学国网智能电网研究院有限公司
技术研发日：2022.05.17
技术公布日：2022/8/16

完整全部详细技术资料下载

当前第2页1 2