一种半结构化文本处理及分析方法与流程

文档序号:22796444发布日期:2020-11-04 03:49阅读:135来源:国知局
一种半结构化文本处理及分析方法与流程

本发明涉及文本分类技术领域,具体涉及一种基于海量特种设备检修报告的半结构化文本处理及分析方法。



背景技术:

特种设备是指涉及生命安全,危险性比较大的设备,如锅炉、起重机械、压力容器等。特种设备运行维护过程中积累了大量检修报告。检修报告文本中蕴含着丰富的设备状态信息,对于设备的异常检测,缺陷诊断及健康状态评估都有着十分重要的意义。

近年来随着自然语言处理技术的发展,对特种设备检修报告文本进行信息挖掘成为了可能。自然语言处理是人工智能技术的一个分支,目前在文本的理解、分类、摘要、信息抽取、知识问答、生成等方面被广泛的研究和应用。一般而言,针对文本的信息挖掘包括数据预处理、文本表示、特征提取、文本分类等步骤。其中,数据预处理包括分词、去停用词;文本表示即将文本转化为计算机能够识别的形式,如空间向量模型、概率模型、布尔模型等;最后利用统计量、信息增益、分类器等进行特征提取及文本分类,实现文本信息的深度解析。

检修报告属于一种特殊的文本形式,即半结构化文本。半结构化有着较为规范的结构和表达形式,以及较为自由的文本表达内容。往往针对此类文本的挖掘,难点有二:一是根据文本的结构和表达形式,定义知识获取的粒度,对文本进行文法描述和语义分析;二是构造合适的方案,挖掘出检修报告的蕴含的设备状态信息。目前在自然语言处理领域,已有工作通过引入领域本体,对药方、病历、音乐等半结构化文本进行解析。但在工业应用领域,针对检修报告这类半结构化文本的处理与分析仍是空白。因此,如何利用现有的基础,针对海量检修报告进行信息挖掘和设备健康状态评估,是亟需考虑的问题。



技术实现要素:

本发明要解决的技术问题是如何利用自然语言处理技术对特种设备运行维护过程中积累了大量检修报告进行文本预处理和文本分析,提供一种半结构化文本处理及分析方法。

本发明是通过下述技术方案来解决上述技术问题:

一种半结构化文本处理及分析方法,所述文本处理及分析方法包括:

将树状语义信息转换为词向量;

将所述词向量拼接为语义矩阵;

输入所述语义矩阵对双向长短期记忆网络按训练标签进行分类训练;

根据所述训练标签,所述双向长短期记忆网络的分类器输出设备状态预测结果。

进一步地,所述将树状语义信息转换为词向量之前还包括半结构化文本预处理:

参照领域本体及知识获取粒度定义知识抽取规则;

根据所述知识抽取规则对所述半结构化文本进行知识抽取生成所述树状语义信息。

较佳地,根据工程需求及计算资源来确定所述知识获取粒度。

较佳地,所述树状语义信息包括:设备性能参数,检验项目及内容,检验结果及结论。

进一步地,所述训练标签包括:健康状态,一般缺陷状态,重要缺陷状态及紧急缺陷状态。

进一步地,在所述输出设备状态预测结果之后还包括:

设置所述训练标签各状态权重,所述权重包括:健康状态权重,一般缺陷状态权重,重要缺陷状态权重及紧急缺陷状态权重;

所述分类器输出所述训练标签各状态概率,所述概率包括:健康状态概率,一般缺陷状态概率,重要缺陷状态概率及紧急缺陷状态概率;

根据所述权重和所述概率获取健康指数;

根据所述健康指数所属的状态区间评估所述设备状态。

较佳地,所述状态区间包括:健康状态区间,一般缺陷状态区间,重要缺陷状态区间及紧急缺陷状态区间,各所述区间由训练集中处于某同一状态的多台设备的所述健康指数构成。

在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。

本发明的积极进步效果在于:能够充分挖掘文本中蕴含的设备状态信息,将半结构化文本量化,并将设备状态分为健康,一般缺陷,重要缺陷,紧急缺陷四类,同时能够精准描述并评估设备健康状态,从而指导运维和检修策略,并且可以结合设备的结构化数据,实现基于异构数据的设备状态监测与评估。

附图说明

图1为本发明一种半结构化文本处理及分析方法一实施例中的步骤流程图;

图2为本发明一种半结构化文本处理及分析方法一实施例中的双向长短期记忆网络结构示意图。

具体实施方式

为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。本文所使用的术语“安装”、“一端”、“另一端”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示,为本发明一种半结构化文本处理及分析方法一实施例中的步骤流程图,

步骤s01:参照领域本体及知识获取粒度定义知识抽取规则;

在一个示例中,以桥式起重机为例,所述领域本体为:桥式起重机检修维护规程(含桥式起重机部件名称及检修项目名称)等行业内技术标准,所述领域本体为知识抽取提供了参考。所述知识获取粒度即所需要获取知识的细节程度,例如:当只需要读取起重机的主要检验项目结果,如安全保护和防护装置检查时,则所述知识获取粒度较粗;当需要读取所述主要检验项目的具体检验内容结果时,如安全保护和防护装置检查具体又包括制动器、起升高度限位器、运行行程限位器、报警装置、风速仪等,则所述知识获取粒度较细。一般地,获取粒度越细,效果越佳,但是计算量也随之增大,因此根据工程需求及计算资源来确定所需要的知识粒度。

步骤s02:根据所述知识抽取规则对所述半结构化文本进行知识抽取生成所述树状语义信息;

在一个可选的示例中,以桥式起重机为例,如知识获取粒度定义到主要检验项目结果,则将起重机作为根节点(一阶节点),安全保护和防护装置检查作为二阶节点,安全保护和防护装置检查的结果(合格/不合格)作为三阶节点,最终目的是获取整张检验报告的语法树,即树状语义信息。

步骤s03:将树状语义信息转换为词向量;

在一个可选的示例中,经文本预处理得到的树状语义信息,需要通过word2vec转化为词向量,供计算机读取识别。word2vec采用分布式表示思想,以无监督的方式深度学习语义信息,并通过低维实数稠密向量表达语义,可克服传统文本表示方法产生的语义稀疏,以及词之间互相孤立的不足等缺点。

步骤s04:将所述词向量拼接为语义矩阵;

在一个示例中,每份检修报告所得到的语法树转换为词向量后,被拼接为语义矩阵。

步骤s05:输入所述语义矩阵对双向长短期记忆网络按训练标签进行分类训练;

在一个示例中,所述语义矩阵作为输入对bilstm(bi-directionlongshort-termmemory,双向长短记忆神经网络)进行分类训练。检修报告所对应的设备状态标注为健康状态,一般缺陷状态,重要缺陷状态,紧急缺陷状态四类作为训练标签。lstm(longshort-termmemory,长短记忆神经网络)是rnn(recurrentneuralnetwork,循环神经网络)的扩展,它解决了标准rnn梯度消失和梯度爆炸的问题。但是,lstm只能利用当前单元和本单元之前的信息,而无法利用本单元之后的信息。如图2所示,bilstm是对普通lstm的进一步改进,它的基本思想是分别用前向和后向的lstm来抓取过去和将来所包含的隐藏的信息,这两部分的信息组成最终的输出。

步骤s06:根据所述训练标签,所述双向长短期记忆网络的分类器输出设备状态预测结果;

在一个可选的示例中,如图2所示,bilstm网络的前向lstm层1,前向lstm层2,前向lstm层3分别获取本单元之前的信息,后向lstm层1,后向lstm层2,后向lstm层3分别获取本单元之后的信息,融合层可以融合前向lstm层和后向lstm层的上下文信息,最终得到全局的特征信息,bilstm网络的最后一层设置为softmax分类器,输出设备状态四种分类的预测结果。

步骤s07:设置所述训练标签各状态权重及所述分类器输出所述训练标签各状态概率;

在一个可选的示例中,设置四种状态:健康状态,一般缺陷状态,重要缺陷状态及紧急缺陷状态的权重分别为0.9,0.85,0.8,0.75;所述softmax分类器可输出检修报告属于健康状态,一般缺陷状态,重要缺陷状态,紧急缺陷状态的概率,分别记为[p1,p2,p3,p4]。

步骤s08:根据所述权重和所述概率获取健康指数;

在一个示例中,引入设备hi(healthindex,健康指数),所述健康指数可计算如下:

hi=0.9p1+0.85p2+0.8p3+0.75p4

步骤s09:根据所述健康指数所属的状态区间评估所述设备状态。

在一个示例中,如桥式起重机含有多个组成部分,但是所有组成部分的检修结果都会呈现在同一张检修报告上。因此,一个设备对应一张检修报告,也就对应一个健康指数。而处于某一种状态如一般缺陷状态的设备有很多个,它们的健康指数不尽相同,但通过训练后可以集中形成一个状态区间。以此类推出四种状态区间:健康状态区间,一般缺陷状态区间,重要缺陷状态区间,及紧急缺陷状态区间。因此,一个设备对应一个检验报告,即对应一个半结构化文本,可以计算出一个健康指数,健康指数落在以上哪个状态的区间内,就认为该设备处于哪一种状态。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1