一种面向电力行业的知识提取方法及其系统、计算机可读存储介质与流程

文档序号:19128737发布日期:2019-11-13 02:23阅读:191来源:国知局
一种面向电力行业的知识提取方法及其系统、计算机可读存储介质与流程

本发明涉及通讯技术领域,具体涉及一种面向电力行业的知识提取方法及其系统、计算机可读存储介质。



背景技术:

电力是以电能作为动力的能源,发明于19世纪70年代,电力的发明和应用掀起了第二次工业化高潮,成为人类历史18世纪以来,世界发生的三次科技革命之一,从此科技改变了人们的生活,20世纪出现的大规模电力系统是人类工程科学史上最重要的成就之一,是由发电、输电、变电、配电和用电等环节组成的电力生产与消费系统,它将自然界的一次能源通过机械能装置转化成电力,再经输电、变电和配电将电力供应到各用户,当今是互联网的时代,我们仍然对电力有着持续增长的需求,因为我们发明了电脑、家电等更多使用电力的产品,不可否认新技术的不断出现使得电力成为人们的必需品。

但是目前市场上的面向电力行业的知识提取方法在提取的时候,不能对于其进行分类,并且不便于筛选,导致提取的时候,系统速度慢,在转换之前未进行建模处理,不对其进行筛选与对相关的关键字的检索,而且转换率低,关键字搜索复杂的问题。



技术实现要素:

本发明针对上述技术问题,提出一种面向电力行业的知识提取方法及其系统、计算机可读存储介质。

为了实现本发明目的,根据本发明第一方面,本发明实施例提供一种面向电力行业的知识提取方法,包括:

获取蕴含于信息源中的电力行业知识,并抽取所述电力行业知识中的多个电力术语;

根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型;

将知识结构模型的表示形式转换成计算机可表示的内部形式;

对转换表示形式后的知识结构模型进行编译后存储于知识库中;

获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性。

优选地,所述抽取所述电力行业知识中的多个电力术语还包括:

根据电力行业标准对所述多个电力术语进行处理,合并具有冗余性的至少两个电力术语,并删除具有二义性的电力术语。

优选地,所述根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型包括:

根据电力行业标准确定所述多个电力术语的类别以及所述多个电力术语之间的关系;

根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型,其中,同一类别的电力术语归为一组,同一组中的多个电力术语根据电力术语之间的关系进行关联。

优选地,所述方法还包括:

获取用户输入的关键词;

根据所述关键词对所述知识库中的知识提取所述知识库中与所述关键词对应的主知识和副知识;所述主知识为与所述关键词对应的电力术语,所述副知识为与所述主知识关联的其他知识。

将所述主知识和副知识同步进行显示。

优选地,所述方法还包括:

当存在多个电力术语与所述关键词对应时,分别计算所述多个电力术语与所述关键词的相似度;

按多个主知识及其对应的副知识按相似度进行排序后同步进行显示。

根据本发明第二方面,本发明实施例提供一种面向电力行业的知识提取系统,包括:

知识获取单元,用于获取蕴含于信息源中的电力行业知识,并抽取所述电力行业知识中的多个电力术语;

模型构建单元,用于根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型;

形式转换单元,用于将知识结构模型的表示形式转换成计算机可表示的内部形式;

知识编译单元,用于对转换表示形式后的知识结构模型进行编译后存储于知识库中;

知识检测单元,用于获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性。

优选地,所述知识获取单元包括:

信息采集单元,用于获取蕴含于信息源中的电力行业知识;

术语抽取单元,用于抽取所述电力行业知识中的多个电力术语;

术语整理单元,用于根据电力行业标准对所述多个电力术语进行处理,合并具有冗余性的至少两个电力术语,并删除具有二义性的电力术语。

优选地,所述模型构建单元包括:

第一构建单元,用于根据电力行业标准确定所述多个电力术语的类别以及所述多个电力术语之间的关系;

第二构建单元,用于根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型,其中,同一类别的电力术语归为一组,同一组中的多个电力术语根据电力术语之间的关系进行关联。

优选地,所述方法还包括:

输入单元,用于获取用户输入的关键词;

检索单元,用于根据所述关键词对所述知识库中的知识提取所述知识库中与所述关键词对应的主知识和副知识;所述主知识为与所述关键词对应的电力术语,所述副知识为与所述主知识关联的其他知识;

相似度计算单元,用于当存在多个电力术语与所述关键词对应时,分别计算所述多个电力术语与所述关键词的相似度;

显示单元,用于按多个主知识及其对应的副知识按相似度进行排序后同步进行显示。

根据本发明第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述面向电力行业的知识提取方法。

在本发明实施例中,通过根据从电力知识中抽取的多个电力术语的类别以及电力术语之间的关系进行分组并构建知识结构模型,而后将知识结构模型的表示形式转换成计算机可表示的内部形式,并对转换表示形式后的知识结构模型进行编译后存储于知识库中;在对电力行业的知识进行提取时,对知识进行分类,便于筛选,避免知识导致提取时导致系统速度慢;最后获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性;能够提高后期提取的逻辑与理论性,然后进行存储和检测,防止出现二次错误,提高准确性,防止了出现与电力行业相关度不高的知识。同时,能够基于知识结构模型对知识进行筛选以及对相关的关键字检索。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一中一种面向电力行业的知识提取方法流程图。

图2为本发明实施例一中一种知识结构模型框架示意图。

图3为本发明实施例二中一种面向电力行业的知识提取系统示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。

如图1所示,本发明实施例一提供一种面向电力行业的知识提取方法,包括:

步骤s1、获取电力行业知识,并抽取所述电力行业知识中的多个电力术语;

步骤s2、根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型;

步骤s3、将知识结构模型的表示形式转换成计算机可表示的内部形式;

步骤s4、对转换表示形式后的知识结构模型进行编译后存储于知识库中;

步骤s5、获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性。

其中,所述抽取所述电力行业知识中的多个电力术语还包括:

根据电力行业标准对所述多个电力术语进行处理,合并具有冗余性的至少两个电力术语,并删除具有二义性的电力术语。

具体而言,电力知识为含电力相关的系统、电路、功率的相关物理知识;对于知识为语句和词语时候,将其中包含电力知识的相关术语和概念进行提取。

其中,提取电力领域中重要的术语和概念,在术语提取过程中,要保证术语的唯一性、正确性,除去术语的冗余性、二义性,使得术语为专业概念的交流提供一种规范,同时,需要参考相关标准,力求所提取的术语、概念是领域中得到广泛认可的术语和概念。

其中,所述根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型包括:

根据电力行业标准确定所述多个电力术语的类别以及所述多个电力术语之间的关系;

根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型,其中,同一类别的电力术语归为一组,同一组中的多个电力术语根据电力术语之间的关系进行关联。

具体而言,所述步骤s1已经产生了领域中大量的术语,但却是一张毫无组织结构的词汇表,这时需要按照电力基础知识将它们进行分组,从而形成一个领域知识的框架体系,即所述知识结构模型。其中,知识结构模型的一种例子如图2所示。

在产生的术语、概念基础上,定义类、属性、关系和实例,在搭建完成本体框架以后,定义在前阶段所产生的术语集中的类、类的属性、类与类之间的关系以及类的实例,对上述内容的定义需要按照一定的逻辑规则进行,符合该领域的逻辑和理论。如提出交流接触器短路,是属于电力知识中的词性,那么属于电力类,属于电力知识中一次设备还是二次设备,关系到电力系统,并属于交流接触器的位置。

在步骤s5中,将知识库中的知识与外界服务器的知识进行对比,出现参数不符与无法识别的进行二次筛选,防止出现语法错误,并且检测知识的一致性,报告产生错误的原因,用以进行改正。

其中,所述方法还包括:

步骤s6、获取用户输入的关键词;

步骤s7、根据所述关键词对所述知识库中的知识提取所述知识库中与所述关键词对应的主知识和副知识;所述主知识为与所述关键词对应的电力术语,所述副知识为与所述主知识关联的其他知识。例如交流接触器短路,其中,短路是主知识,接触器是副知识。

步骤s8、将所述主知识和副知识同步进行显示,便于使用者通过系统提取。

具体而言,本实施例在进行知识提取时,可以根据输入的目标关键词进行精确提取与目标关键词相关的知识内容并进行显示。

其中,当存在多个电力术语与所述关键词对应时,分别计算所述多个电力术语与所述关键词的相似度,并按多个主知识及其对应的副知识按相似度进行排序后同步进行显示。具体而言,在排序时,根据主知识进行排序,然后一并显示主知识及其副知识。

其中,所述方法还可以包括对常量转换为变量,去除无关子条件,并进行检验相似程度、修正变换求解和更新知识库。

其中,检验相似程度中根据关键词的对比含量进行相似度进行先后排序。引用词语与知识库中词语进行对比,其中相似程度高对应百分比高,相似程度低对应百分比低,通过百分比进行排序,从而对于词语中相似度进行排序。

其中,修正变换求解扩展中间结局分析去除,取出保存的状态,然后继续解决原问题,使用扩展的中间结局分析,由已知解序列的类比学习得到新的解序列。其中,词语中语序前后不一致,出现错误的时候,通过修正和变换,去除语句中的毛病,形成一个正确的知识词语,然后继续进行提取,而新的词语为新序列。

其中,更新知识库通过定期对知识库进行补充。

实例是说现有知识库中的电力知识,而通过其相关联的程度与近似度,找出满足操作性准则的充分条件,进行判定。

如图3所示,本发明实施例二提供一种面向电力行业的知识提取系统,包括:

知识获取单元1,用于获取蕴含于信息源中的电力行业知识,并抽取所述电力行业知识中的多个电力术语;

模型构建单元2,用于根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型;

形式转换单元3,用于将知识结构模型的表示形式转换成计算机可表示的内部形式;

知识编译单元4,用于对转换表示形式后的知识结构模型进行编译后存储于知识库中;

知识检测单元5,用于获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性。

其中,所述知识获取单元包括:

信息采集单元,用于获取蕴含于信息源中的电力行业知识;

术语抽取单元,用于抽取所述电力行业知识中的多个电力术语;

术语整理单元,用于根据电力行业标准对所述多个电力术语进行处理,合并具有冗余性的至少两个电力术语,并删除具有二义性的电力术语。

其中,所述模型构建单元包括:

第一构建单元,用于根据电力行业标准确定所述多个电力术语的类别以及所述多个电力术语之间的关系;

第二构建单元,用于根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型,其中,同一类别的电力术语归为一组,同一组中的多个电力术语根据电力术语之间的关系进行关联。

其中,所述方法还包括:

输入单元,用于获取用户输入的关键词;

检索单元,用于根据所述关键词对所述知识库中的知识提取所述知识库中与所述关键词对应的主知识和副知识;所述主知识为与所述关键词对应的电力术语,所述副知识为与所述主知识关联的其他知识;

相似度计算单元,用于当存在多个电力术语与所述关键词对应时,分别计算所述多个电力术语与所述关键词的相似度;

显示单元,用于按多个主知识及其对应的副知识按相似度进行排序后同步进行显示。

需说明的是,本实施例二所述系统用于实现所述实施例一所述方法,因此,关于本实施例二所述系统未详述的有关部分可以参阅实施例一所述方法得到,

此处不再赘述。

还应该理解,可以以很多方式实施实施例一所述方法和实施例二所述系统,包括作为过程、装置或系统。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施,非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(cd)或数字通用碟(dvd))、闪速存储器等。在一些实施例中,程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。

本发明实施例三提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述的面向电力行业的知识提取方法。

通过以上实施例描述可知,本发明采用词向量训练工具对需要发现近义词的数据进行数据库和词向量训练得到对应的模型,通过预先训练好的模型获取待识别词汇的多个候选近义词,然后将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;基于深度学习网络模型对所述原始语料数据和所述多个二次语料数据分别进行语义分析得到第一语义结果和多个第二语义分析结果;最后将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。本发明实施例提供的方法步骤可以在计算机上自动执行,解决人力在构建分类体系和词表资源时容易出现错误的问题,提高近义词识别和发现的精准程度和效率。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1