一种电力设备名称识别方法与流程

文档序号:17741011发布日期:2019-05-24 20:05阅读:293来源:国知局
一种电力设备名称识别方法与流程

本发明涉及电力设备名称识别领域,具体是涉及一种电力设备名称识别方法,能准确识别电力设备名称并提升电力设备命名匹配的准确率。



背景技术:

由于缺乏对电网设备命名标准的统一规范管理,目前调度系统应用常常是各应用自身拥有和维护一套甚至多套台账信息,这导致了涉及的设备台账信息和d5000,各网省oms设备台账中的命名出现了大量不一致的情况,从而降低了应用的兼容性和拓展性。而在已开发设备匹配工具原型,利用ld相似度算法和jarccard相似度算法匹配配置数据库中制定列中数据的相似度,对大于设定阈值的条目输出对照表,解决大多常见命名不匹配情况,但其准确率不高,难以满足用户需求,所以需要提出准确率更高的匹配算法(匹配项:检修票中检修设备和线路、开关、母线表中的d5000命名和调度命名的匹配,要求对线路、开关、母线表中其他维度项可做关联匹配,如开关表中的电压等级、开关编号列)。



技术实现要素:

本发明的目的是为了克服现有技术中的不足,提供一种电力设备名称识别方法,该方法提高了匹配的准确率和效率,节省了时间。

本发明的目的是通过以下技术方案实现的:

一种电力设备名称识别方法,包括以下步骤:

(1)构建电网专业词库用于存储词汇;包括直接添加单个词汇、直接添加两个以上词汇、筛选添加词汇;

(2)实现分词,将专业词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合实现快速分词;得到字符串数组或字符串列表;

(3)将待识别设备名称和标准设备名称按照步骤(2)分成字符串数组或字符串列表,并提取其中可能符合所属地、电压等级的特征词;

(4)根据特征词筛选标准设备名称数据库;过滤数据以缩短计算时间;将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算,得到一个0-1之间的相似度值,通过设定阈值判断符合条件的字符串,选取相应的数据条目;实现设备相识度识别。

进一步的,步骤(1)中直接添加单个词汇是用于专有词汇的添加;直接添加两个以上词汇是将电力设备中的某一关键属性栏直接添加进词库当中;筛选添加词汇用于直接将设备的名称进行现有的词库分词后,将目前不存在于词库中的词汇添加进词库当中。

进一步的,分词操作是使用最长字符串匹配法,将所给的字符串根据词库中记载的词汇或同义词完全分割开来,并选择去除其中的无匹配字符子串或将无匹配字符子串保留在词库中;分词后将会得到一组字符串数组或者字符串列表用于之后的相似度计算。

与现有技术相比,本发明的技术方案所带来的有益效果是:本发明通过查询词库的方式来实现电力设备名称的语义识别,从给出的电力设备的规范以及不规范的名称中查找出最为相似的多个电力设备,之后进行人工筛选或自动选取,提高匹配的准确率。

附图说明

图1是本发明方法的流程示意图。

图2是标准设备名称数据库的e-r图。

图3是具体实施例中识别过程的示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

本发明提出一种电力设备名称识别方法,具体如下:

首先,构建电网专业词库。可以通过多种方式来建立和扩充电力设备词库:单个词汇直接添加,一般是用于某些专有词汇,例如变电站、国家电网等,可以直接添加进词库中。多个词汇直接添加,一般是将设备中的某一关键属性栏,如一级地名、二级地名等,直接添加进词库当中。多个词汇筛选添加,一般用于直接将设备的名称进行现有的词库分词后,将目前不存在于词库中的词汇添加进词库当中。该功能必须提前设置好词库和分词树,是基于前后功能的综合型功能。添加词汇时,会自动识别出目前词库中已有的词汇,不会进行重复添加;可以通过人工筛选的方式,修改或删除词库中的词汇。同时,也可以使用人工维护的方式,添加同义词词库。

其次,实现分词,将词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合的优点实现快速分词。建立词库节点树。将词库中的所有词汇存在一颗三叉树中,便于之后的分词算法。分词操作。通过之前建立的词库节点三叉树,使用最长字符串匹配法,将所给的字符串根据词库中记载的词汇或者同义词完全分割开来,并可以选择去除其中的无匹配字符子串或者将无匹配字符子串根据情况保留在词库中。分词后将会得到一组字符串数组(或者字符串列表)用于之后的相似度计算。

最后,基于分词功能的字符串相似度比对计算。相似度比对计算是基于以下多个功能分布进行:读取标准设备名称数据库。将设备的相关信息,如设备名称、电压等级、所属地等读入内存。对目标字符串即待识别的设备名称进行分词。分词作为单独算法,只要将设备名称输入算法中就会分词得到字符串数组;将待识别的设备名称按照2所示步骤分成字符串数组,并提取其中可能符合所属地、电压等级的特征词(如唐山、220kv等)。根据特征词筛选标准设备名称数据库。从上一步中筛选出特征词,过滤数据以缩短之后的计算时间。将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算。会计算出一个0-1之间的相似度值,可自己选择阈值来判断符合条件的标准设备名称,选取相应的数据条目,从而实现设备相识度识别。即通过输入设备名就可匹配到相应的设备名。

如图1所示,按上述方法具体操作时首先将目标设备名称输入,进行分词,同时通过筛选标准设备名称数据库对得到的数据进行分词,如图2所示是标准设备名称数据库的e-r图,所包含数据有开关、母线、线路等。如图3所示,输入“新集/10kv.581开关”的待识别设备名称,经过分词后得到关键字‘开关’,通过这个词语在标准名称数据库中筛选出包含‘开关’关键字的565个标准设备名称,然后在对筛选出来的标准设备名称分词,这样不用对所有标准设备名称进行分词,可以节省时间;

之后计算相似度,通过相似度计算方法计算待识别设备名称和标准设备名称的相似度。

通过上述计算后获得565个相似度值,通过设定阈值来判断选取合适的标准设备名称,最终从5个中选出最合适的标准设备名称。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种电力设备名称识别方法,包括以下步骤:(1)构建电网专业词库用于存储词汇;包括直接添加单个词汇、直接添加两个以上词汇、筛选添加词汇;(2)实现分词,将专业词库生成为三叉搜索树,利用数字搜索树和二叉搜索树结合实现快速分词;得到字符串数组或字符串列表;(3)将待识别设备名称和标准设备名称按照步骤(2)分成字符串数组或字符串列表,并提取其中可能符合所属地、电压等级的特征词;(4)根据特征词筛选标准设备名称数据库;将待识别设备名称和标准设备名称分词后得到的两个字符串数组进行相似度计算,得到一个0‑1之间的相似度值,通过设定阈值判断符合条件的字符串,选取相应的数据条目;实现设备相识度识别。

技术研发人员:宫秀军;周虎
受保护的技术使用者:天津大学
技术研发日:2018.12.14
技术公布日:2019.05.24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1