一种用于电力系统的数据检索和排序方法与流程

文档序号:11830458阅读:269来源:国知局

本发明是一种用于电力系统的数据检索和排序方法,属于用于电力系统的数据检索和排序方法的创新技术。



背景技术:

当今电力系统的规模不断扩大,区域性的电力系统整合日益增多,系统运行越来越复杂,对数据的处理能力提出了越来越高的要求。1)出于经济性考虑,现在电力系统一般运行于稳定极限附近,这就要求系统运行人员对出现的问题做出及时快速的反应,而传统的人工监控和简单的阈值报警原则,无法满足更高的安全性要求。2)随着EMS高级应用软件的不断完善和计算机计算速度的不断提升,各种分析结果源源不断地产生,现有系统大多采用数字或文本列表的方式展示信息,当数据量激增时,系统运行人员无法快速获得系统运行状态的重要信息。

以电力调度业务为例,一般会通过专门的软件系统记录电网运行状态,例如所有保护设备监测到的模拟信息、状态信息、告警信息等,以高频度和高密度的形式进入系统。而从数据的存储形式上来看,目前电力调度专业的数据仍旧以实时数据库和关系数据库为主。另一方面,现场操作人员通过手工记录的方式,留下了大量的说明性文本文字,例如检修记录、调度日志等,这些信息由于不够结构化,难于进行检索和分析。

电网调度专业面临的系统是一个快速变化、需要密切关注的系统,因此积累了大量的数据,而从这些数据中提取出有用的信息以进行进一步的分析,是一项非常重要的工作。

现有技术中,主要依靠关系数据库进行各类数据的检索和排序。其特点如下:

(1)由于数据都是存储在关系数据库中,为了在可接受的时间内得到数据检索结果,对关系数据库的性能要求较高,包括对硬件、数据库管理系统、存储系统的要求。

(2)同时,也需要对数据进行定向的优化。主要的优化方式一般是对重要字段建立索引,以在该字段上进行快速的检索和排序。即便如此,目前的手段对于大数据量的快速检索也难以在足够快的时间内得到结果。

(3)对于类似于“调度日志”的大文本字段,也需要对其进行索引,尽管传统的关系数据库也提供了相应的手段,但索引的效果和查询效率均不尽如人意,对中文文本的支持有限,也无法根据业务场景进行优化。

数据库索引能够大大提高查询的速度原理如同书籍后面常常附关键词索引表,可以避免检索的时候遍历内容,并且它是排好序的,所以索引效率高。由于数据库索引不是为全文索引设计的,因此,使用like "%keyword%"时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成了遍历过程,所以对于含有模糊查询的数据库服务来说,LIKE对性能的危害是极大的。如果是需要对多个关键词进行模糊匹配:like"%keyword1%" and like "%keyword2%" ...其效率会严重下降。

所以建立一个高效检索系统的关键是建立一个反向索引机制,用专门的结构存储“关键词->文本内容”的映射关系,检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程,从而提高多关键词查询的效率。



技术实现要素:

本发明的目的在于提供一种用于电力系统的数据检索和排序方法。本发明采用分布式和并行计算的方式进行数据的存储、检索和排序并对大量无规则文本数据的检索进行优化处理,其优势在于快速且可以通过定义专业分词系统提高索引的效率。

本发明采用的技术方案是:本发明的用于电力系统的数据检索和排序方法,包括有如下步骤:

1)利用分布式文件系统存储数据;

2)建立专业知识相关的同义语分词库;

3)为数据建立全文索引;

4)通过并行化的方式进行检索和排序;

5)实现检索的多字段模糊匹配。

本发明主要是采用了并行计算的方式进行数据的存储、检索和排序。其优势在于快速,且可以通过定义专业分词系统提高索引的效率。本发明与现有技术相比,具有如下优点:

1)本发明通过为多字段建立全文索引的方式,实现快速和模糊的检索与排序;

2)本发明通过检索关键词自学习和同义语定义,以智能识别术语简称、填写不规范等情况,保证检索结果的业务完整性;

3)本发明通过全文索引和分布式检索,提高了非标准化文本的检索速度;

本发明是一种可以对大量无规则文本数据的检索进行优化处理,能实现快速检索,提高索引的效率的用于电力系统的数据检索和排序方法。

附图说明

图1为本发明方法的流程图。

具体实施方式

本发明实现了数据的快速检索和排序,具体实施步骤如下:

(1)利用分布式文件系统存储数据

将现有关系数据表数据转换为文本数据,利用分布式文件系统进行存储。即将数据分为若干分块,分别存储在不同的计算节点(物理计算机或者虚拟机),同时用统一的管理软件进行管理。

可以直接将文本形式的数据导入分布式文件系统。同时实现关系数据库专有接口,直接将制定数据库连接的指定表导入分布式文件系统。

(2)建立专业知识相关的同义语分词库

通过自定义分词提高索引效率。例如,对于调度日志数据,常用的专业术语如“临时安措”、“失步解列”、“阀组”等。

定义专业术语同义语词库。以电力专业为例,由于电力专业常用的各类术语有全称、简称和习惯用语等,操作人员手工输入文字的时候,这些属于具有一定的随意性。这会导致检索时无法返回正确和全面的结果。例如“退出运行”与“退运”,“安全措施”与“安措”。此外,还存在一些填写不规范的情况,“500kV”为标准表示法,而常见“50万伏”、“500KV”、“500千伏”等非标准写法。

通过循环自学习功能,对用户的检索词进行统计,不断优化专业分词库和同义语词库。

(3)为数据建立全文索引

利用专业知识相关的同义语分词库,为所有数据建立全文索引。形成如下的索引结构:“关键词=>出现关键词的记录编号、出现次数、位置偏移量”。

当专业术语同义词库更新后,利用优化后的分词库对数据进行重新索引和优化。

(4)通过并行化的方式进行检索和排序

由主控制节点负责处理用户的检索请求。检索请求将分配到多个节点并行进行,并将有序的节点检索结果统一提交到主控制节点,进行汇总和排序。

(5)实现检索的多字段模糊匹配

多字段模糊匹配。基于已建立的索引,对用户请求的检索词进行分词,并进行不区分字段的模糊匹配检索。例如数据包括“设备名称”、“时间”、“事件说明”、“备注”等字段,则用户可以通过“主变 2015 退出运行”的检索命令,检索出所有2015年发生的退运事故。多字段模糊检索则保证,不论检索关键字出现在哪个字段,均可被检出。例如“退运”字段可能出现在“时间说明”或“备注”字段中,均会被正常检出。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1