一种用于电力系统的数据检索和排序方法与流程

文档序号:11830458阅读:来源:国知局

技术特征:

1.一种用于电力系统的数据检索和排序方法,其特征在于包括有如下步骤:

1)利用分布式文件系统存储数据;

2)建立专业知识相关的同义语分词库;

3)为数据建立全文索引;

4)通过并行化的方式进行检索和排序;

5)实现检索的多字段模糊匹配。

2.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤1)中,利用分布式文件系统存储数据是将现有关系数据表数据转换为文本数据,利用分布式文件系统进行存储,即将数据分为若干分块,分别存储在不同的计算节点(物理计算机或者虚拟机),同时用统一的管理软件进行管理。

3.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤2)中,建立专业知识相关的同义语分词库是通过自定义分词提高索引效率,定义专业术语同义语词库,包括常见的术语、简称、习惯用语、非标准用法、录入不规范。

4.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤3)中,为数据建立全文索引是利用专业知识相关的同义语分词库,为所有数据建立关键词对应于数据记录的全文索引。

5.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤4)中,通过并行化的方式进行检索和排序是由主控制节点负责处理用户的检索请求;检索请求将分配到多个节点并行进行,并将有序的节点检索结果统一提交到主控制节点,进行汇总和排序。

6.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤5)中,检索的多字段模糊匹配是基于已建立的索引,对用户请求的检索词进行分词,并进行不区分字段的模糊匹配检索,保证不论检索关键字出现在哪个字段,均可被检出。

7.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于上述步骤2)中,通过循环自学习功能,对用户的检索词进行统计,不断优化专业分词库和同义语词库,并利用优化后的分词库对数据进行重新索引和优化。

8.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于对数据以记录为对象建立索引,形成如下的索引结构:“关键词=>出现关键词的记录编号、出现次数、位置偏移量”。

9.根据权利要求1所述的用于电力系统的数据检索和排序方法,其特征在于对用户的检索词进行不区分字段的模糊匹配。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1