一种支持多种方式创建索引的方法

文档序号:6624472阅读:360来源:国知局
一种支持多种方式创建索引的方法
【专利摘要】本发明公开了一种支持多种方式创建索引的方法,其具体实现过程为:配置统一索引模型,部署安装搜索引擎服务器集群;配置数据库与索引的映射;配置HBASE与索引的映射;配置结构化文档导入脚本;配置非结构化文档导入脚本;创建消息队列,通过消息队列实时创建索弓I;搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中;根据输入的关键字,进行相关检索。该一种支持多种方式创建索引的方法与现有技术相比,能够解决不同来源、不同格式的数据的统一检索问题,提高对数据实时索引的能力,增强对海量数据的汇集和整合能力,大大提高对海量数据的检索效率,实用性强。
【专利说明】一种支持多种方式创建索引的方法

【技术领域】
[0001] 本发明涉及数据索引【技术领域】,具体地说是一种实用性强、支持多种方式创建索 引的方法。

【背景技术】
[0002] 对于企事业单位内的信息资源,由于其分属的业务不同,采用的管理系统也不尽 相同,这就导致了信息资源的分散问题,不利于资源的共享;同时,不同的管理系统需要不 同的业务人员去管理维护,资源共享过程中就会导致非业务人员很难查询了解到其他业务 资源的情况,这也增加了资源共享的难度;另外,不同的管理系统采用的技术、规范又不尽 相同,数据资料之间很难相互调用,维护也极为不便,严重阻碍了企事业单位信息化进程。
[0003] 对于这些分处在不同系统中的数据,很难有效的利用起来,一般只提供各自系统 内的检索查询。所以企事业单位的信息化建设是一项长期、复杂而又艰巨的工作。
[0004] 支持多种方式创建索引,能够有效的客服多系统检索带来的不便,提供统一的检 索入口。
[0005] 要实现支持多种方式创建索引,首先要创建一个统一的索引模型,部署一套相关 的索引处理程序一搜索引擎,然后分析企事业单位内数据存放的位置,就一般情况而言, 企事业单位内的信息资源不论采用何种管理系统,数据信息会存储在以下四个地方:数据 库、HBASE、HDFS,或者以非结构化的文档进行保存,对这些情况分别建立不同的创建索引的 方式,再经由搜索引擎来处理不同方式创建的索引,将不同系统、不同类型的资源整合在一 起,并将处理后的结果存放在文件系统中,从而达到信息资源的整合和统一检索的目的。基 于该设计思路,现提供一种支持多种方式创建索引的方法。


【发明内容】

[0006] 本发明的技术任务是针对以上不足之处,提供一种实用性强、支持多种方式创建 索引的方法。 一种支持多种方式创建索引的方法,其具体实现过程为: 1) 配置统一索引模型,部署安装搜索引擎服务器集群; 2) 配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接; 3) 配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接; 4) 配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接; 5) 配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的连接; 6) 创建消息队列,通过消息队列实时创建索引; 7) 搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中; 8) 根据输入的关键字,进行相关检索。
[0007] 所述步骤二中的映射将不同业务系统中存在于数据库中的数据导入到统一索引 中,映射关系与配置保存在数据库中。
[0008] 所述步骤三中的映射将不同业务系统中存在于HBASE中的数据导入到统一索引 中,映射关系与配置保存在数据库中。
[0009] 所述步骤四中的结构化文档脚本配置过程为:把不同业务系统中存在于结构化文 档中的数据导入到统一索引中,形成独立脚本。
[0010] 所述步骤五中的非结构化文档脚本配置过程为:把不同业务系统中存在于非结构 化文档中的数据导入到统一索引中,形成独立脚本。
[0011] 本发明的一种支持多种方式创建索引的方法,具有以下优点: 该发明的一种支持多种方式创建索引的方法能够解决不同来源、不同格式的数据的统 一检索问题,提高对数据实时索引的能力,增强对海量数据的汇集和整合能力,大大提高对 海量数据的检索效率,加快企事业单位内信息化公开检索的步伐,降低企事业单位信息化 建设的成本;通过提供统一索引模型,将企事业单位内存在于不同管理系统中的数据信息 进行整合;克服信息化过程中海量数据检索的瓶颈,提高企事业单位内数据信息的利用率; 针对行业领域,能够为各企事业单位提供企业内信息化检索的统一入口,其云服务特性,能 够降低企事业单位信息化建设的成本;实用性强,适用范围广泛,易于推广。

【专利附图】

【附图说明】
[0012] 附图1为本发明的实现示意图。

【具体实施方式】
[0013] 下面结合附图和具体实施例对本发明作进一步说明。
[0014] 本发明提供一种支持多种方式创建索引的方法,通过创建一种模型,提供对结构 化数据、半结构化数据,以及非结构化的数据进行定时或者实时方式创建索引的方案,从而 解决不同来源,不同格式的数据的统一检索问题,并提高对这些数据检索时的效率,尤其是 海量数据检索的效率。基于此设计思路,如附图1所示,该方法的具体实现过程为: 一、配置统一索引模型,部署处理服务器集群。
[0015] 需要根据企事业单位内的业务信息,配置统一的索引模型,并部署索引处理服务 器(搜索引擎)。
[0016] 二、配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接。
[0017] 根据映射关系,把不同业务系统关系型数据库中的数据导入到统一索引中,方便 企事业单位内人员能够查询到数据库中的数据信息。映射关系与配置保存在数据库中,方 便进行增量更新以及定时更新。
[0018] 三、配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接。
[0019] 根据映射关系,把不同业务系统中存在于HBASE中的数据导入到统一索引中,方 便企事业单位内人员能够查询到HBASE中的数据信息。映射关系与配置保存在系统的数据 库中,方便进行增量更新及定时更新。
[0020] 四、配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接。
[0021] 根据结构化文档脚本,把不同业务系统中存在于结构化文档中的数据导入到统一 索引中,方便企事业单位内人员能够查询到结构化文档中的数据信息。形成独立脚本,以便 进行增量更新及定时更新。
[0022] 五、配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的 连接。
[0023] 根据非结构化文档脚本,把不同业务系统中存在于非结构化文档中的数据导入到 统一索引中,方便企事业单位内人员能够查询到非结构化文档中的数据信息。形成独立脚 本,以便进行增量更新及定时更新。
[0024] 六、创建消息队列,通过消息队列实时创建索引。
[0025] 对于企事业单位内的其他外接应用数据,可以通过消息队列的方式来实时创建索 引。
[0026] 七、搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS 中。
[0027] 索引处理服务器对不同方式的索引数据进行分析处理,并将分析处理的结果保存 在HDFS中。
[0028] 八、提供统一检索入口。
[0029] 系统提供统一的检索入口,方便企事业单位内用户对整合的共享数据信息进行检 索。
[0030] 本发明通过配置统一的索引模型,使用搜索引擎来管理、处理不同来源、不同格式 的数据,针对不同的业务数据,配置相应的映射或脚本,然后采用相应的方式来创建索引, 由搜索引擎来处理这些索引数据,并将处理的结果保存在HDFS中。最终提供统一的检索入 口,企事业单位可以利用该入口来实现共享资源的检索,或开发自己的信息检索门户。
[0031] 其中所配置统一的索引模型是企事业单位内各个管理系统数据模型的一个抽象。
[0032] 上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于 上述【具体实施方式】,任何符合本发明的一种支持多种方式创建索引的方法的权利要求书的 且任何所属【技术领域】的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利 保护范围。
【权利要求】
1. 一种支持多种方式创建索引的方法,其特征在于其具体实现过程为: 1) 配置统一索引模型,部署安装搜索引擎服务器集群; 2) 配置数据库与索引的映射,建立数据源向搜索引擎创建索引的连接; 3) 配置HBASE与索引的映射,建立HBASE向搜索引擎创建索引的连接; 4) 配置结构化文档导入脚本,建立结构化文档目录向搜索引擎创建索引的连接; 5) 配置非结构化文档导入脚本,建立非结构化文档目录向搜索引擎创建索引的连接; 6) 创建消息队列,通过消息队列实时创建索引; 7) 搜索引擎集群对传来的数据进行分词、过滤处理,将处理的结果保存在HDFS中; 8) 根据输入的关键字,进行相关检索。
2. 根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤 二中的映射将不同业务系统中存在于数据库中的数据导入到统一索引中,映射关系与配置 保存在数据库中。
3. 根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤 三中的映射将不同业务系统中存在于HBASE中的数据导入到统一索引中,映射关系与配置 保存在数据库中。
4. 根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤 四中的结构化文档脚本配置过程为:把不同业务系统中存在于结构化文档中的数据导入到 统一索引中,形成独立脚本。
5. 根据权利要求1所述的一种支持多种方式创建索引的方法,其特征在于:所述步骤 五中的非结构化文档脚本配置过程为:把不同业务系统中存在于非结构化文档中的数据导 入到统一索引中,形成独立脚本。
【文档编号】G06F17/30GK104216966SQ201410419509
【公开日】2014年12月17日 申请日期:2014年8月25日 优先权日:2014年8月25日
【发明者】高传集, 于沈课 申请人:浪潮软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1