一种基于科技资源大数据的存储方法与流程

文档序号:11864709阅读:616来源:国知局

本发明涉及信息化技术领域,具体涉及一种复杂大数据的存储方法。



背景技术:

在当今信息技术时代,每年的信息量成几何增长,各个行业和运营主体出于信息整合的需要,建立了诸多数据库。但这些数据库往往局限于本行业、甚至特定小群体专用,缺乏社会层面各相关部门、供需方之间的交流和沟通,更没有形成社会共享服务体系;国家各类科技计划项目所产生的科学数据,也没能得到有效的管理和利用。这样就导致了各种科技资源及其数据库标准化、规范化、体系化程度低,更新维护不便,相当一部分数据库根本没有标准可循。

针对科技资源的共享,需要建立一种大区域的信息化服务系统,来促进企业及整个社会的科技创新能力。中国专利文献CN104835082A即提出了一种科技资源的信息共享服务系统,该系统的终端设备用于采集科技资源信息,采集后的数据储存在数据库中进行汇集、分类,数据库将信息通过互联网上传至政策法规服务平台、项目申报指导平台、科技成果展示平台、科技人才数据平台等,从而将不同类型、不同主题、不同功能的科技资源汇集,通过互联网提供政策法规查询、企业成果展示、项目申报规范指导等服务。

不过,上述专利文献提出的系统架构在实际操作过程中存在一些技术障碍和问题,这其中最主要的问题就是科技资源数据来源不同,结构不一致,不同应用平台间不可共享数据,数据同步困难,应用平台间数据交换标准不统一等,在采集完成后,需要进行有效、合理的存储,才能便于后期的数据处理,乃至平台服务。

目前,复杂数据的存储方式多为行式存储,若有1000种数据,则需要1000张表,按行存储。该存储方式难以满足大数据存储,需要较高的硬件配置,且维护、使用不便,备份需要的技术手段也很繁复。



技术实现要素:

本发明提出一种基于科技资源大数据的存储方法,在不增加表结构的情况下,能够存储大量异构数据,并简便快速实现多备份,且能够提高数据查询效率。

本发明的技术方案如下:

一种基于科技资源大数据的存储方法,包括以下步骤:

1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;

2)依次存储所接收数据包中的每一条数据

2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码,根据用户信息、数据类型和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;

2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码;在Hbase表中已存的第一条数据后依次连续存储各条数据;其中,根据最后一条数据的用户信息、数据类型和随机码生成终止存储地址,同时将所述终止存储地址放入mysql表中;

所述起始存储地址和终止存储地址组成该数据包的索引信息。

在以上方案的基础上,本发明还结合实际进一步作了优化:

在步骤2)中获取随机码的同时,还获取系统提供的当前时间戳;Hbase表中具有对应于时间戳的存储位置;相应的,根据用户信息、数据类型、时间戳和随机码生成所述起始存储地址和终止存储地址。

所述起始存储地址和终止存储地址的格式是:字符串“用户信息+数据类型+时间戳+随机码”。

本发明具有以下技术效果:

1、在不增加表结构的情况下,能够存储大量异构数据。

2、在Hbase列式存储方式下,容易实现多备份。

3、用mysql作为Hbase的配置信息,索引,能够快速数据定位。

4、数据可追溯。

附图说明

图1为本发明中Hbase表和mysql表的联系示意图。

具体实施方式

该基于科技资源大数据的存储方法作为数据服务提供方案的前端,需要在合理的硬件支持下完成大量异构数据的存储,提高系统的数据兼容性和更新能力,以便于在后建立标准企业表,提供数据信息服务,作为行政决策参考。

该基于科技资源大数据的存储方法,包括以下步骤:

1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;

2)依次存储所接收数据包中的每一条数据

设该数据包共有n条数据:

2.1)从第1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,根据用户信息、数据类型、时间戳和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;

2.2)从第2条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第1条数据的下一个存储位置;

……

从第n-1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-2条数据的下一个存储位置;

2.3)从第n条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-1条数据的下一个存储位置;并根据用户信息、数据类型、时间戳和随机码生成终止存储地址,将所述终止存储地址放入mysql表中。

起始存储地址和终止存储地址组成该数据包的索引信息。起始存储地址和终止存储地址的格式可完全采用这些信息本身,即存储地址的字符串为用户信息+数据类型+时间戳+随机码。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1