本发明属于大数据存储技术领域,涉及一种基于分布式架构的数字图书馆大数据存储系统。
背景技术:
随着信息技术的发展与读者阅读需求的转变,云计算、大数据、物联网和传感器网络等技术,已成为数字图书馆构建与用户服务保障的关键技术。新技术的应用与服务模式的变革,大幅提高了图书馆服务系统的结构科学性、保障力和用户满意度。
但是,图书馆在用户服务与系统管理、读者阅读活动保障、自动传感器数据采集和移动阅读终端阅读等过程中,产生了海量和级数递增的大数据资源,图书馆数据环境呈现数据体量巨大(volume)、类型繁多(variety)、价值密度低(value)、处理速度快(velocity)的4v大数据特征。此外,非结构化数据占据图书馆总量的85%以上,并且读者对大数据资源的价值密度和可用性要求较高。所以数字图书馆传统的关系数据库数据存储方式已不能满足大数据存储与处理需求。
因此,加强大数据存储系统架构的科学性、安全性、可用性和可扩展性,确保大数据资源可以安全、高效、灵活和经济地被存储、访问、查询和分析,是关系图书馆数据存储与管理效率,保证大数据资源挖掘和数据价值发现有效的关键。
技术实现要素:
本发明目的在于提供一种基于分布式架构的数字图书馆大数据存储系统,针对存储系统结构复杂、管理难度大、存储负载不均衡和易产生数据孤岛的问题,通过以读者大数据服务和大数据存储需求为依据,坚持大数据存储技术与读者需求相结合的原则,依靠云计算和大数据技术构建,有效地保证了图书馆大数据存储与应用安全、高效、经济和个性化,实现了为读者提供基于用户需求感知和客户关系管理的大数据智慧服务。
为解决上述技术问题,本发明采用如下的技术方案:一种基于分布式架构的数字图书馆大数据存储系统,该系统包括:现有数据存储层、分布式数据存储层、分布式数据处理层以及大数据服务接口层;其中,所述现有数据存储层主要完成所采集数据的初选和过滤,为所述分布式数据存储层提供预处理后的高价值数据;所述分布式数据存储层保证数字图书馆大数据存储系统架构的可扩展性;所述分布式数据处理层基于所述分布式数据存储层支持,完成大数据的价值提取以及知识发现;所述大数据服务接口层是图书馆大数据服务的数据接口,利用所述分布式数据处理层所提供的结果数据为不同的大数据应用系统提供安全、高效、经济、可靠的数据传输服务。
进一步地,所述现有数据存储层负责通过减少原始大数据资源的数据总量及增加其价值密度,降低大数据的存储负载和缩短大数据应用时间。
进一步地,所述分布式数据存储层主要由闪存子系统与直连存储子系统组成,负责通过对存储节点的平均负载配置实现节点间的存储负荷均衡,保证系统整体具有较高的安全性、存储效率、可控性和可用性。
进一步地,所述闪存子系统作为das子系统的二级缓存,具有平均无故障运营时间长、安全性高、数据读写速度快、能耗低和无噪音的特点。
进一步地,所述直连存储子系统(das子系统)基于闪存子系统的二级存储服务支持,可安全、高效地通过存储系统感知器件端、中间层和应用层的服务,安全、高效、均衡、经济地实现大数据的分布式协同存储。
进一步地,所述分布式数据处理层主要由分布式并行计算框架以及大数据管理、挖掘、处理、分析功能模块组成。
本发明与现有技术相比具有以下的有益效果:
本发明方案通过以读者大数据服务和大数据存储需求为依据,坚持大数据存储技术与读者需求相结合的原则,依靠云计算和大数据技术构建,改变了数字图书馆传统的关系数据库数据存储方式,不仅解决了传统关系型数据库在海量数据存储和访问效率中的瓶颈问题,更有效地保证了图书馆大数据存储与应用的安全、高效、经济及个性化,为读者提供了基于用户需求感知和客户关系管理的大数据智慧服务。
附图说明
图1是基于分布式架构的数字图书馆大数据存储系统的整体框架图
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于分布式架构的数字图书馆大数据存储系统,该系统包括:现有数据存储层、分布式数据存储层、分布式数据处理层以及大数据服务接口层。有效地保证图书馆大数据存储与应用安全、高效、经济和个性化,为读者提供基于用户需求感知和客户关系管理的大数据智慧服务。
本系统由现有数据存储层、分布式数据存储层、分布式数据处理层和大数据服务接口层组成。其中,所述现有数据存储层主要完成所采集数据的初选和过滤,通过减少原始大数据资源的数据总量和增加其价值密度,降低大数据的存储负载和缩短大数据应用时间;所述分布式数据存储层主要由闪存子系统和直连存储子系统(das子系统)系统组成,保证了数字图书馆大数据存储系统架构的可扩展性;所述闪存子系统作为das子系统的二级缓存,具有平均无故障运营时间长、安全性高、数据读写速度快、能耗低和无噪音的特点;所述das子系统基于闪存子系统的二级存储服务支持,可安全、高效地通过存储系统感知器件端、中间层和应用层的服务,安全、高效、均衡、经济地实现大数据的分布式协同存储;所述分布式数据处理层主要由分布式并行计算框架和大数据管理、挖掘、处理、分析功能模块组成,基于所述分布式数据存储层支持而完成大数据的价值提取和知识发现;所述大数据服务接口层是图书馆大数据服务的数据接口,可为不同的大数据应用系统提供安全、高效、经济、可靠的数据传输服务。
另外,基于分布式架构的数字图书馆大数据存储系统构建以大数据应用保障为核心,图书馆大数据应用呈现“4v”的特性。因此,在基于分布式架构的数字图书馆大数据存储系统构建中,应以大数据应用保障能力建设和发挥大数据“4v”价值为核心,构建安全、高效、经济和低碳的图书馆大数据资源数字图书馆大数据存储系统。首先,管理员应仔细分析图书馆读者大数据服务的内容、模式和方法,将构建符合用户大数据服务需求的存储与管理架构放在首要位置,再依据大数据服务对数字图书馆大数据存储系统的安全性、功能性、容量、i/o吞吐能力和硬件设施投资收益等要求,保障数字图书馆大数据存储系统硬件设施在设备参数、接口协议标准和管理方式上满足大数据服务的需求。其次,数字图书馆大数据存储系统构建应注重系统的可扩展性建设,应采用scale-out(横向扩展)的系统架构,实现多存储节点的全冗余部署,并依据图书馆大数据业务的需求变化和数据存储量增长实际,对存储空间、带宽和处理能力进行实时的动态扩展。第三,数字图书馆大数据存储系统构建应以大数据存储服务生命周期规律为依据,重点关注系统的海量并行存储能力、全局命名空间、接口标准、读写性能、可管理性、系统架构开放性、多级数据冗余和多级存储备份等,实现大数据资源存储、复制、重构、迁移、分析和归档一体化的全生命周期管理。
另外,基于分布式架构的数字图书馆大数据存储系统构建以读者服务需求为依据,图书馆大数据除呈现海量、级数增长、非结构化和价值密度低的特征外,还具有数据一致性强弱不同、访问冷热度不均匀、数据读写操作负载波峰与波谷差异大的特点。因此,读者大数据服务要求存储系统具有高效、安全、低延迟、高并发、快流量和可扩展的特点。
大数据时代,图书馆服务数据呈现多媒体表现、更新频繁、读写速度高和页面数据量庞大的特点。因此,管理员应采用可预测网页变化的增量式更新模型,通过将磁盘的随机写入转化为批量的顺序写入,来大幅缩短网页数据的更新周期和提高用户信息搜索的时效性。其次,应根据数字图书馆大数据存储系统的结构、热点数据特征和用户数据读写模式,对大数据存储访问、数据索引、热点数据缓存、i/o缓存等方面进行全局优化,并通过提高数据的读取速率和系统吞吐量来降低读者在线访问延迟。第三,对于关系读者服务质量、图书馆管理与运营效率的重要数据,应采取子数据中心备份和多副本存储的模式,提高数据的安全性和可用性。第四,在数字图书馆大数据存储系统构建中,应将大数据存储系统、存储分析系统、大数据挖掘与过滤系统、计算系统整合到一个大的系统平台之上,实现数据采集、数据过滤和挖掘、数据存储、数据分析与归档一体化,提高大数据存储的效率、安全性、可控性和可用性。
基于分布式架构的数字图书馆大数据存储系统具备较强的智慧管理功能,可高效、自动地实现大数据融合存储、查询、分析和归档的全生命周期管理。同时,应支持对多种设备接口、通信协议和数据类型的结构化与非结构化数据,进行统一存储、归档与分析,避免数据孤岛现象发生。其次,管理系统应结构简单和易于控制,可对存储系统硬件设备、软件系统和存储区域网络进行统一的管理。通过对所采集的存储系统运营状态反馈数据进行性能统计和智能分析,实现系统的自动化精简配置和存储空间的动态分配。第三,图书馆应增强基于大数据存储管理算法的科学性,实现大数据资源存储的智能、虚拟化管理,解决大数据环境下图书馆大数据存储系统所存在的存储介质异构、数据分片和存储资源分配难度大的问题。第四,数字图书馆大数据存储系统建设和系统运营过程应加强能耗管理。图书馆在存储系统构建中应尽量使用闪存子系统、pcm等低能耗的新型存储介质。同时,还应采用能耗查询优化、数据存储节点负载均衡、能耗均衡的集群存储分配、面向集群的高能效缓冲区置换算法等,实现数字图书馆大数据存储系统的低碳运营和绿色存储。
基于分布式架构的数字图书馆大数据存储系统安全、可控和易于动态扩展,在大数据存储系统基础设施建设中,图书馆应采用分布式存储系统结构来保证系统架构的可扩展性。通过对存储节点的平均负载配置实现节点间的存储负荷均衡,保证系统整体具有较高的安全性、存储效率、可控性和可用性。其次,在数字图书馆大数据存储系统建设中,应利用图书馆原有存储系统平台资源,对所采集的大数据资源进行数据分析、数据过滤和降噪处理,在降低大数据平台建设成本前提下增强大数据资源的价值密度,减轻数字图书馆大数据存储系统的计算、存储和网络传输负荷。第三,系统管理员应仔细分析图书馆的大数据存储业务,并购买或者开发相应的存储系统监控、决策软件,实现对存储磁盘i/o、磁盘总容量、磁盘占用率、cpu使用量、内存占用和存储系统传输网络效率等,进行全面、实时的运营状态监控和性能分析,并依据监控结果对存储系统的参数与资源进行配置和动态分配。
基于分布式架构的数字图书馆大数据存储系统构建坚持公有云与私有云相结合的原则,利用云存储技术,图书馆可以保障读者在任何时间、任何地点,通过任何可连网的装置连接到云上,方便地存取数据和进行云阅读活动。但是,不科学的云基础设施架构和云应用策略,会导致云系统的构建与云服务成本上升,以及云存储数据安全性和个人隐私受到侵犯,严重影响了图书馆大数据应用与用户服务决策的安全、有效性。图书馆大数据存储具有数据安全级别、读写频率、结构特征和价值密度不统一的特点。因此,应根据图书馆大数据存储和大数据阅读服务需求,构建安全、高效的云存储系统和管理策略。
结合基于分布式架构的数字图书馆大数据存储系统环境特点和服务需求,应采用混和云的方式对图书馆大数据资源进行存储和管理。读者对图书馆大数据服务具有安全、高效、经济、便捷的需求。因此,在对海量、多类型、低安全需求的服务数据进行数据模式统一转化后,应存储于公共云平台上,并与云服务商签署相应的云服务租赁协议,保证图书馆租赁的公共云资源和存储空间,可随大数据服务需求和数据量变化动态弹性调整。此外,云服务商还应依据读者所处地理位置分布实际,在世界不同地域构建若干个服务数据备份存储空间,保证读者可就近、实时、高效、经济和便捷地阅读访问。而对于高安全级别的读者个体特征数据、社会关系数据、阅读行为数据和图书馆系统运营监控数据等,应存放在图书馆的私有云上,并制定安全、高效的数据管理与保密措施,实现对保密数据的统一管理、扩展、升级和集中备份与容灾。
以上所述并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。