专利名称:一种大规模感染控制数据存储处理方法
技术领域:
本发明涉及一种大规模感染控制数据存储处理装置。
背景技术:
随着计算机技术发展与普及,办公自动化已深入到各行各业。医院作为一个服务型行业,医疗信息化管理尤为重要。医院在进行事务处理时,会产生大量的数据,其中包括结构化、半结构化和非结构化的数据。医疗技术的发展使得医院的日常业务发生了很大变化,各式各样的医疗设备应用到医疗服务中来,产生了大量的影像数据。从海量信息中实现信息追溯、事故定位 成为新的需求。此外,医院日常事务所产生的海量信息被要求保存至少5年以上。现阶段,医院主要利用大型关系型数据库存储和专有的文件系统管理影像、视频及其他格式的信息,并通过以高性能服务器、网络及存储设备构成硬件支持平台将这些信息以数字化的方式存储,并提供一定的辅助功能,如信息修改、查询、备份、容灾等等。对外提供一定的访问接口,方便信息的融合和对医院业务的监控管理。相关技术 HIS系统
HIS是覆盖医院所有业务和业务全过程的信息管理系统。利用计算机软硬件技术、网络通信技术等现代化手段,对医院及其所属各部门的人流、物流、财流进行综合管理,对在医疗活动各阶段产生的数据进行采集、储存、处理、提取、传输、汇总、加工生成各种信息,从而为医院的整体运行提供全面的、自动化的管理及各种服务的信息系统。HIS系统主要由挂号与预约系统、划价收费系统、门诊药房系统、门诊医生工作站系统、门诊护士站系统、住院管理系统、病案管理系统、手术系统等18个子系统组成,数据主要存储在关系型数据库中,提供了诸如数据查询、修改、统计、打印等常见功能。PACS 系统
在现代医疗行业,医学影像信息系统PACS是指包含了包括了 RIS,以DIC0M3.0国际标准设计,以高性能服务器、网络及存储设备构成硬件支持平台,以大型关系型数据库作为数据和图像的存储管理工具,以医疗影像的采集、传输、存储和诊断为核心,是集影像采集传输与存储管理、影像诊断查询与报告管理、综合信息管理等综合应用于一体的综合应用系统,主要的任务就是把医院影像科日常产生的各种医学影像(包括核磁、CT、DR、超声、各种X光机等设备产生的图像)通过DIC0M3.0国际标准接口(中国市场大多为模拟,DIC0M,网络等接口)以数字化的方式海量保存起来,当需要的时候在一定的授权下能够很快的调回使用,同时增加一些辅助诊断管理功能。现阶段,行业在改进PACS系统上做了几点努力,一是内部存储格式标准化为DIC0M3.0,这样做的好处在于更换PACS时不必找旧PACS厂家来转换数据。二是采纳标准压缩算法来压缩图像文件。三是PACS系统三级储存模式(在线、近线和离线)已经转变成两级(在线和备份)。在线模式使用RAID (冗余存储磁盘阵列)加NAS或SAN技术。
EMR 系统
电子病历(EMR,也叫计算机化的病案系统或称基于计算机的病人记录)。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历。它的内容包括纸张病历的所有信息。该系统同HIS系统一样,所有数据存储在关系型数据库中。现有系统缺点
现有技术虽然能够较好的解决医院日常业务所产生的数据,但是随着工业技术的发展,这些技术在面对新型应用需求时显得捉襟见肘,特别RFID技术及二维码技术的在医院业务中的应用使得现有系统呈现出如下的一些缺点:
1、系统容量小:医院各种业务产生大量的数据,在一段时间内,这些数据将保存并且可能随时被访问,因此需要占用大量的存储介质。以现有技术方案,增加一个存储节点的难度大,对系统的稳定性产生很大影响。2、信息追溯难度大:现有的系统并没有考虑到信息的追溯问题,因而在这方面做的工作很少,这使得信息追溯变得非常困难。但是随着新技术的引入,信息追溯将是医院管理系统的必须考虑的重要方向。3、缺乏对日志文件的管理:传统的HIS缺乏对器械类设备的管理工作,没有为器械建立使用日志文件,在器械出现故障时难以对故障出现的原因进行追踪,给管理上造成诸多不便。4、系统扩展性差:现有的HIS、PACS、EMR系统基本覆盖了医院的所有业务,并对这些业务进行了建模工作和实现。但是现代科技的发展使得这些预先定义的业务规则处理这类新应用时遇到困难,若要在系统加入新应用,可能需要改变已有的业务规则,所以系统的扩展性较差。5、系统适应性差:现阶段,RFID技术、二维码技术、视频监控技术已经应用的许多领域,特别在物流、信息追溯领域,这些技术拥有巨大的需求。在不久的将来,这些技术将会在医院得以应用,但是现有的系统并没有考虑到为这些技术提供交互的接口,因而需要重新建立系统应用甚至是更换系统架构。
发明内容
通过前面的分析,结合医院的业务需求,本发明需要解决如下的几个问题:
(1)大规模感控信息的存储问题。传统关系型数据库在容量和扩展性上受到很大的限制,即使由关系型数据库组成数据库集群,其容量增长效果很小,难以达到PB级存储要求。本发明采用传统数据库和新型数据库以及分布式文件系统相结合,物尽其用,扩展系统的存储容量。新型数据库集群系统构建在分布式系统上,存储节点可以随意添加,只做少量配置工作即可使用,可大大提升了系统的存储容量。另外,影像、图片等二进制文件与结构化数据分类存储,大大缓解数据库存储压力。(2)系统适应性问题。RFID、二维码等技术应用到医院日常业务中来,可以提高了医院办事的效率。但是原有的HIS系统并没有为这类技术提供足够的支持,如果要适应这类技术带来的应用变化,需要在原有的系统上做较大规模的改动。本发明将这些技术所产生的应用需求考虑在内,规范数据格式和业务流程,将RFID、二维码技术等新技术融合到系统中,实现对数据、事务的统一建模,从而提高系统对新技术的适应性。(3)信息云处理问题。已有HIS系统基本采用集中式业务处理规则,资源和服务过于集中,很难处理大量突发应用请求,资源共享效率低。本发明通过将资源部署到各个存储节点,并分析应用请求,将请求分发给相应的存储节点,由存储节点分担主服务任务,从而为用户提供一种云服务。本发明为了实现上述目的采用以下技术方案:
一种大规模感染控制数据存储处理方法,其特征在于包括:
步骤1:客户端程序A向存储服务器提交原始数据(I ),存储服务器的数据存储管理单元对原始数据(I)进行过滤、查错检测和格式化处理,得到具有符合系统存储的数据结构(2),存储服务器根据预定存储优化策略将数据结构(2)存储到相应集群设备;
步骤2:客户端B向存储服务器提交数据取回请求(3),数据取回单元托管数据取回请求(3),具体操作为:分析数据取回请求(3),分解至最小查询粒度(4),并分配最小查询粒度⑷到相应的集群;如mysql集群、HBase集群或HDFS集群;
步骤3:集群存储节点响应最小查询粒度(4),分发请求到相应的数据存储节点,存储节点根据查询条件返回数据到集群主节点,主节点完成数据的合并处理,得到数据集(5),并将数据集(5)返回到数据取回管理单元,数据取回管理单元处理数据集(5),转换成数据流(6),交互用户;
步骤4:容量监控单元持续监控系统容量变化,统计数据流入系统的速率,预判系统容量是否满足当前以及未来的存储需求,生成详细报告提交系统管理员;
步骤5:备份恢复单元在一定时间内对系统的数据进行备份处理,并完成数据的一致性检验,数据在存储服务器·上至少保留3分以上,以满足数据容灾需求。数据恢复管理需要完成丢失、损坏数据的恢复工作,并将新数据无损迁移到新存储节点上。本发明具有以下有益效果:
批量数据存储:数据服务器将客户端(包括非可见终端如RFID、二维码扫描器)提交的大量数据进行智能处理,初步处理后的数据交予相应存储集群,由集群主节点实现数据的分片、存储、备份工作,数据服务器负责更新数据索引目录,减少与数据库的交互次数,实现批量数据快速存储工作。备份与恢复:系统为每个数据保留3份以上备份,备份数据存储在不同的存储节点上。在系统发生异常,数据遭到破坏时,可以迅速从备份文件中实现信息的快速恢复工作。负载平衡:负责平衡包括资源的负载平衡和计算负载平衡,以及他们之间的综合优化。系统提供一个负载平衡的优化策略,对于经常访问的资源,系统将为其建立资源索弓丨,并将这些资源存储到性能较好的节点上。数据服务器将接受到的应用请求分配到各个子节点,而非响应全部的请求,从而达到计算负载平衡的效果。并行查询:数据服务器将数据请求分配到各个集群存储节点上,集群存储主节点合并数据结果,返回客户相应数据,由于是多个节点同时响应请求,从而实现信息的并行化查询,加快系统响应的速度。
图1系统架构示意 图2系统处理逻辑示意图
图3大规模数据写入处理流程 图4智能信息追溯处理流程 图5存储容量实时监控示意 图6数据备份灾难恢复示意图。图中I为I为原始数据、2为数据结构、3为数据取回请求、4为最小查询粒度、5为数据集、6为数据流。
具体实施例方式系统架构
图1.系统由3层组成,顶层为系统应用接口,中间为数据服务器,底层为数据存取层。其中,核心为数据服务器,其主要工作是组织和管理底层的存储层,提供计算和存储负载管理、数据备份和容灾、信息智能追踪等功能。顶层提供数据交换接口,包括数据接入和读取。底层为数据存储层,包括mysql集群、hbase集群以及hadoop集群。这3中集群分别存取不同类型的数据,以达到对数据资源的合理、均衡负载,增强系统的鲁棒性和健壮性。客户端和数据服务器之间通过internet网络连接,也可以是专用网络,数据服务器和存储集群之间搭建高速内部网络,实现高速的数据传输。
数据存储过程
图2.感染控制数据主要来自于视频监控、医疗器械使用状况、患者病情信息、医疗影像信息等。数据流入数据服务器时,服务器对数据进行智能分类,主要将文本信息和流格式信息区分开来,主要为结构化、非结构化数据以及班结构化数据。服务器按照预先的设置查找目标存储节点,并判断该节点当前是否为访问热点。如果目标节点是访问热点,服务器从集群中寻找其它同等非“热”节点,并将数据交付存储主节点,主节点将数据进行分片处理,分片后的数据存储到集群中的其他节点。同时,主节点将数据同步到其它存储节点(数据在系统的存储份数多于2份)。同步数据完成后,节点将同步信息返回服务器,服务器更新响应的数据索引目录。数据取回
图3.根据客户端发来的查询请求,数据服务器分析请求的类型,并分解查询请求至最小单位。服务器从数据目录索引获取数据存储的节点位置,判断目标查询节点当前是否为访问热节点。如果目标节点正在处理其它业务请求,服务器启用备用存储节点。数据请求分解到“闲”节点处理,“闲”节点取出相应的信息,并由集群主节点将信息结果汇总,再提交服务器,响应客户端请求。容量监控
图4.数据服务器实时 监控底层集群存储容量变化状况和网络数据流,根据每天产生数据流量变化预测系统存储容量是否满足业务需求。如果系统存储资源出现紧张情况,数据服务器自动报警。对于新增加的存储节点,服务器为之注册节点信息,并将部分系统其它负载过重的节点上的数据无损迁移到该节点,减轻负载过重节点的存储和计算压力。服务器更新存储系统数据目录结构,完成数据存储负载平衡工作。
数据备份和灾难恢复
图5.数据在系统中保留两份以上的相同数据,并且数据按照负载均衡策略分布在集群系统的部分节点上。数据服务器器检测到数据发生灾难后(丢失、损坏),立即根据数据存储目录查找到其备用节点,服务器从所有的备用节点中获取相关数据,并对其进行合并。如果数据不能完全恢复,则说明丢失的数据完备性遭到破坏,服务器生成错误报告。如果数据能够完全恢复,系统重新将数据进行分片迁移到集群中其它“活节点”,更新对应的数据目录,完成数据灾难恢复工作。对于不能在线恢复的数据,需要管理人员使用离线备份数据进行恢复,这里不在本 架构的设计范围内,不与详述。
权利要求
1.一种大规模感染控制数据存储处理方法,其特征在于包括以下步骤: 步骤1:客户端A向存储服务器提交原始数据(I),存储服务器的数据存储单元对原始数据(I)进行过滤、差错检测和格式化处理,得到符合系统存储的数据结构(2),存储服务器根据预定存储优化策略将数据结构(2)存储到相应集群设备; 步骤2:客户端B向存储服务器提交数据取回请求(3),数据取回单元托管数据取回请求(3),具体操作为:分析数据取回请求(3),分解至最小查询粒度(4),并分配最小查询粒度⑷到相应的集群; 步骤3:集群存储节点响应最小查询粒度(4),发送查询数据至集群主节点,主节点对数据的合并,得到数据集(5),数据集(5)经数据取回单元处理为数据流(6)后,交付数据结构⑵; 步骤4:容量监控单元监控系统容量变化,评估集群存储状况,生成相应报告; 步骤5:备份恢复单元·自动完成数据备份工作,数据丢失、损坏情况下完成恢复工作。
全文摘要
一种大规模感染控制数据存储处理方法,包括以下步骤步骤1客户端A向存储服务器提交原始数据1,数据存储单元对原始数据1进行过滤、差错检测和格式化处理,得到数据结构2,由数据服务器根据设定的存储优化策略存储到集群设备;步骤2客户端B存储服务器提交数据取回请求3,数据取回单元分析并分解数据取回请求3最小粒度查询语句4,并分配至相应的集群;步骤3集群存储节点响应最小粒度查询语句4,集群主节点合并查询数据为数据集5,数据集5经数据取回单元处理为数据流6后交付客户端B;步骤4容量监控单元监控系统容量变化,评估集群存储状况;步骤5备份恢复单元自动完成数据备份及数据容灾工作。
文档编号H04L29/06GK103235817SQ20131015112
公开日2013年8月7日 申请日期2013年4月27日 优先权日2013年4月27日
发明者徐杨, 彭冲, 胡海啸, 邬嘉予 申请人:电子科技大学