本发明属于大数据及数据交换共享技术领域,尤其涉及一种基于大数据技术的医疗数据交换共享系统及方法。
背景技术:
目前,最接近的现有技术:随着社会的发展,人们对医疗数据的高速查询需求,以及医疗数据的准确性需求越来越大。而现有的大数据技术无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理数据的共享整合,并且存在数据难维护、处理效率和稳定性低、数据偏移严重等问题。需要在新的处理模式下才能有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化。
综上所述,现有技术存在的问题是:现有的大数据技术无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理数据的共享整合,并且存在数据难维护、处理效率和稳定性低、数据偏移严重等问题,以及传统医疗数据在存储方面故障多发、运维难度大、容灾能力低,海量医疗数据存储能力有限。在数以亿计多维数据分析方面效率低下,检索耗时、特别是针对数据的挖掘清洗更是力不从心。
解决上述技术问题的难度:医疗数据专业化程度高,业务流程分散、数据整合难度大,数据清洗规则繁多,普通的数据处理模式已经满足不了医疗业务处理需求。
解决上述技术问题的意义:本发明基于大数据开发的医疗数据交换共享平台,可以完成数据的高效存储和交换,并集中数据,统一格式,提供基于个人主索引的数据共享服务。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种基于大数据技术的医疗数据交换共享系统及方法,旨在解决现有医疗数据交换共享中出现的医疗数据类型复杂、处理效率低、数据偏移严重等问题。
本发明是这样实现的,一种基于大数据技术的医疗数据交换共享系统,包括:
数据采集模块:通过mule作为任务统一调度,调用医院存储前置服务,利用封装的kettle作为数据适配器,把数据抽取到大数据中心进行存储。
数据存储模块:与数据采集模块连接,处于分析和检索性能的分析,数据中心分别以hive作为数据仓库,hbase、elasticsearch作为数据检索库,分别存储业务主题、统计分析、流程状态、电子病历、健康档案等数据。
数据交换模块:与数据存储模块连接,当医疗数据存储到大数据之后,需要针对不同的业务进行数据的一致性,及时性,规范性,完整性的校验统计,其执行语句是基于sparksql语法进行定制,因为spark技术是基于内存计算的,所以执行效率高,源于sparksql的兼容性,其规则可完全动态维护。
数据共享模块:与数据交换模块连接,通过电子健康卡统一接口完成电子健康卡号分发,通过业务协同集成系统完成与医院系统的实时数据共享。
进一步,所述基于大数据技术的医疗数据交换共享系统进一步包括展现层、业务层和持久层。
本发明的另一目的在于提供一种应用所述基于大数据技术的医疗数据交换共享系统的基于大数据技术的医疗数据交换共享方法,针对所有医疗数据进行数据分析,主要的数据处理内容有:数据的一致性:数据传输过程中院方统计数据和实际采集数据量的比对;数据的及时性:是业务数据发生时间与数据上报时间的时间差值;数据的完整性:是业务表之间的关联关系的校验;数据的规范性:是针对业务字段的范围做一个规范。
进一步,所述基于大数据技术的医疗数据交换共享方法包括以下步骤:
第一步,医疗平台的前置服务的监听器检测到放入前置库的数据,调用数据抽取调度器,调度器调度数据抽取接口把前置库数据抽取到前置缓存库,在前置缓存库进行数据的校验清洗,完成数据清洗后触发数据导出;
第二步,通过shell脚本资源,导数据前置库文件数据,通过ftp服务上传到大数据中心;
第三步,大数据中心通过状态监控检测到医疗数据文件后,调动大数据核心执行引擎,分别抽取数据到增量和全量环境中,进行数据的二次统计清洗,把结果数据存储中不同的主题数据存储库;
第四步,数据交换共享平台通过持久化dao层建立与数据库的连接;展现层通过业务层进行数据调用展现共享。
进一步,第一步进一步包括:
步骤1,编写动态sql执行语句,基于sparksql计算引擎实现数据分析、统计、清洗操作;
步骤2,配置mapred-site.xml文件里的参数,设置mapreduce执行引擎,配置spark-defaults.conf文件、hive参数,搭建基层hadoop环境;
步骤3,编写动态解析配置文件方法,达到给采集程序的快速传参;
步骤4,基于mule进行集成调度kettle,传参分装到配置文件,实现数据库参数修改时只针对配置文件进行修改。
进一步,步骤1中,所述sparksql可对数据进行类sql处理。基于sparksql计算引擎,针对医疗多元结构化数据集、通过数据合并、数据清洗、数据分析统计、数据建模等处理模式,为医疗数据交换共享平台数据监控、统计分析提供基础数据支撑。
进一步,步骤3中,使用esb(mule)进行采集流程任务的启动,针对数据采集流程繁琐,流程之间无直接关系的问题,通过esb(mule)搭建调度服务,使得流程规范化,可视化,运行可监控,动态配置等模式提高了平台数据采集交换的速率。
进一步,步骤4中,基于etl(kettle)进行进行数据的采集和交换,由于不同医院数据量差异,数据不固定,通过使用etl(kettle)定制化,可视化等,保障不同医院数据相同时间采集完成。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的基于大数据技术的医疗数据交换共享方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的基于大数据技术的医疗数据交换共享方法。
综上所述,本发明的优点及积极效果为:本发明提供的基于大数据技术的医疗数据交换共享系统,可实现批量医疗数据的采集清洗校验任务的自动化并行处理,且对处理结果及原始数据进行分发、存储、备份,数据交换共享速率高。本发明采集过程采用压缩技术,能够降低网络宽带的压力,降低数据维护量,丰富数据处理模式的类型,提高数据处理的效率及稳定性,做到全流程自动监控处理过程。
针对医疗多元结构化数据集,本发明通过数据合并、数据清洗、数据分析统计、数据建模等处理模式,能够为医疗数据交换共享平台数据监控、统计分析提供基础数据支撑。通过esb(mule)搭建调度服务,使得流程规范化、可视化,运行可监控,动态配置等模式提高了平台数据采集交换的速率。通过使用etl(kettle)定制化,可视化等,保障不同医院数据相同时间采集完成。采用esb+etl技术,实现多个数据采集点同时批量抽取数据任务的自动化处理;采集过程采用数据压缩技术,极大降低网络宽带压力;让数据资源集中整合共享,数据处理支持多并发。因此,本发明能够有效解决现有医疗数据交换共享中出现的医疗数据类型复杂、处理效率低、数据偏移严重等问题,提高医疗数据的查询速率及数据处理的效率和稳定性,提升医疗数据准确度。
本发明通过大数据技术的整合,使用动态sql拼接,极大的提升了开发效率,利用spark高效的内存计算特性,利用创新的分类,分区存储的医疗数据,执行效率提升了20倍,开发效率提升200%,数据查询效率提升30倍。
与现有现有技术相比,本发明的优点和效果进一步包括:数据批量自动化处理;数据交换共享速率高;采集过程采用压缩技术,降低网络宽带的压力;本发明全流程自动监控数据处理过程;降低了数据维护量。
实验表明,如图6接口文档升级方式转变流程图一所示。根据接口文档进行开发的版本维护量较大,后期升级中,目前修改为配置sql版本,根据配置的sql文件进行抽取,减少升级时的工作量。
如图7接口文档升级方式转变流程图二所示。根据接口文档进行开发的版本维护量较大,后期升级中,修改为配置sql版本,根据配置的sql文件进行抽取,减少升级时的工作量。
附图说明
图1是本发明实施例提供的基于大数据技术的医疗数据交换共享方法的流程图。
图2是本发明实施例提供的基于大数据技术的医疗数据交换共享系统原理图。
图3是本发明实施例提供的基于大数据技术的医疗数据交换共享系统的结构示意图。
图中:1、数据采集模块;2、数据存储模块;3、数据交换模块;4、数据共享模块。
图4是本发明实施例提供的数据处理流向图。
图5是本发明实施例提供的mule调度kettle原理图。
图6是本发明实施例提供的接口文档升级方式转变流程图一。
图7是本发明实施例提供的接口文档升级方式转变流程图二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于大数据技术的医疗数据交换共享系统及方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于大数据技术的医疗数据交换共享方法包括:医疗平台的前置服务的监听器检测到放入前置库的数据,调用数据抽取调度器,调度器调度数据抽取接口把前置库数据抽取到前置缓存库,在前置缓存库进行数据的校验清洗,完成数据清洗后触发数据导出。
具体包括:
s101,编写动态sql执行语句,基于sparksql计算引擎实现数据分析、统计、清洗操作。
s102,配置mapred-site.xml文件里的参数,设置mapreduce执行引擎,配置spark-defaults.conf文件、hive参数,搭建基层hadoop环境。
s103,编写动态解析配置文件方法,达到给采集程序的快速传参。
s104,基于mule进行集成调度kettle,传参分装到配置文件,保证数据库参数修改时只针对配置文件进行修改。
作为优选实施例,如图2所示,本发明实施例提供的基于大数据技术的医疗数据交换共享方法具体包括以下步骤:
第一步,医疗平台的前置服务的监听器检测到放入前置库的数据,调用数据抽取调度器,调度器调度数据抽取接口把前置库数据抽取到前置缓存库,在前置缓存库进行数据的校验清洗,完成数据清洗后触发数据导出。
第二步,通过shell脚本资源,导数据前置库文件数据,通过ftp服务上传到大数据中心。
第三步,大数据中心通过状态监控检测到医疗数据文件后,调动大数据核心执行引擎,分别抽取数据到增量和全量环境中,进行数据的二次统计清洗,把结果数据存储中不同的主题数据存储库。
第四步,数据交换共享平台通过持久化dao层建立与数据库的连接;展现层通过业务层进行数据调用展现共享。
如图3所示,本发明实施例提供的基于大数据技术的医疗数据交换共享系统包括:
数据采集模块1:通过mule作为任务统一调度,调用医院存储前置服务,利用封装的kettle作为数据适配器,把数据抽取到大数据中心进行存储。
数据存储模块2:与数据采集模块连接,处于分析和检索性能的分析,数据中心分别以hive作为数据仓库,hbase、elasticsearch作为数据检索库,分别存储业务主题、统计分析、流程状态、电子病历、健康档案等数据。
数据交换模块3:与数据存储模块连接,当医疗数据存储到大数据之后,需要针对不同的业务进行数据的一致性,及时性,规范性,完整性的校验统计,其执行语句是基于sparksql语法进行定制,因为spark技术是基于内存计算的,所以执行效率高,源于sparksql的兼容性,其规则可完全动态维护。
数据共享模块4:与数据交换模块连接,通过电子健康卡统一接口完成电子健康卡号分发,通过业务协同集成系统完成与医院系统的实时数据共享。
本发明实施例提供的基于大数据技术的医疗数据交换共享系统包括展现层、业务层和持久层。
下面结合效果对本发明作进一步描述。
本发明sparksql可对数据进行类sql处理。基于sparksql计算引擎,针对医疗多元结构化数据集、通过数据合并、数据清洗、数据分析统计、数据建模等处理模式,为医疗数据交换共享平台数据监控、统计分析提供基础数据支撑。
本发明使用esb(mule)进行采集流程任务的启动,针对数据采集流程繁琐,流程之间无直接关系的问题,通过esb(mule)搭建调度服务,使得流程规范化,可视化,运行可监控,动态配置等模式提高了平台数据采集交换的速率。
本发明基于etl(kettle)进行进行数据的采集和交换,由于不同医院数据量差异,数据不固定,通过使用etl(kettle)定制化,可视化等,保障不同医院数据相同时间采集完成。
本发明编写动态sql执行语句,基于sparksql计算引擎实现数据分析,统计,清洗操作。
本发明配置mapred-site.xml文件里的参数,设置mapreduce执行引擎,配置spark-defaults.conf文件、hive参数,搭建基层hadoop环境。
本发明编写动态解析配置文件方法,达到给采集程序的快速传参。
本发明基于mule进行集成调度kettle,传参分装到配置文件,保证数据库参数修改时只针对配置文件进行修改。
本发明通过大数据技术的整合,使用动态sql拼接,极大的提升了开发效率,利用spark高效的内存计算特性,利用创新的分类,分区存储的医疗数据,执行效率提升了20倍,开发效率提升200%,数据查询效率提升30倍。
下面结合具体应用例对本发明作进一步描述。
应用例
本发明通过使用大数据技术的医疗数据交换共享系统的甘肃省全民健康信息平台,在数据质控、数据交换与共享、主数据管理等应用取得了良好的应用成效。
图4是本发明实施例提供的数据处理流向图。图5是本发明实施例提供的mule调度kettle原理图。
如图6接口文档升级方式转变流程图一所示。根据接口文档进行开发的版本维护量较大,后期升级中,目前修改为配置sql版本,根据配置的sql文件进行抽取,减少升级时的工作量。
如图7接口文档升级方式转变流程图二所示。根据接口文档进行开发的版本维护量较大,后期升级中,修改为配置sql版本,根据配置的sql文件进行抽取,减少升级时的工作量。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。