一种数据采集管理系统及方法与流程

文档序号:16880552发布日期:2019-02-15 22:05阅读:376来源:国知局
一种数据采集管理系统及方法与流程

本发明涉及医疗技术领域,具体涉及一种数据采集管理系统及方法。



背景技术:

目前各行各业都在建设大数据平台,建设大数据平台需要收集行业内各种业务数据。收集业务数据现有方式为:

1)异地导出数据文件,然后拷贝到平台端进行导入继续数据清洗整理。该方式存在数据不及时、导出过程中存在数据文件损坏或数据丢失,且处理麻烦耗时。

2)数据推动方式。下属行业机构提供一台服务器,在服务器上建立一套平台数据底层结构,有下属机构直接推送写入数据,然后平台再把推送过来的数据取到中心端清洗整理。该方式处理环节多、参入人员角色多、协调管理繁琐。

如中国专利申请cn108234605a公开了一种医疗数据采集装置及方法、医疗数据管理平台,通过将云消息采集节点分别部署在一个医疗机构的业务系统中,将云消息传输节点部署在大数据管理系统中;每一个云消息采集节点用于采集部署业务系统产生的每一条医疗数据,并将采集的每一条医疗数据传输至云消息传输节点;云消息传输节点将接收的每一个医疗数据分别传输至大数据管理系统。该发明存在采集节点多,数据传输不及时,各采集节点规则不统一,出现问题时,不利于快速定位,数据质量无法保证。

如中国专利申请cn107391926a公开了一种医疗数据采集分析系统,该系统包括多个医疗数据收集管理平台、医疗数据通信模块和医疗数据诊断平台,医疗数据收集管理平台用于收集并管理患者的医疗数据,并通过医疗数据通信模块将医疗数据传送至医疗数据诊断平台;医疗数据诊断平台用于对患者的医疗数据进行分析、诊断,生成诊断结果发送给医疗数据收集管理平台。该发明采用下属机构采集数据,并将其推送到上级机构,该方式处理环节多,不可控因素多,且效率低、数据传输质量无法保证。

根据国家卫生健康委员会(原卫生部)要求各级区域需要建设辖区内全民健康信息平台,以实现区域内及区域间医疗卫生数据汇聚、互联互通、数据共享。在全民健康信息平台建设的过程中各医院需要按全民健康信息平台建设数据接入要求,提供医院医疗卫生数据到全民健康信息平台。现有技术的方案简述,如附图1所示,目前医院数据接入采用按照全民健康信息平台建设规范拼装数据结构,在医院内网,医院操作人员进行数据上传,推送数据至平台前置机服务器,即直接写入到全民健康信息平台在医院端的前置机,然后通过前置机上的数据交换工具,推送数据到平台数据库服务器,即卫生专网的全民健康信息平台端,其中医院数据服务器、平台前置机服务器、平台数据库服务器均设有定时任务规则,且分别设有医院操作人员、数据交换操作人及平台操作人员。

现有技术存在的客观缺点:

1)数据操作流程的人员角色过多,对于整体流程不便形成统一的认知。

2)数据操作流程定时任务规则多,且在不同系统或工具、不同的网络内设置,定时任务之间的衔接贯通不便。

3)若在整个流程中若出现问题,所有的操作人员都需要来参入问题排查,各关联方多,投入人力多,且可能形成问题推诿,不利于快速分析、定位、解决问题。

4)数据接口升级、数据反复拉取等操作,现有流程会造成实施周期长、多人力物力投入、多方、多次协调沟通、且数据质量得不到保障。



技术实现要素:

为克服现有技术中的不足,本发明的目的在于提供一种简化数据接入和数据升级流程,数据交换和数据采集流程可视化、数据质量和数据问题可控制的数据采集管理系统及方法,其技术方案如下:

一种数据采集管理系统,包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、etl参数配置、etl运行管理、etl运行日志、监控节点配置、运行监控与分析;该系统连接数据采集流程配置,所述数据采集流程配置提供数据采集配置文件规则。

优选地,所述系统管理提供对操作本系统的人员组织机构信息管理、用户基本信息管理、系统资源管理、用户角色管理、会话管理、操作日志记录、系统字典管理、定时任务管理;

所述对码管理提供原始数据值域字典管理,平台值域字典管理及两者之间的映射关系维护管理;

所述数据质量控制提供数据校验配置和配置规则,还提供数据质量校验结果报告,提供统计指标公式配置,根据天、月为周期自动计算统计指标;

所述监控节点配置可以根据需要配置哪些数据采集流程需要详细监控;

所述运行监控与分析根据监控节点配置的数据采集流程提供流程内节点每次运行详细;分析数据采集流程在一定时间内每次的运行情况,形成图形报表,图形报表包括x轴、y轴,x轴包括年、月、日,y轴包括数据采集耗时和数据采集的数据量。

优选地,所述数据采集流程配置通过使用kettle来配置,生成数据采集配置文件,数据格式为xml,文件类型包括数据源、transformation和job;数据采集流程配置提供数据采集文件规则。

优选地,所述资源库管理主要对数据采集配文件提供一个管理容器,只有这个容器启动,数据源、job、transformation配置才可用;

所述数据源管理提供数据采集配置的数据源连接配置管理,主要连接方式包括jdbc和jndi;支持集群环境连接,支持主流关系和非关系型数据库;

所述etl参数配置提供数据采集原始数据映射规则、数据采集标志位、数据采集时间段起止时间配置、时间步长配置、时间周期类型配置;

所述etl运行管理提供job、transformation运行管理,提供定时任务运行规则,job的定时运行规则配置可以按秒、分钟、小时、天、星期、月为单位的自定义间隔周期运行;查看job、transformation每次运行的运行日志记录;

所述etl运行日志提供记录所有job、transformation每次运行的运行日志管理维护,运行日志会根据运行情况显示相应的运行状态,运行日志可以下载到本地。

优选地,所述数据采集流程配置的输入读取源头包括数据库表格、文本文件、execl文件、xml文件、json文件、webservice接口;所述数据采集流程配置的输出端包括数据库表格、文本文件、execl文件、xml文件、json文件。

一种数据采集管理方法,包括以下步骤:

(1)数据抽取阶段,根据etl参数配置自动生成平台建设所需医疗机构数据库中涉及的表结构;

(2)数据清洗阶段,自动清洗校验数据;

(3)数据上传阶段,把清洗校验后的数据进行加密,然后自动上传到平台端。

优选地,所述数据抽取阶段包括以下步骤:

(1)数据映射:筛选出涉及的数据表,把这些数据表配置到数据采集管理系统中;

(2)源数据缓存:从医疗机构通过数据映射过来的数据会根据缓存规则自动清理和存储固定时间段的数据,以备数据问题分析定位;

(3)平台数据采集接口规范:即是数据采集的规则库,根据这个规则库定义各项数据的类型、长度及值域范围;

(4)数据汇聚:数据采集映射过来后,根据规则库的数据项定义,形成数据汇聚;

(5)数据汇聚完成,即得到数据视图,数据视图的各项定义和规则库的数据项定义对应;

(6)数据匹配:在数据清洗前进行,匹配规则来源于平台数据采集接口规范。

优选地,所述数据清洗阶段包括以下步骤:

(1)对码转码:根据数据采集管理生产的对码映射关系,在数据采集流程中调用继续转码;

(2)数据备份:在进行数据校验控制前,先备份清洗好的数据,以备数据问题分析定位;

(3)数据质量校验控制:根据平台数据采集接口规范形成的规则库领域模型进行数据校验,校验完成后形成校验结果报告;

(4)数据写入:将校验通过的数据写入到数据发送区。

优选地,所述数据上传阶段包括以下步骤:

(1)数据上传采用加密传输,上传时使用定时任务配置;

(2)平台端接收数据后,进入平台端数据处理流程。

优选地,所述加密传输包括传输通道加密和数据加密。

本发明所获得的有益技术效果:

1)本发明解决了现有技术中所存在人员角色过多、定时任务之间衔接贯通不便及数据质量得不到保障的问题,本发明实现了大数据平台建设数据标准化采集、数据汇聚、数据清洗、对码转码、数据质量校验等各流程动态配置,运行流畅、数据质量可控、易于实施维护、数据采集高效稳定;本发明所有的操作流程用一套流程全面覆盖各个关联方,提供统一的管理系统操作保障;数据在哪个流程环节出现问题,什么问题都可以进行追踪查看;实施周期相对较短,需要协调的方面较少;数据交互过程中数据质量可控,减少数据采集流程的操作人员,节省人力、物力及时间;

2)本发明采用主动采集方式,医院数据接入方式,采用数据采集的方式,主动拉取数据,准备阶段协调工作少,资源准备简单,周期短;本发明整个数据操作流程的人员角色只需要一个;数据接口升级、数据反复拉取等操作,由单一操作人员即可在同一个流程内灵活配置,减少不可控因素,降低人力成本;

3)本发明通过在同一系统工具、同一网络内设置数据操作流程定时任务规则,同时定时器配置提供按月、周、天、小时、分钟、秒为单位的任意时间间隔周期运行,实现标准化流程动态配置,易于实施维护,数据采集高效稳定;所有的操作在同一个系统工具内有统一的系统工具日志,便于问题分析定位;

4)本发明通过数据采集流程提供原始数据缓存、数据质量控制前备份、数据质量控制后备份,以便于出现数据问题时,提供数据排查;通过提供数据质控前数据写入的错误数据处理、提供数据质量控制、校验数据质量、提供数据指标核对,确保数据采集的数据准确。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

附图1为现有全民健康信息平台建设数据管理流程图;

附图2为本发明数据采集管理系统功能架构图;

附图3为本发明数据采集流程图。

具体实施方式

以下将参照附图,通过实施例方式详细地描述本发明的技术方案。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,a/和b,可以表示:单独存在a,单独存在a和b两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。

实施例1

如附图2所示,一种数据采集管理系统,包括系统管理、对码管理、数据质量控制、资源库管理、数据源管理、etl参数配置、etl运行管理、etl运行日志、监控节点配置、运行监控与分析;该系统连接数据采集流程配置,数据采集流程配置提供数据采集配置文件规则。

kettlec/s数据采集流程配置:数据采集流程配置使用kettle来配置,生成数据采集配置文件,数据格式为xml,内容类型包括数据源(.kdb文件,数据源连接配置)、transformation(.ktr文件,单个数据采集配置)和job(.kjb文件,带定时运行规则的数据采集配置)。transformation可以嵌套transformation,job可以嵌套transformation和job。数据采集配置的输入读取源头包括数据库表格、文本文件、execl文件、xml文件、json文件、webservice接口,输出端包括数据库表格、文本文件、execl文件、xml文件、json文件。

kettle是一款国外开源的etl工具,纯java编写,可以在window、linux、unix上运行,数据抽取高效稳定。

系统管理提供对操作本系统的人员组织机构信息管理、用户基本信息管理、系统资源管理、用户角色管理、会话管理、操作日志记录、系统字典管理、定时任务管理。

对码管理提供原始数据值域字典管理,平台值域字典管理及两者之间的映射关系维护管理。

数据质量控制提供数据校验配置和配置规则,包括如下规则:主键唯一性、数据长度、数据类型、数据值的范围、数据关联性、数据一致性、数据完整性;还提供数据质量校验结果报告;提供统计指标公式配置,根据天、月为周期自动计算统计指标。

资源库管理主要对数据采集配文件提供一个管理容器,只有这个容器启动,数据源、job、transformation配置才可用。

数据源管理提供数据采集配置的数据源连接配置管理,包括服务器地址、实例名、用户名、密码、连接方式等信息;主要连接方式包括jdbc和jndi;支持集群环境连接,支持主流关系和非关系型数据库,oracle、mysql、mssql、db2、postgresql、cache、sybase等。

etl参数配置提供数据采集原始数据映射规则、数据采集标志位、数据采集时间段起止时间配置、时间步长配置、时间周期类型配置;

etl运行管理提供job、transformation运行管理,提供定时任务运行规则,job的定时运行规则配置可以按秒、分钟、小时、天、星期、月为单位的自定义间隔周期运行;查看job、transformation每次运行的运行日志记录。

etl运行日志提供记录所有job(单个job、job内嵌的job)、transformation(job内嵌的transformation、transformation内嵌的transformation)每次运行的运行日志管理维护,运行日志会根据运行情况显示相应的运行状态,运行日志可以下载到本地。

监控节点配置可以根据需要配置哪些数据采集流程需要详细监控。

运行监控与分析根据监控节点配置的数据采集流程提供流程内节点每次运行详细,运行详情包括运行耗时、开始时间、停止时间、处理的数据量;分析数据采集流程在一定时间内每次的运行情况,业务主要维度包括数据采集耗时和数据采集的数据量;时间维度包括年、月、日。

实施例2

基于上述实施例,一种数据采集管理方法,在数据采集流程中,包括以下步骤:

(1)数据抽取阶段,根据etl参数配置自动生成平台建设所需机构数据库中涉及的表结构;

(2)数据清洗阶段,根据数据采集配置文件规则、对码管理提供的平台及原始数据的映射管理和数据质量控制提供的配置规则进行自动清洗校验数据;

(3)数据上传阶段,把清洗校验后的数据进行加密,然后根据定时器配置规则自动上传到平台端。

如附图3所示,以医疗卫生行业大数据平台建设数据采集举例说明数据采集流程。

数据抽取阶段:

(1)数据映射:筛选出平台建设在医疗机构业务系统中涉及的数据表,把这些数据表配置到数据采集管理系统中;运行数据采集流程时,以同医疗机构表结构1:1的方式自动创建表结构;创建完表结构后,根据etl参数配置,获取个业务表数据;运行时使用定时器,即定时任务配置,定时任务支持按秒、分钟、小时、天、星期、月为单位的自定义间隔为周期运行;

(2)源数据缓存:从医疗机构通过数据映射过来的数据会根据缓存规则自动清理和存储固定时间段的数据,以备数据问题分析定位;

(3)平台数据采集接口规范:即大数据平台建设的一套数据底层结构,这套数据结构对数据采集来说,即是数据采集的规则库,根据这个规则库定义各项数据的类型、长度及值域范围;

(4)数据汇聚:数据采集映射过来后,根据规则库的数据项定义,形成数据汇聚;

(5)数据汇聚完成,即得到数据视图,数据视图的各项定义和规则库的数据项定义一一对应;

(6)在数据进行清洗前,进行数据匹配,匹配规则来源于平台数据采集接口规范。

数据清洗阶段:

(1)对码转码:根据数据采集管理生产的对码映射关系,在数据采集流程中调用继续转码;平台数据元值域代码即是数据采集规则库的数据字典,由数据采集管理系统维护管理,对码后还有问题的数据,进入错误数据处理流程,处理之后再次进行提交;

(2)数据备份:在进行数据校验控制前,先备份清洗好的数据,以备数据问题分析定位;

(3)数据质量校验控制:根据平台数据采集接口规范形成的规则库领域模型进行数据校验,校验数据的长度、类型、值域范围、数据主键,数据关联性、数据一致性、完整性;校验完成后形成校验结果报告;

(4)数据写入:将校验通过的数据写入到数据发送区,在写入发送区前先备份通过校验的数据。

数据上传:

(1)数据上传采用加密传输,加密传输方式包括传输通道加密和数据加密。上传时使用定时器,即定时任务配置,定时任务支持按秒、分钟、小时、天、星期、月为单位的自定义间隔为周期运行;

(2)平台端接收数据后,进入平台端数据处理流程。

本发明的系统及方法解决了大数据平台建设数据标准化采集、数据汇聚、数据清洗、对码转码、数据质量校验等各流程动态配置、流畅运行、数据质量可控、易于实施维护、数据采集高效稳定。

实施例3

本发明在医疗卫生行业大数据平台建设及医疗机构数据采集上的应用,具体应用步骤如下:

(1)项目组向医院申请跟平台接口有关表的数据库权限;

a.根据平台建设数据接入接口标准整理医院系统中需要使用的数据表;

b.制作数据视图;

c.医院分配数据库表的读取权限及数据表操作账号信息;

(2)根据医院提供的数据表操作账号信息,配置数据源,可以访问医院数据库,根据医院提供的数据表资料,经数据映射、数据视图调试;

(3)根据kettle工具配置数据采集流程规则文件,然后导入到数据采集管理系统;

(4)在数据采集管理系统进行对码转码,进行数据清洗,且配置好job定时任务;

(5)配置好定时数据质量校验运行时间,自动进行数据质量校验,医院和实施人员可以通过数据质控查看每天的数据质量报告;

(6)实施人员查看数据采集运行情况和数据校验质量报告,一旦发现有问题,在数据采集管理系统进行处理;

(7)接口调整或升级:若接口出现调整,项目组数据采集工程师远程登陆数据采集管理系统,重新配置多数据源采集和转码规则。

其中,不同实施阶段的职责分工如下:

本发明与现有技术相比:

(1)数据主动采集,医院数据接入方式,采用数据采集的方式,主动拉取数据;医院无需准备,由平台统一提供一体机配置网络、预置软件、映射数据库、完成数据转换等;

(2)准备阶段协调工作少,资源准备简单,周期短;实施阶段主要以平台为主导,医院小范围配合,时间可控;后续维护、升级以平台为主导,医院小范围配合,管理可控;

(3)整个数据操作流程的人员角色只需要一个;数据操作流程定时任务规则,在同一系统工具,同一的网络内设置;

(4)所有的操作在同一个系统工具内,有统一的系统工具日志,便于问题分析定位;

(5)数据接口升级、数据反复拉取等操作,由单一操作人员即可在同一个流程内灵活配置;

(6)定时器配置提供按月、周、天、小时、分钟、秒为单位的任意时间间隔周期运行;

(7)提供数据采集流程提供原始数据缓存、数据质量控制前备份、数据质量控制后备份,便于出现数据问题时,提供数据排查;

(8)提供数据质控前数据写入的错误数据处理;提供数据质量控制,校验数据质量;提供数据指标核对,确保数据采集的数据准确,质量可控,安全可靠。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1