本发明涉及健康医疗大数据数据集标准管理领域,具体地说是一种基于拉链机制的数据集标准管理方法及系统。
背景技术:
1、数据集标准建设是健康信息平台建设的基础工作,也是进行信息交换与共享的基本前提。数据集标准建设主要包括数据元、数据集、数据集对应的数据元。
2、数据元标准包括数据元编码、数据元名称、数据元定义、数据元数据类型、数据元数据表示、数据元数据精度等,数据元可以理解为数据的基本单元,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
3、数据集标准包括数据集编码、数据集名称、数据集对应的数据资源目录,数据集是由数据元所组成的集合。
4、数据集对应的数据元,记录数据集包含的数据元的对应关系。
5、数据元属性如下表所示:
6、 数据元编码 数据元名称 数据元定义 数据元数据类型 数据元数据表示 数据元数据精度
7、数据集属性:
8、 数据集编码 数据集名称 数据资源类别1 数据资源类别2 数据资源类别n...
9、数据集对应的数据元:
10、 数据集编码 数据集名称 数据元编码 数据元名称
11、健康信息平台数据集标准在遵循和参考行业等相关标准下,结合地方实际业务应用需求,编制并发布平台的数据集标准,伴随数据业务的发展,会对数据集标准修订,并发布新版本数据集标准。
12、这种数据集标准管理方式存在如下问题:
13、数据集标准发布的标准是某一时刻的数据集、数据元、数据集对应的数据元的快照,是这一时刻的静态记录,由于数据集标准的变更过程没有进行有效的管理和记录,数据集标准编制修订过程中的修订信息容易丢失,并且数据集标准多个发布版本之间的差异难于发现和管理。
14、举一个简单的例子,“例1”:
15、比如,2020-01-01日,数据元“prescribe_no”在数据集标准编制时属性如下表:
16、
17、在数据集标准使用过程中,发现处方号有非数字的场景,因此,在2020-01-15日修订数据元的数据元数据类型、数据元数据表示、数据元数据精度属性如下表:
18、
19、在数据集标准使用过程中,发现处方号有长度超过10个字符的场景,因此,在2020-03-05日修订数据元的数据元数据精度属性如下表:
20、
21、在数据集标准管理的过程中,数据元“prescribe_no”经过两次修订,形成了第三次的标准,前两次的数据元标准信息和标准管理过程信息都未做管理和记录。
22、由于健康信息平台涉及的医疗大数据业务范围广,数据种类多,因此数据集、数据元、数据集对应的数据元数量众多,随着医疗数据业务的变化与发展,数据集标准必须同步变化与改进,经过较长时间和较多频率的数据集标准修定,不同发布版本的数据集标准之间的差异非常难于发现和管理。
23、健康信息平台数据集标准管理中,对于数据集标准的变更过程管理和记录非常重要,是数据集标准精细管理的基础。故如何实现数据集标准全生命周期的变更记录是目前亟待解决的技术问题。
技术实现思路
1、本发明的技术任务是提供一种基于拉链机制的数据集标准管理方法及系统,来解决如何实现数据集标准全生命周期的变更记录的问题。
2、本发明的技术任务是按以下方式实现的,一种基于拉链机制的数据集标准管理方法,该方法是在健康信息平台数据集标准管理中加入数据拉链机制,并基于健康信息平台数据集管理的特点,在开始时间和结束时间拉链属性的基础上,在数据元、数据集及数据集对应的数据元上扩展修订版本及变更记录的属性;
3、其中,修订版本用于记录数据集标准的一次修改,一组相关的数据标准的修改作为一次修订版本;
4、变更记录用于记录针对具体的数据元、数据集及数据集对应的数据元的任一次变更详情。
5、作为优选,通过数据拉链机制记录变更信息时,从数据集标准管理的角度出发,拉链时间属性的颗粒度精确到天级;
6、有效数据的判断规则为:“选定时间>=开始时间”且“选定时间<结束时间”。
7、更优地,通过数据拉链机制数据集标准发布时,只需记录发布版本号v、发布日期t和发布数据集标准的说明即可。
8、更优地,数据集标准变更记录通过数据拉链属性进行识别,具体如下:
9、在数据集标准发布时,记录发布版本号v和发布日期t;
10、记一次数据集标准发布的发布版本号和发布日期分别为vx和tx;
11、记另一次数据集标准发布的发布版本号和发布日期分别为vy和ty;
12、获取vx与vy两个发布版本的数据集差异,通过设置条件“tx<开始时间<=ty”分别筛选数据元、数据集、数据集对应的数据元记录,获得的结果就是vx与vy两个发布版本的数据集差异。
13、一种基于拉链机制的数据集标准管理系统,该系统是在健康信息平台数据集标准管理中加入数据拉链机制,并基于健康信息平台数据集管理的特点,在开始时间和结束时间拉链属性的基础上,在数据元、数据集及数据集对应的数据元上扩展修订版本及变更记录的属性;该系统包括:
14、开始时间模块,用于记录数据元、数据集、数据集对应的数据元的开始时间;
15、结束时间模块,用于记录数据元、数据集、数据集对应的数据元的结束时间;
16、修订版本模块,用于记录数据集标准的一次修改,一组相关的数据标准的修改作为一次修订版本;
17、变更记录模块,用于记录针对具体的数据元、数据集及数据集对应的数据元的任一次变更详情。
18、作为优选,所述变更记录模块的拉链时间属性的颗粒度精确到天级;
19、有效数据的判断规则为:“选定时间>=开始时间”且“选定时间<结束时间”。
20、更优地,所述修订版本模块通过数据拉链机制数据集标准发布时,只需记录发布版本号v、发布日期t和发布数据集标准的说明即可。
21、更优地,所述变更记录模块通过数据拉链属性识别变更记录,具体如下:
22、在数据集标准发布时,记录发布版本号v和发布日期t;
23、记一次数据集标准发布的发布版本号和发布日期分别为vx和tx;
24、记另一次数据集标准发布的发布版本号和发布日期分别为vy和ty;
25、获取vx与vy两个发布版本的数据集差异,通过设置条件“tx<开始时间<=ty”分别筛选数据元、数据集、数据集对应的数据元记录,获得的结果就是vx与vy两个发布版本的数据集差异。
26、其中,数据拉链机制是一种记录数据历史的机制,记录一个数据从开始一直到当前状态的所有变化的信息,拉链机制既能满足反应数据的历史状态,又可以最大程度的节省存储。
27、数据拉链机制通过增加属性“开始时间”、“结束时间”,通过主键(pk)与历史数据进行对比,判断当前数据与历史数据是否发生变化,如果发生变化或者新增则进行相应的开链、闭链操作,拉链数据在一个时间维度中同一个记录只保存一条有效信息。
28、一种电子设备,包括:存储器和至少一个处理器;
29、其中,所述存储器上存储有计算机程序;
30、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于拉链机制的数据集标准管理方法。
31、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于拉链机制的数据集标准管理方法。
32、本发明的基于拉链机制的数据集标准管理方法及系统具有以下优点:
33、(一)本发明在健康信息平台数据集标准管理中加入拉链机制,实现了数据集标准全生命周期的变更记录,为健康信息平台数据集标准管理实现全生命周期管理、可追溯、版本管理、数据集发布的管理功能提供了必须的数据基础;
34、(二)本发明引入数据拉链机制,解决了数据集标准全生命周期的变更记录要求,基于健康医疗数据集管理的特点,在“开始时间”、“结束时间”拉链属性的基础上,扩展了“修订版本”、“变更记录”属性,实现了数据集标准全生命周期的变更记录。