1.本发明涉及数据融合技术领域,具体而言,涉及一种多源异构医疗大 数据融合方法及系统。
背景技术:2.医疗大数据的获取、转化及应用已成为国家重要的基础性战略资源。 但是,当前我国医疗大数据存在整体数量大、质量差,缺乏统一标准,医 疗机构间数据孤岛等问题,例如,缺乏顶层设计、复合型人才匮乏、院内 院间信息互联互通实现难,数据质量低、无法最大化利用等。
3.基于此,本发明提出一种多源异构医疗大数据融合方法及系统来解决 上述问题。
技术实现要素:4.本发明的目的在于提供一种多源异构医疗大数据融合方法及系统,其 能够实现医院内数据的整合、抽取、清洗及标准化,从而达到临床数据的 互联互通。
5.本发明的技术方案为:
6.第一方面,本技术提供一种多源异构医疗大数据融合方法,其包括以 下步骤:
7.s1、采集医院系统数据并建立本地原始存储库;
8.s2、基于本地原始存储库获取患者基本信息数据,并根据患者基本信 息数据建立empi患者主索引;
9.s3、基于本地原始存储库和empi患者主索引建立统一的结构化数据通 用模型,并通过结构化数据通用模型对医院系统数据进行模型转换以得到 结构化数据;
10.s4、将结构化数据进行数据清洗以得到标准数据;
11.s5、对标准数据进行质检以得到规范数据;
12.s6、对规范数据进行数据脱敏处理以得到脱敏数据;
13.s7、对脱敏数据进行数据整合以得到每个患者的融合数据。
14.进一步地,上述患者基本信息数据包括患者的id号、身份证号、护照 号、驾驶证号、住院号、门诊号、姓名、性别、出生年月、家庭地址、手 机号、门诊数据和住院数据。
15.进一步地,步骤s2中上述建立empi患者主索引的步骤包括:
16.s21、验证患者基本信息数据;
17.s22、对验证通过的患者进行统一编号并生成empi患者主索引。
18.进一步地,步骤s4中上述数据清洗包括字段清洗、正则表达式清洗和 复杂逻辑清洗。
19.进一步地,步骤s5中上述质检包括数据唯一性及关联性校验、数据逻 辑校验、数据规范校验和数据核心字段校验,上述数据唯一性及关联性校 验用于验证上述患者基本信息数据的唯一性及关联性,上述数据逻辑校验 用于校验业务发生时间的先后关系,上述数据规范校验用于校验数据的取 值规范,上述数据核心字段校验用于校验上述标准数据
的核心字段避免出 现空白。
20.进一步地,步骤s6中上述数据脱敏处理采用分布式多线程方法对患者 的隐私数据信息进行保护处理,对患者的非隐私数据进行选择性加密处理。
21.进一步地,步骤s7中上述数据整合包括将每个患者历次就诊的临床数 据根据就诊维度进行整合以构造出每个患者的完整临床病例信息数据。
22.第二方面,本技术提供一种多源异构医疗大数据融合系统,包括:
23.采集模块,用于采集医院系统数据并建立本地原始存储库;
24.数据获取模块,用于基于本地原始存储库获取患者基本信息数据,并 根据患者基本信息数据建立empi患者主索引;
25.模型转换模块,用于基于本地原始存储库和empi患者主索引建立统一 的结构化数据通用模型,并通过结构化数据通用模型对医院系统数据进行 模型转换以得到结构化数据;
26.数据清洗模块,用于将结构化数据进行数据清洗以得到标准数据;
27.数据质控模块,用于对标准数据进行质检以得到规范数据;
28.数据脱敏模块,用于对规范数据进行数据脱敏处理以得到脱敏数据;
29.数据整合模块,用于对脱敏数据进行数据整合以得到每个患者的融合 数据。
30.第三方面,本技术提供一种电子设备,其特征在于,包括:
31.存储器,用于存储一个或多个程序;
32.处理器;
33.当上述一个或多个程序被上述处理器执行时,实现如上述第一方面中 任一项的一种多源异构医疗大数据融合方法。
34.第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机 程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的一种 多源异构医疗大数据融合方法。
35.相对于现有技术,本发明的至少具有如下优点或有益效果:
36.(1)本发明一种多源异构医疗大数据融合方法及系统,通过将医院不 同信息系统中的历史和增量数据按照统一的数据通用模型(cdm)进行集成 整合,实现了临床数据的快速检索和集成,为临床科研提供帮助和指导, 实现多模态多粒度的检索与计算服务,为临床表型利用与共享提供服务支 撑,解决了医疗数据整体数量大、质量差、缺乏统一标准和医疗机构间数 据孤岛等问题;
37.(2)本发明通过多源异构数据与标准化临床表型转换映射技术,实现 医院内数据的整合、抽取、清洗及标准化,从而达到临床数据互联互通;
38.(3)本发明通过基于自然语言处理的大规模电子病历结构标准化技 术,实现对大规模中文电子病历预处理及结构标准化;
39.(4)本发明通过通用数据模型实现多源异构数据融合的技术,打破医 院内信息屏障,达到以患者为中心的数据信息互联互通,对实现智慧医疗 及健康管理具有重要意义。
附图说明
40.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的
附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
41.图1为本发明一种多源异构医疗大数据融合方法的步骤图;
42.图2为本发明一种多源异构医疗大数据融合系统的示意性结构框图;
43.图3为本发明的一种电子设备的示意性结构框图。
44.图标:101、存储器;102、处理器;103、通信接口。
具体实施方式
45.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。 通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配 置来布置和设计。
46.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限 制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本 申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本技术保护的范围。
47.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。
48.需要说明的是,在本文中,术语“包括”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设 备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包 括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情 况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、 方法、物品或者设备中还存在另外的相同要素。
49.在本技术的描述中,还需要说明的是,除非另有明确的规定和限定, 术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是 可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是 直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。 对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中 的具体含义。
50.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情 况下,下述的各个实施例及实施例中的各个特征可以相互组合。
51.实施例1
52.请参阅图1,图1所示为本技术实施例1提供的一种多源异构医疗大数 据融合方法的步骤图。
53.第一方面,本技术提供一种多源异构医疗大数据融合方法,其包括以 下步骤:
54.s1、采集医院系统数据并建立本地原始存储库;
55.s2、基于本地原始存储库获取患者基本信息数据,并根据患者基本信 息数据建立empi患者主索引;
56.s3、基于本地原始存储库和empi患者主索引建立统一的结构化数据通 用模型,并
通过结构化数据通用模型对医院系统数据进行模型转换以得到 结构化数据;
57.s4、将结构化数据进行数据清洗以得到标准数据;
58.s5、对标准数据进行质检以得到规范数据;
59.s6、对规范数据进行数据脱敏处理以得到脱敏数据;
60.s7、对脱敏数据进行数据整合以得到每个患者的融合数据。
61.其中,医院系统数据为医院的各个独立的临床系统数据;模型转换后 的数据存储到分布式关系数据库中,采用分布式架构搭建,支持了多种数 据库分库算法,将数据分配到不同的各个数据库中,同时可以对数据库配 置读写分离,实现了数据的高效访问。
62.作为一种优选的实施方式,患者基本信息数据包括患者的id号、身份 证号、护照号、驾驶证号、住院号、门诊号、姓名、性别、出生年月、家 庭地址、手机号、门诊数据和住院数据。
63.作为一种优选的实施方式,步骤s2中建立empi患者主索引的步骤包 括:
64.s21、验证患者基本信息数据;
65.s22、对验证通过的患者进行统一编号并生成empi患者主索引。
66.由此,根据患者基本信息数据可以判断不同患者id或住院号的病人是 否是同一个人。
67.作为一种优选的实施方式,步骤s4中数据清洗包括字段清洗、正则表 达式清洗和复杂逻辑清洗。
68.由此,通过数据清洗可以保证从医院抽取的数据的逻辑完整性。
69.作为一种优选的实施方式,步骤s5中质检包括数据唯一性及关联性校 验、数据逻辑校验、数据规范校验和数据核心字段校验,数据唯一性及关 联性校验用于验证患者基本信息数据的唯一性及关联性,数据逻辑校验用 于校验业务发生时间的先后关系,数据规范校验用于校验数据的取值规范, 数据核心字段校验用于校验标准数据的核心字段避免出现空白。
70.由此,通过质检可以对医院抽取的数据进行严格的质量把控,提高了 数据的质量。
71.作为一种优选的实施方式,步骤s6中数据脱敏处理采用分布式多线程 方法对患者的隐私数据信息进行保护处理,对患者的非隐私数据进行选择 性加密处理。
72.由此,通过数据脱敏处理,可以对患者数据中的姓名、出生日期、出 生地址、身份证、军官证等能唯一识别出患者的信息做脱敏处理,保护患 者的隐私数据,满足hipaa法案中医疗隐私等相关的标准。
73.作为一种优选的实施方式,步骤s7中数据整合包括将每个患者历次就 诊的临床数据根据就诊维度进行整合以构造出每个患者的完整临床病例信 息数据。
74.由此,通过数据整合即可将患者的历次就诊的临床数据,如就诊基本 信息、诊断、医嘱、检验报告、检查报告、手术记录、病案首页、入院记 录、出院记录、病程记录等根据就诊维度组织在一起,整合构造出每个病 人的完整临床病历信息数据,并建立索引,提供高效的访问接口。
75.实施例2
76.请参阅图2,图2所示为本发明的实施例2提供的一种多源异构医疗大 数据融合系
统的示意性结构框图。
77.本技术提供的一种多源异构医疗大数据融合系统,包括:
78.采集模块,用于采集医院系统数据并建立本地原始存储库;
79.数据获取模块,用于基于本地原始存储库获取患者基本信息数据,并 根据患者基本信息数据建立empi患者主索引;
80.模型转换模块,用于基于本地原始存储库和empi患者主索引建立统一 的结构化数据通用模型,并通过结构化数据通用模型对医院系统数据进行 模型转换以得到结构化数据;
81.数据清洗模块,用于将结构化数据进行数据清洗以得到标准数据;
82.数据质控模块,用于对标准数据进行质检以得到规范数据;
83.数据脱敏模块,用于对规范数据进行数据脱敏处理以得到脱敏数据;
84.数据整合模块,用于对脱敏数据进行数据整合以得到每个患者的融合 数据。
85.本发明一种多源异构医疗大数据融合系统通过采集模块来采集医院不 同信息系统中的历史和增量数据并建立原始存储库,同时通过数据获取模 块来获取患者基本信息数据,并根据患者基本信息数据建立empi患者主索 引,从而通过模型转换模块对医院患者数据进行结构化处理形成以患者为 中心的临床数据模型,再通过数据清洗模块将结构化数据进行数据清洗以 得到标准数据,然后通过数据质控模块对标准数据进行质检以得到规范数 据,然后通过数据脱敏模块对规范数据进行数据脱敏处理以得到脱敏数据, 最后通过数据整合模块按照统一的数据通用模型(cdm)进行集成数据集成 整合,实现了临床数据的快速检索和集成,从而达到临床数据的互联互通。
86.实施例3
87.请参阅图3,图3为本技术实施例3提供的一种电子设备的示意性结构 框图。
88.一种电子设备,包括存储器101、处理器102和通信接口103,该存储 器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实 现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总 线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理 器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功 能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或 数据的通信。
89.其中,存储器101可以是但不限于,随机存取存储器(random accessmemory,ram),只读存储器(read only memory,rom),可编程只读存储 器(programmable read-only memory,prom),可擦除只读存储器(erasableprogrammable read-only memory,eprom),电可擦除只读存储器(electricerasable programmable read-only memory,eeprom)等。
90.处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器 102可以是通用处理器,包括中央处理器(central processing unit,cpu)、 网络处理器(network processor,np)等;还可以是数字信号处理器(digitalsignal processing,dsp)、专用集成电路(application specificintegrated circuit,asic)、现场可编程门阵列(field-programmablegate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器 件、分立硬件组件。
91.可以理解,图中所示的结构仅为示意,一种多源异构医疗大数据融合 方法及系统还可包括比图中所示更多或者更少的组件,或者具有与图中所 示不同的配置。图中所示的各组件可以采用硬件、软件或其组合实现。
92.在本技术所提供的实施例中,应该理解到,所揭露的系统或方法,也 可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如, 附图中的流程图和框图显示了根据本技术的多个实施例的系统、方法和计 算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、 程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能 也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上 可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的 功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/ 或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬 件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
93.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
94.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申 请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,random access memory)、磁碟或者光盘 等各种可以存储程序代码的介质。
95.综上所述,本技术实施例提供的一种多源异构医疗大数据融合方法及 系统,通过将医院不同信息系统中的历史和增量数据按照统一的数据通用 模型(cdm)进行集成整合,实现了临床数据的快速检索和集成,为临床科 研提供帮助和指导,实现多模态多粒度的检索与计算服务,为临床表型利 用与共享提供服务支撑,解决了医疗数据整体数量大、质量差、缺乏统一 标准和医疗机构间数据孤岛等问题。
96.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于 本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术 的保护范围之内。
97.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细 节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体 形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括 在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。