用于使受保护健康信息匿名化和聚集的系统的制作方法

文档序号:8361768阅读:519来源:国知局
用于使受保护健康信息匿名化和聚集的系统的制作方法
【技术领域】
[0001] 本公开内容涉及聚集患者医疗记录,并且特别地涉及以保护患者的身份的方式聚 集和组织医疗记录。
【背景技术】
[0002] 患者医疗记录正愈发变得数字化并被存储在计算机数据库中。数据隐私和安全问 题以及遵守可适用法律和规定因而是最重要的。例如,在美国,HIPAA(健康保险携带和责 任法案)要求患者医疗记录被保持机密,并且在没有授权的情况下不被发布给第三方。但 是,不同实体为了研宄、临床研宄和诊断的目的而可以访问某些医疗记录是有利的。然而, 包括HIPAA在内的许多规定不允许不相关或者独立的实体聚集医疗记录,因为这种聚集可 允许实体标识与医疗记录相关联的个人,从而导致违背隐私。
[0003] 另外,即使当医疗记录被正确获得时,这样的记录也可能是不完整的、错误的和/ 或模糊不清的。因此,不论隐私和合规问题如何,聚集和关联与特定患者相对应的医疗记录 都是困难的。
[0004] 因此,存在通过在不透露患者身份的情况下聚集医疗记录并将医疗记录标识为属 于同一患者以允许以受保护(即,匿名)方式分析患者医疗记录的需要。这在研宄、临床研 宄中是有用的,或者在标识医疗状况时、特别是在从不相关数据库或源系统获得这样的患 者医疗记录时是有用的。

【发明内容】

[0005] 这里描述了一种用于使来自多个数据源的受保护健康信息(PHI)匿名化和聚集 的系统,该系统包括各自被可操作地耦合到与相应的数据源的多个数据散列化装置,每个 散列化装置被配置为从相应的数据源接收一个或多个患者医疗记录,其中每个患者医疗记 录包含机密受保护健康信息(PHI)的至少一个数据元素以及由相应的数据源指派的主记 录编号(MRN)。每个散列化装置被配置为向患者医疗记录中的机密PHI的每个数据元素附 加混淆值,生成机密PHI的每个加混淆数据元素的散列值,以及用所生成的散列值来替换 机密PHI的数据元素以生成匿名化的患者医疗记录。
[0006] 还包括耦合到数据储存库的主患者索引服务器,其被配置为聚集从多个数据散列 化装置接收到的多个匿名化患者医疗记录。被可操作地耦合到主患者索引服务器和数据储 存库的向量和集群匹配引擎被配置为确定从相应的散列化装置接收到的匿名化患者医疗 记录是否与对应于在数据储存库中存储的至少第二匿名化患者医疗记录的唯一患者标识 符相匹配。该匹配通过以下步骤被确定:通过将与接收到的匿名化患者医疗记录中的机密 PHI的数据元素相对应的散列值与第二匿名化患者医疗记录中的对应散列值相比较来生成 比较向量,通过基于预定匹配情况指派权重来生成置信度向量,使比较向量与置信度向量 叉乘以获得匹配置信度水平,将匹配置信度水平与预定阈值相比较以确定接收到的匿名化 患者医疗记录是否对应于唯一患者标识符,以及如果置信度水平大于预定阈值则将接收到 的匿名化患者医疗记录映射到唯一患者标识符。
[0007] 使用用于使受保护健康信息匿名化和聚集的系统,可以利用关于每个患者的更完 整信息跨广阔人口回顾地完成研宄,同时仍保持个人的机密性并遵守HIPAA规定。
[0008] 在检视以下附图和【具体实施方式】之后,这些系统、方法、特征的其他实施例及其对 应优点对本领域技术人员将是显而易见的或者将变得显而易见。旨在使所有此类附加系 统、方法、特征和优点包括在本说明书中、包括在本发明的范围内,并且受以下权利要求保 护。
【附图说明】
[0009] 所描述的用于使受保护健康信息(PHI)匿名化和聚集的系统参考以下附图和描 述可被更好地理解。附图中的组件不一定是成比例的,而是将重点放在例示出本发明的原 理。另外,在附图中,相似的标号贯穿不同视图指明对应部件。
[0010] 图1是根据一个具体实施例的用于使受保护健康信息匿名化和聚集的系统可以 在其中操作的环境的框图。
[0011] 图2是根据一个具体实施例的图1中的环境的更详细框图。
[0012] 图3A是根据一个具体实施例的示出了用于生成比较向量和置信度向量的机构的 示意图。
[0013] 图3B是示出了附加细节的图3A的延续。
[0014] 图4是示出了基于图3的比较向量和置信度向量使新电子医疗记录群集的示意 图。
[0015]图5是描绘了关于目标集群接受或拒绝新记录的流程图。
[0016] 图6是描绘了被配置为向目标集群加入新记录的凝聚爬行器(cohesion crawler)过程的示图。
[0017]图7是描绘了被配置为将单个集群划分为两个集群的凝聚爬行器过程的示图。
[0018] 图8示出了处理对多个患者记录的实证结果。
[0019] 图9是根据一个实施例的可体现用于使受保护健康信息匿名化和聚集的系统的 代表性计算机系统。
【具体实施方式】
[0020] 图1是用于使受保护健康信息110匿名化和聚集的系统可以在其中操作的架构环 境的高层硬件框图。架构环境100可包括多个源系统120,每个源系统120可包括多个医 疗记录系统130。架构环境100还可包括被可操作地耦合到一个或多个源系统120的企业 数据仓库系统140。用于使受保护健康信息(PHI) 110匿名化和聚集的系统可在功能上包 括企业数据仓库系统140,并且还可包括嵌入在源系统120中的匿名器散列化装置150。然 而,总体架构环境100内的每个组件的放置依赖于具体实施例可以发生变化以包括附加组 件或者更少组件。注意,短语"受保护健康信息"与短语"患者健康信息"可以被可交换地 使用,并且在范围上可以比能够使用的或者按照HIPAA明确定义的更广。
[0021] 图2以更多细节示出了架构环境110。架构环境110在一些实施例中可包括多个 源系统120,多个源系统120经常是不同且不相关的源系统。这样的多个源系统120可以与 各种提供者(诸如医院、医疗办公室、药房、病理提供者等)相关联。对于特定患者,情况经 常是各种提供者不与其他此类提供者共享受保护健康信息,因此受保护健康信息或记录可 被保持在分离、不相关和不同的计算机系统上。
[0022] 如在图2中所示,每个源系统120优选地包括嵌入式散列化装置150。源系统120 可包括被耦合到电子医疗记录数据库210或数据存储装置的电子医疗记录系统130,电子 医疗记录数据库210和数据存储中的任一个还可以是位于远处的组件。散列化装置或组件 150接收来自电子医疗记录数据库210的输入并且接收来自第三方散列密钥服务22的散列 混淆值和日期偏移值。散列化装置150向散列的主记录号码数据库226提供输出。如在本 领域中所理解的,散列是已被应用于输入数据值的密码算法(诸如SHA-1)的固定长度所得 输出。这一功能的实际效果是使输入数据值匿名化。
[0023] 散列化装置150可以作为电子医疗记录(EMR)的一部分以散列的数据元素228的 形式向企业数据仓库系统140提供输出。第三方散列密钥服务220还包括证书服务232和 数据偏移服务234。源系统120还可包括散列的系统患者ID到患者ID反向查找表240,其 可被用来基于来自企业数据仓库系统140的请求来标识实际患者。散列的系统患者ID到 患者ID反向查找表240可包括实际患者的身份(未加密的患者标识符)和MRN的对应的 散列值,其被插入到先前被发送给企业数据仓库系统140的记录中,如将在下面讨论的。散 列的系统患者ID到患者ID反向查找表240可驻留于EMR数据库210中或被可操作地耦合 到EMR数据库210,或者可被包括在散列的MRN数据库226中或被可操作地耦合到散列的 MRN数据库226。
[0024] 企业数据仓库系统140可包括ETL(提取、转换和加载)管理器250,其接收来自 匿名化散列化装置150的散列的患者标识数据元素。ETL管理器250可被可操作地耦合到 AMPI服务器(匿名的主患者索引)254。AMPI服务器254被配置为将加密并匿名的患者记 录存储在AMPI数据组件260或存储器存储装置中,并且其主要功能是生成单个标识符,该 单个标识符本质上聚集了所有有资格的匿名的患者记录以便标识所有此类记录或者将所 有此类记录映射到单个匿名患者。注意,从散列化装置150接收到的数据都不包含按照可 读或者可辨别形式的任何机密受保护健康信息。所有此类数据已被转换为散列值,散列值 的内容无法被解码以得出原始值。
[0025]ETL管理器250可被可操作地耦合到企业临床数据库266,企业临床数据库266转 而可接收来自AMPI凝聚爬行器270的输入,并且可向数据仓库管理器276提供输出。AMPI 数据存储装置260可被可操作地耦合到AMPI服务器254、AMPI凝聚爬行器270和数据仓库 管理器276。数据仓库管理器276转而可被可操作地耦合到数据集市280,数据集市280可 向数据仓库报告引擎284提供输出。
[0026] 注意,对于任何特定源系统120,该源系统将向特定患者的所有记录指派唯一主记 录编号(MRN)。因此,特定源系统120可向散列化装置150供应特定患者的许多记录,这些 记录都将具有相同的MRN。每个记录优选地包括标识出产生该记录的源系统的源标识符。 (至少来自一个源系统120的)这样的共同MRN允许记录被容易地分组在一起以反映与单 个个人的关联。
[0027] 然而,当涉及到多个源系统(例如第一源系统和第二源系统)时,因为源系统可能 是分离和独立的,因此第二源系统可向其记录也存在于第一源系统中的同一患者指派全新 MRN,这是因为两个源系统对在另一源系统中包含的信息都不知情。备选地,第二源系统可 能碰巧向不同的个人指派相同MRN,因此两个不同的个人可能因为第一源系统与第二源系 统完全分离和独立而碰巧具有相同MRN。还注意,尽管AMPI数据可以将与单个个人相关联 的所有记录分组,但是那些记录可具有多个不同MRN,这是因为此类MRN由分离并且独立的 源系统120指派。因此,对于每个患者可能存在附加列表或者链表,该列表或链表列出可能 与该患者相关联的各种MRN。本质上,用于特定患者的MRN可被看作"别名"并且这样的别 名可能不是对该患者唯一的。下面参考图3讨论对MRN中的歧义的处理。
[0028] 对于图2,企业临床数据库266存储从每个散列化装置直接接收到的匿名的电子 患者记录,而AMPI数据
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1