用于使受保护健康信息匿名化和聚集的系统的制作方法_2

文档序号:8361768阅读:来源:国知局
存储装置260存储匿名的电子患者记录,并且此类记录与特定原系 统可能已经指派了MRN的具体源系统相关联。
[0029] 但是如上面提到的,可能存在与MRN相关联的某一歧义,因此,在所有记录已被 AMPI凝聚爬行器270以及向量和患者集群匹配引擎302处理之后,每个记录与和特定患者 相关联的唯一AMPI统一编号相关联。注意,因为每个患者记录都包括源标识符以及MRN,因 此具有由一个特定标识的源系统120生成的同一MRN的所有记录都对应于同一患者。相反 地,具有由同一源系统120生成的不同MRN的两个患者记录对应于两个不同患者。然而,具 有由不同源系统120生成的同一MRN的两个患者记录是模糊不清的并且在标识患者时不是 独立确定性的。还可能是源标识符并不标识特定源系统120,其中多个源系统120被同一医 疗提供者或组织聚集和操作,并且同一源标识符可被用来代表医疗提供者,只要MRN在由 该医疗提供者或组织操作的源系统120的全域(universe)内被唯一指派。
[0030] AMPI数据组件260和企业临床数据组件266的组合可提供所有相关数据。数据仓 库管理器充当接口以使得可使用或访问系统110的实体可以获得适当记录。数据集市280 可以代表感兴趣的具体数据,其可以是电子医疗记录的缩减子集,并且可以省略可使用或 访问系统110的实体所不感兴趣的数据。
[0031] 注意,只有与每个患者健康记录的机密受保护健康信息相对应的数据元素一般被 散列化装置150匿名化。如果数据元素在性质上不是机密的也不能以任何标识患者身份或 者帮助查明患者身份的方式使用,则医疗记录中的此类数据元素可不被匿名化。包含机密 受保护健康信息的数据元素可包括名字、街道地址、邮政编码、出生日期、社会保障号码等。 服务的日期通常被认为是在性质上是敏感的(例如,根据HIPAA),但是必须以仍允许进行 数学比较的方式被匿名化,这是因为此类信息是允许对聚集数据进行有用分析所必需的。 相反地,根本无需被匿名化的数据可以包括诊断信息、测试结果等。
[0032] 作为散列化装置150的操作的一般概览,共同的混淆值被用来创建与在包含机密 受保护健康信息的医疗记录中的每个数据元素相对应的散列。如果同一混淆值和同一散列 算法被用在同一数据(诸如机密专利数据项)上,那么即使数据是从不同的记录或不同的 源系统采集的,最终的散列值也将是相同的。以这种方式,对应于同一机密受保护健康信息 的数据记录可以被聚集,这是因为它们应当具有共同的散列值。因此,在与机密受保护健康 信息相对应的医疗记录中的每个数据元素被加混淆并散列化以便使机密受保护健康信息 匿名。共同的混淆值是以安全方式(例如,通过安全通信信道交换)从第三方散列密钥服务 220获得的,以便将对企业数据仓库系统140未知的数据元素引入散列中。以这种方式,即 使企业数据仓库系统140知道哪个散列化算法被用来创建散列,企业数据仓库系统140 (或 者使用企业数据仓库系统140的实体)也无法对散列的数据元素进行解码或"反向工程"。
[0033] 给定足够数目的记录,多个不同匿名的数据元素之间的对应关系或者"一致"允许 达到如下置信度水平,该置信度水平指示不同医疗数据记录的确对应于同一患者,尽管该 患者的身份和/或机密专利信息是未知的。另外,此类机密受保护健康信息将是匿名的,这 是因为散列值无法被解码或者"反向工程"以提供机密受保护健康信息。因此,在患者记录 已被匿名化之后,具有可公开获得的患者数据的特定患者记录可被提供给诸如聚集实体之 类的实体(即企业数据仓库系统140 (或者使用企业数据仓库系统140的实体))以供在研 宄、诊断等中使用,这是因为与该记录中的机密受保护医疗信息相对应的每个数据元素已 被匿名化并且仅由散列值代表。
[0034] 散列化装置150可以是驻留在数据源系统120或者患者数据记录的所有者的防火 墙或者其他安全措施内的硬件组件或者软件组件。散列化装置150表现为黑箱组件,该黑 箱组件接收来自源系统120的数据记录并且使该记录中的每个机密受保护医疗信息字段 散列化,并且管理用于服务字段的日期的偏移以便掩饰用于该记录的服务的真实日期。记 录中的服务字段的日期优选是可由数据聚集器或者企业数据仓库系统140计算和使用的, 并且因而优选地不被完全匿名化,这是因为在对匿名的患者医疗记录进行分析时需要此类 日期。因此,这种服务日期被用偏移值"掩饰"而非被完全匿名化,从而使得能够评价事件 相对于彼此的时效性而不公开事件的绝对日期。
[0035] 散列化装置150还应用从第三方散列密钥服务220接收到的共同混淆值以创建用 于机密数据元素的散列的数据。如上面提到的,因为散列是使用混淆值产生的,因此运行 "暴力"解码过程(例如,使用名字字典来解码每个名字以获得散列密钥)将不会破解散列 码,这是因为散列值不是机密数据的"直接散列"。确切的说,散列值是机密数据的散列加上 随机值(例如,随机整数或者字符串)的结果。在散列化装置150已经使医疗记录中的每 个机密数据字段匿名化之后,包括匿名的数据和非匿名的数据在内的记录被加密并传输给 企业数据仓库系统140的ETL管理器150。
[0036] 如上面讨论的,散列化装置150对每个患者记录的每个机密数据字段执行散 列。另外,每个机密数据字段被散列化两次。优选地,第一散列是256位散列函数,诸如 SHA-256 (安全散列算法)散列算法。第一散列然后被散列化第二次以创建最终散列值,并 且第一散列值与机密数据字段一起被销毁。第二散列值然后替换记录中的机密数据。优选 地,第二散列算法可以是128位(或者更短的)散列函数,并且优选地是与第一散列算法相 比不同类型的散列算法,诸如SHA-128散列算法。任何合适的散列函数都可被使用。注意, 因为第二散列基于位宽是比第一散列更短的散列,因此第二散列与第一散列相比丢失了数 据。因为第一散列被销毁并且第二散列明显缺少在第一散列中包含的信息,因此散列无法 被解码或反向来获得对第一散列的原始输入。更小的第二散列的优点还在于其花费更少的 存储器来存储,从而增加了系统110的效率。
[0037]因为最终的散列值是缩减散列(意味着散列的散列)并且第一散列与源机密数据 一起被销毁,因此攻击者无法将第二散列值关联回原始的机密数据字段。对于HIPAA,这一 过程完全满足对去标识(de-identification)的可适用安全港规则,这是因为最终的散列 不是源自机密数据字段而是源自不可逆的散列。
[0038] 散列化装置150最终将机密数据字段的第二散列值和最终散列值作为数据有效 载荷(其包括患者记录的非机密数据)的部分传输给企业数据仓库系统140。注意,因为机 密受保护健康信息已被散列化和加混淆,并且被第二次散列化,因此机密受保护健康信息 的匿名化是不可逆的。这意味着驻留在源系统120上的数据记录的原始所有者和企业数据 仓库系统140的任何组件将都无法标识机密受保护健康信息中的任一个,如果由此得到的 匿名的数据记录经受下面关于源系统120描述的被称作"去识别"的一个有意过程的话。
[0039] 第三方散列密钥服务220优选地与源系统120或企业数据仓库系统140的任何组 件分离且独立以便保持安全环境并且防止有意或无意的合作。因为架构环境100的其他组 件无法访问第三方散列密钥服务220,因此散列密钥不可能可被解码和在散列化过程期间 透露机密受保护健康信息。第三方散列密钥服务220为数据加密提供共同混淆值和证书服 务以允许散列化装置150创建散列化的数据元素。
[0040] 在一个实施例中,第三方散列密钥服务220从射频种子值得到混淆值以生成真随 机整数值。备选地,可以从射频种子源得到字符串值。然而,共同混淆值不一定限于整数值、 任何特定长度的整数值或者字符串。共同混淆值也可以是随机化字符串、有理数,或者从任 何随机源得到的任何合适值。任何用于生成共同混淆值的合适技术都可被使用,例如诸如 基于UNIX的OWASP函数等。注意,应当对每一个数据源中的对应加密的字段使用同一"混 淆"值。
[0041] 注意,一些已知系统可以包括可信的第三方来处理各种数据记录和处理安全措 施。然而,系统110的实施例中的第三方散列密钥服务220不是"可信"的第三方服务。第 三方散列密钥服务220是向两个"不可信"方(即源系统120和企业数据仓库系统140,其 中两个组件都不"信任"另一组件)供应共同混淆值和加密支持的独立组件。
[0042] 如在上面提到的,第三方散列密钥服务220的日期偏移服务组件234为每个患者 记录的服务字段的日期提供偏移或者"掩饰"。偏移值不被保存回患者记录中,而是散列 化装置150保存偏移值,偏移值可以对应于散列化装置150被嵌入在其中的源系统120中 的每个主记录编号。某些日期并且特别是是与患者的医疗记录相关联的服务日期在满足 HIPAA安全港要求的完全去标识患者记录中是禁止的。为了满足这些要求,有必要使这些 日期以使得日期偏移对数据接收者未知的方式偏移。为了跨可以从企业数据仓库系统140 接收可用数据记录的系统100的所有数据聚集者用户具有一致性,有必要具有跨所有数据 源系统120的偏移日期的一致性。这允许进行在数据分析中有意义的计算而不使用实际日 期。下面描述的以下日期偏移方法与这些要求一致。
[0043] 在这一过程中,日期被转换为距给定基准日期的偏移,并且同一基准日期被用于 所有数据源系统120。因此,每个日期仅仅是偏移,例如,为-7的值,其对应于在基准日期七 天之前的日期。意味着偏移值的所有日期是相对于彼此的,这允许对数据进行分析,诸如人 口估计等。在提供此类日期变换的第一步骤中,日期偏移服务234可以生成在0和-365之 间的随机数。这意味着日期范围将被限于一年时间跨度,然而,其他值也可被使用以增加或 减少这一时间跨度。在其他实施例中,用于四个季节或者季度之一的代码可被包括以提供 附加粒度。这一整数值然后被用源系统120提供给散列化装置150的公共密钥加密。散列 化装置150可以接收加密的整数并且使这一加密的整数与和这一患者相关联的主记录编 号(MRN)相关联。通常,当在源系统120中安装散列化装置的时候定义并保存这一加密的 整数。
[0044] 图3A和图3B是示出了用于基于置信度向量和比较向量来生成匹配置信度值的机 构的示意表示。匹配置信度值实质上允许将一个患者的所有医疗字段映射到全部与该特定 患者相关
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1