基于可信执行环境的医疗隐私数据安全分析方法及装置与流程

文档序号:32491369发布日期:2022-12-10 02:56阅读:40来源:国知局
基于可信执行环境的医疗隐私数据安全分析方法及装置与流程

1.本技术涉及数据安全技术领域,尤其涉及一种基于可信执行环境的医疗隐私数据安全分析方法及装置。


背景技术:

2.在隐私数据计算领域,隐私数据一般都会包含用户的敏感信息,例如用户的脱氧核糖核酸序列,这些隐私数据通常都被记录在一些可信的机构中以防止发生泄露,其它用户在许可的前提下可以查询到这些隐私数据,但是在查询的过程中还是存在有数据泄露的风险。
3.因此,如何防止这些隐私数据在被查询过程中发生泄露,是当前亟待解决的问题。


技术实现要素:

4.本技术提供一种基于可信执行环境的医疗隐私数据安全分析方法及装置,用于解决现有隐私数据在被查询时容易发生泄露的问题。
5.第一方面,本技术实施例提供一种基于可信执行环境的医疗隐私数据安全分析方法,包括:
6.在可信执行环境中,确定数据提供方提供的样本序列中的目标位点处所包含的信息,所述数据提供方提供有至少一个样本序列,每个样本序列包括有至少一个目标位点;
7.在可信执行环境中,根据所述样本序列中每个目标位点处所包含的信息,生成所述样本序列的编码数据集,所述编码数据集中包括有所述样本序列中每个目标位点对应的编码结果;
8.获取数据查询方提供至可信执行环境中的查询数据集,所述查询数据集包括所述数据查询方提供的查询序列中每个目标位点对应的编码结果;
9.在可信执行环境中,将所述编码数据集和所述查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果,所述对比结果用于表征所述查询数据集与所述编码数据集的相似概率值;
10.根据所述对比结果,分析确定所述样本序列与所述查询序列的来源是否存在关联。
11.在第一方面的一种可能设计中,所述根据所述样本序列中每个目标位点处所包含的信息,生成所述样本序列的编码数据集,包括:
12.在所述样本序列的每个目标位点处所包含的信息中确定出第一信息和第二信息,所述第一信息来源于第一对象或通过所述第一对象随机突变得到,所述第二信息来源于第二对象或通过所述第二对象随机突变得到;
13.根据所述样本序列中的每个目标位点的第一信息和所述第二信息,确定所述样本序列中的每个目标位点对应的编码结果,所述编码结果为第一编码或第二编码,所述第一编码用于表征所述第一信息来源于所述第一对象且所述第二信息来源于所述第二对象,所
述第二编码用于表征所述第一信息通过所述第一对象随机突变得到和/或所述第二信息通过所述第二对象随机突变得到;
14.根据所述样本序列中每个目标位点对应的编码结果,生成所述样本序列的编码数据集。
15.在第一方面的另一种可能设计中,所述在可信执行环境中,将所述编码数据集和所述查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果,包括:
16.将每个样本序列的编码数据集中所有目标位点对应的编码结果求和,得到每个样本序列的编码数据集的编码总和;
17.将所述查询数据集中每个目标位点对应的编码结果求和,得到所述查询序列的查询数据集的编码总和;
18.在所有样本序列中查询得到编码数据集的编码总和与所述查询序列的查询数据集的编码总和的差值小于预设阈值的样本序列,作为目标样本序列;
19.在可信执行环境中,利用多方安全计算技术,将所述目标样本序列的编码数据集和所述查询数据集中相同目标位点对应的编码结果进行对比,得到每个相同目标位点对应的对比结果。
20.在第一方面的再一种可能设计中,所述将所述目标样本序列的编码数据集和所述查询数据集中相同目标位点对应的编码结果进行对比,计算得到所述对比结果,包括:
21.将所述目标样本序列的编码数据集和所述查询数据集中相同目标位点对应的编码结果对比;
22.若所述目标样本序列的编码数据集和所述查询数据集中相同目标位点对应的编码结果相同,则确定所述相同目标位点对应的为第一结果;
23.若所述目标样本序列的编码数据集和所述查询数据集中相同目标位点对应的编码结果不相同,则确定所述相同目标位点对应的为第二结果,所述第一结果与所述第二结果的取值不相同;
24.根据每个相同目标位点对应的第一结果或第二结果,计算得到所述对比结果。
25.在第一方面的又一种可能设计中,所述根据每个相同目标位点对应的第一结果或第二结果,计算得到所述对比结果,包括:
26.确定对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量;
27.根据对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量,计算对应为第一结果的相同目标位点或对应为第二结果的相同目标位点的数量占比;
28.将所述数量占比作为所述对比结果。
29.在第一方面的又一种可能设计中,所述根据所述对比结果,分析确定所述样本序列与所述查询序列的来源是否存在关联,包括:
30.将所述数量占比分别与预设第一阈值和预设第二阈值进行对比,所述预设第一阈值小于所述预设第二阈值;
31.若所述数量占比小于或等于所述预设第一阈值,则确定所述样本序列与所述查询序列来源于互不关联的两个不同对象;
32.若所述数量占比大于所述预设第一阈值且小于所述预设第二阈值,则确定所述样本序列与所述查询序列来源于存在关联的两个不同对象;
33.若所述数量占比等于或大于所述预设第二阈值,则确定所述样本序列和所述查询序列来源于同一个对象。
34.在第一方面的又一种可能设计中,所述方法还包括:
35.若所述样本序列与所述查询序列的来源存在关联,则从所述数据提供方获取所述样本序列的样本标识信息并输出。
36.在第一方面的又一种可能设计中,所述样本序列和所述查询序列均为脱氧核糖核酸序列,所述方法包括:
37.获取所述脱氧核糖核酸序列中单核酸多态性所处的位点,作为所述目标位点。
38.第二方面,本技术实施例提供一种基于可信执行环境的医疗隐私数据安全分析装置,包括:
39.信息确定模块,用于在可信执行环境中,确定数据提供方提供的样本序列中的目标位点处所包含的信息,所述数据提供方提供有至少一个样本序列,每个样本序列包括有至少一个目标位点;
40.数据生成模块,用于在可信执行环境中,根据所述样本序列中每个目标位点处所包含的信息,生成所述样本序列的编码数据集,所述编码数据集中包括有所述样本序列中每个目标位点对应的编码结果;
41.数据获取模块,用于获取数据查询方提供至可信执行环境中的查询数据集,所述查询数据集包括所述数据查询方提供的查询序列中每个目标位点对应的编码结果;
42.数据对比模块,用于在可信执行环境中,将所述编码数据集和所述查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果,所述对比结果用于表征所述查询数据集与所述编码数据集的相似概率值;
43.分析确定模块,用于根据所述对比结果,分析确定所述样本序列与所述查询序列的来源是否存在关联。
44.第三方面,本技术实施例提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。
45.本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析方法及装置,通过将数据提供方的提供的数据进行编码,得到第一编码结果,同时将数据查询方提供的数据也进行编码,得到第二编码结果,然后通过对比两个编码结果,确定出数据提供方与数据查询方各自提供的数据是否一致,避免了数据查询方在对比查询的过程中发生的数据泄露,提高了数据安全性。
附图说明
46.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理;
47.图1为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析方法的场景示意图;
48.图2为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析方法的流程示意图;
49.图3为本技术实施例提供的编码数据集的示意图;
50.图4为本技术实施例提供的查询数据集的示意图;
51.图5为本技术实施例提供的编码数据集与查询数据集中相同目标位点的对比示意图;
52.图6为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析装置的结构示意图;
53.图7为本技术实施例提供的电子设备的结构示意图。
54.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
55.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
56.首先对本技术所涉及的名词进行解释:
57.脱氧核糖核酸(deoxyribonucleic acid,dna):是生物细胞内含有的四种生物大分子之一核酸的一种。dna携带有合成rna和蛋白质所必需的遗传信息,是生物体发育和正常运作必不可少的生物大分子。
58.单核苷酸多态性(single nucleotide polymorphism,snp):是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。snp在人类基因组中广泛存在,平均每300个碱基对中就有1个。
59.多方安全计算技术(secure multi-party computation):是一种隐私安全计算技术,在不知道对方数据信息的情况下,能够比较双方数据的情况,从而获取想要的信息。因此可以将多方安全技术应用于样本的快速定位、匹配与识别。
60.同态加密:是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。
61.基因型:是指某一生物个体全部基因组合的总称。它反映生物体的遗传构成,即从双亲获得的全部基因的总和。
62.纯合突变:是指一对等位基因都存在突变,比如等位基因aa突变成了aa就是纯合突变。
63.杂合突变:是指一对等位基因中,只有其中一个基因出现突变。比如等位基因aa突变成了aa就是杂合突变。
64.目前随着二代测序技术在临床科研领域的普及与研究,越来越多的二代测序技术
应用于临床,主要以dna测序为主,dna的测序主要为全基因组、外显子以及目标序列捕获测序(又称panel测序)。随着测序数据的增加以及对测序数据的研究,发现单核苷酸多态性(简称snp)广泛存在于人类以及其他生物的基因组中。snp具有代表性强,即多个snp位点能够识别特异的样本,同时具有稳定性,即snp从样本出生至死亡一直稳定存在于样本基因组中,极少发生变异。因此snp越来越多用于临床以及法医等多种环境下的样本识别。使用snp能够很好的识别样本,大样本snp信息存储在具有公信力的机构,由这些机构负责提供保密,并通过账户提供第三方临床等查询。图1为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析方法的场景示意图,如图1所示,数据提供方所提供的数据位于服务器12中。服务器12可以是服务器集群,其包括有多个服务器,不同的服务器可以执行不同的功能,例如服务器12中存在一个服务器执行数据安全分析,存在另一个服务器执行编码操作,即对数据提供方提供的数据进行编码。服务器12可以作为一个可信执行环境,数据在可信执行环境中进行的操作均可以视为安全的。数据查询方需要通过本地的计算机设备11(例如个人笔记本、台式电脑等)对其所需要查询的数据进行编码操作,然后上传到服务器11进行分析对比,得到数据查询结果。目前在相关的数据查询过程中具有较高的数据泄漏风险,例如通过对snp信息的更改遍历即可获得所有服务器11的数据库中信息。
65.针对上述问题,本技术实施例提供了一种基于可信执行环境的医疗隐私数据安全分析方法及装置,为了防止隐私数据发生泄露,需要对数据对比过程进行优化。具体的,首先通过将数据提供方的提供的数据进行编码,得到第一编码结果,同时将数据查询方提供的数据进行编码,得到第二编码结果,通过对比两个编码结果,确定出数据提供方与数据查询方各自提供的数据是否一致,避免了数据查询方在对比查询的过程中发生的数据泄露,同时通过对比编码结果,也能够提高数据对比效率,快速的确定出数据提供方与数据查询方各自提供的数据是否一致。
66.需要说明的是,本技术中所描述的医疗隐私数据还可以是动物或植物的dna数据等,而并非特指人体的dna数据。
67.下面,通过具体实施例对本技术的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
68.图2为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析方法的流程示意图,该方法以服务器作为可信执行环境,并在服务器上执行,以服务器作为执行主体为例。如图2所示,该方法具体可以包括如下步骤:
69.步骤s201,在可信执行环境中,确定数据提供方提供的样本序列中的目标位点处所包含的信息。其中,数据提供方提供有至少一个样本序列,每个样本序列包括有至少一个目标位点。
70.在本实施例中,数据提供方可以是具有公信力的机构,其提供的可以是隐私数据,例如隐私数据中包含的样本序列可以是人体的dna序列。隐私数据可以在可信执行环境中执行隐私计算、同态加密以保证数据安全。样本序列中的目标位点可以事先由数据提供方确定,其可以理解为样本序列中存在有一个或多个标记位置,这些标记位置即目标位点。在每一个标记位置处均存储有对应的信息。示例性的,以dna序列为例,snp位点可以作为目标位点,dna序列中包括有多个snp。示例性的,图3为本技术实施例提供的编码数据集的示意
图。其中,样本s1中包括有多个snp,每个snp具有对应的基因型(即目标位点处所包含的信息)。
71.示例性的,样本序列和后文提到的查询序列均可以为脱氧核糖核酸序列(即dna),可以获取脱氧核糖核酸序列中单核酸多态性(即snp)所处的位点,作为目标位点。通过将dna中的snp位点作为目标位点,可以在医疗领域快速准确的实现样本的识别,确定查询序列与样本序列之间是否存在关联关系。
72.步骤s202,在可信执行环境中,根据样本序列中每个目标位点处所包含的信息,生成样本序列的编码数据集。编码数据集中包括有样本序列中每个目标位点对应的编码结果。
73.在本实施例中,基于每个目标位点处所包含的信息,可以编码得到每个目标位点对应的编码结果,然后整合整个样本序列中所有目标位点对应的编码结果,构建得到该样本序列的编码数据集。
74.其中,在基于每个目标位点处所包含的信息,编码得到每个目标位点对应的编码结果时,可以在可信执行环境中进行隐私安全计算,以保证编码过程的数据安全性,防止未编码前每个目标位点处所包含的信息发生泄露。同时,在隐私安全计算的过程中还可以使用同态加密来进一步提高数据安全性。
75.示例性的,参考上图3可以作为样本s1的编码数据集,其中包括有该样本s1中“rs581313”、“rs3428572”、“rs123423790”、“rs285728274”、“rs76682845”、“rs23412342”这六个位点所包含的信息以及对应的编码结果(即重编码)。
76.步骤s203,获取数据查询方提供至可信执行环境中的查询数据集。查询数据集包括数据查询方提供的查询序列中每个目标位点对应的编码结果。
77.在本实施例中,数据查询方提供的查询数据集中的查询序列中的目标点位与样本序列中的目标点位相同。其中,数据查询方提供的查询数据集同样也可以在可信执行环境中进行隐私安全计算。
78.具体的,查询数据集中包括有查询序列中的每个目标位点、每个目标位点所包含的信息、每个目标位点对应的编码结果。其中,查询序列中的每个目标位点对应的编码结果是根据每个目标位点所包含的信息计算得到的,在这个计算过程中可以使用隐私计算和同态加密等技术实现数据安全,防止查询序列中每个目标位点所包含的信息发生泄露。
79.示例性的,图4为本技术实施例提供的查询数据集的示意图,如图4所示,其包括的查询序列为样本s2,样本s2包括有与上文提到的样本s1相同的目标位点(即“rs581313”、“rs3428572”、“rs123423790”、“rs285728274”、“rs76682845”、“rs23412342”这六个位点),但是样本s2的这六个位点所包含的信息与样本s1中六个位点所包含的信息是不相同的,例如在样本s2的“rs76682845”中包含的基因型为“1/1”,而在样本s1的“rs76682845”中包含的基因型为“0/0”。
80.在本实施例中,基于查询序列(例如上图4中的样本s2)中的目标位点(例如“rs581313”、“rs3428572”、“rs123423790”、“rs285728274”、“rs76682845”、“rs23412342”这六个位点)所包含的信息(例如每个目标位点对应的基因型),通过编码可以得到每个目标位点对应的编码结果(例如上图4中的重编码)。编码的过程可以利用逻辑运算得到,具体的,以上图4中的“rs581313”这一位点为例,其基因型中包括的第一信息为“1”,第二信息为“1”,通过将第一信息和第二信息进行或逻辑运算,得到编码结果为“1”。
81.另外,在本实施例中,若上图3和图4中的样本(即样本s1和样本s2)为dna样本,则携带该dna样本的个体的基因型通常来自于父亲以及母亲,以父亲的基因型为“0/0”,母亲的基因型为“0/0”为例,若子女的基因型为“0/1”、“1/0”,则表示子女发生了杂合突变,若子女的基因型为“1/1”,则表示子女发生了纯合突变,从上图3和图4可以看出,无论子女发生杂合突变或纯合突变,其重编码(即编码结果)均是相同的,如此即使是泄露了编码结果,也无法确定出子女的具体基因型,进一步提高了数据的安全性。
82.步骤s204,在可信执行环境中,将编码数据集和查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果,其中,对比结果用于表征查询数据集与编码数据集的相似概率值。
83.在本实施例中,相同目标位点是指编码数据集和查询数据集中相同的一个目标位点,例如以上图3和图4为例,图3中的“rs581313”与图4中的“rs581313”为相同目标位点。每个相同目标位点对比之后可以得到一个对应的结果,具体分为两种,一种结果为对比相同,另一种结果为对比不相同。
84.示例性的,图5为本技术实施例提供的编码数据集与查询数据集中相同目标位点的对比示意图,如图5所示,在本实施例中,若编码数据集与查询数据集中相同目标位点对应的编码结果相同,则该相同目标位点对应的结果为1,若相同目标位点对应的编码结果不相同,则该相同目标位点对应的结果为0。其中,在对比时利用多方安全计算技术,实现数据的保密。示例性的,对比结果可以是图5中的数量占比,即4/6。
85.步骤s205,根据对比结果,分析确定样本序列与查询序列的来源是否存在关联。
86.本实施例中,编码数据集和查询数据集中相同目标位点对应的编码结果进行对比之后,可以分为对比相同和对比不相同两种结果(如图5所示,用数字1表示对比相同,用数字0表示对比不相同),通过分析不同结果的数量,确定对比相同和对比不相同两种结果各自的数量占比,将数量占比作为对比结果可以确定出样本序列与查询序列的来源是否有关联关系。
87.示例性的,以dna样本为例,如果数据查询方提供的dna样本s2与数据提供方提供的dna样本s1的每个相同目标位点对比之后,得到的每个相同目标位点对应的结果均为对比相同,则可以确定数据查询方提供的dna样本s2与数据提供方提供的dna样本s1来源于同一个个体。
88.本技术实施例通过将数据提供方的提供的数据进行编码,得到第一编码结果,同时将数据查询方提供的数据进行编码,得到第二编码结果,通过多方安全技术对比两个编码结果,确定出数据提供方与数据查询方各自提供的数据是否一致,避免了数据查询方在对比查询的过程中发生的数据泄露,同时通过对比编码结果,也能够提高数据对比效率,快速的确定出数据提供方与数据查询方各自提供的数据是否一致。由此可以使得本技术方案应用于医疗行业和金融行业,如医疗行业的血缘关系判定,金融行业的客户身份校验。
89.进一步的,在一些实施例中,上述步骤s202中“根据样本序列中每个目标位点处所包含的信息,生成样本序列的编码数据集”,具体可以通过如下步骤实现:在样本序列的每个目标位点处所包含的信息中确定出第一信息和第二信息;根据样本序列中的每个目标位点的第一信息和第二信息,确定样本序列中的每个目标位点对应的编码结果,根据样本序
列中每个目标位点对应的编码结果,生成样本序列的编码数据集。其中,第一信息来源于第一对象或通过第一对象随机突变得到,第二信息来源于第二对象或通过第二对象随机突变得到,编码结果为第一编码或第二编码,第一编码用于表征第一信息来源于第一对象且第二信息来源于第二对象,第二编码用于表征第一信息通过第一对象随机突变得到和/或第二信息通过第二对象随机突变得到。
90.在本实施例中,可以继续参考上图3和图4,每个目标位点所包含的信息为基因型,基因型包括有两种“0”和“1”,即第一信息和第二信息,第一对象可以是指父亲或母亲中的任一个,第二对象则是指父亲或母亲中的另一个。第一信息可以来源于父亲,第二信息可以来源于母亲,同时,第一信息和第二信息也可以是随机突变产生。在上述图3和图4中,用“0”表示该信息来源于父亲或母亲,用“1”表示该信息是随机突变产生的。
91.示例性的,以图3中样本s1的“rs581313”这一目标位点为例,其包含的信息(即基因型)为“0/1”,其中,第一信息为“0”,第二信息为“1”,即第一信息来源于父亲或母亲,而第二信息是随机突变产生的,即杂合突变。在本实施例中,杂合突变和纯合突变的基因型,其重编码(即编码结果)对应的都为“1”。
92.本技术实施例通过在编码时隐藏样本中存在的杂合突变和纯合突变,即使数据查询方遍历编码结果,也无法获取数据提供方中样本的精确信息,进一步提高了数据安全性。
93.在另一些实施例中,上述步骤s203还可以通过如下步骤实现:将每个样本序列的编码数据集中所有目标位点对应的编码结果求和,得到每个样本序列的编码数据集的编码总和;将查询数据集中每个目标位点对应的编码结果求和,得到查询序列的查询数据集的编码总和;在所有样本序列中查询得到编码数据集的编码总和与查询序列的查询数据集的编码总和的差值小于预设阈值的样本序列,作为目标样本序列;在可信执行环境中,将目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果。
94.在本实施例中,以上述图3作为编码数据集为例,在样本s1中包括有“rs581313”、“rs3428572”、“rs123423790”、“rs285728274”、“rs76682845”、“rs23412342”这六个位点,每个目标位点对应有一个编码结果(即重编码),编码结果的取值为“1”或者“0”,通过计算图3中所有目标位点对应的编码结果,到该编码数据集的编码总和为4。
95.同理,在数据查询方发起查询请求并提交查询数据集时,也可以计算得到该查询数据集的编码总和。在本实施例中,数据提供方通常提供有多个编码数据集,有的编码数据集的编码总和为1,有的编码数据集的编码总和为4,当计算得到查询数据集的编码总和之后,就可从数据提供方提供的多个编码数据集中筛选出目标编码数据集,该目标编码数据集的编码总和与查询数据集的编码总和相同或者相似,其中,以预设阈值为2为例,如果目标编码数据集的编码总和与查询数据集的编码总和的差值为0,则目标编码数据集的编码总和与查询数据集的编码总和相同,其小于预设阈值;若目标编码数据集的编码总和与查询数据集的编码总和的差值为1,则目标编码数据集的编码总和与查询数据集的编码总和相似,其也小于预设阈值。该目标编码数据集中的样本序列就称为目标样本序列。此时只需要将目标编码数据集与查询数据集中相同目标位点对应的编码结果对比,计算得到对比结果,就可以快速的找到与查询数据集对应的查询序列存在关联的样本序列。其中,可以利用多方安全计算技术进行目标编码数据集的筛选定位,保证数据安全。
96.本技术实施例通过对数据提供方所提供的编码数据集进行筛选,得到目标样本序列,可以排除噪音,直接从目标样本序列中快速高效的确定出与查询序列存在关联关系的样本序列,提高了数据查询的效率。
97.进一步的,在上述实施例的基础上,在另一些实施例中,上述步骤“将目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果进行对比,得到每个相同目标位点对应的对比结果”,具体可以包括如下步骤:将目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果对比;若目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果相同,则确定相同目标位点对应的为第一结果;若目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果不相同,则确定相同目标位点对应的为第二结果,第一结果与第二结果的取值不相同;根据每个相同目标位点对应的第一结果或第二结果,计算得到对比结果。
98.在本实施例中,可以继续参考上图5,在利用多方安全计算技术对比目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果时,可以将用数值“1”表示第一结果,用数值“0”表示第二结果,如果对比相同,则确定该相同目标位点对应的为数值“1”,如果对比不相同,则确定该相同目标位点对应的为数值“0”。
99.本技术实施例通过确定相同目标位点对应的为第一结果或第二结果,即数值“0”或数值“1”,可以在利用多方安全计算技术进行对比时,进一步提高数据的安全性,即使结果发生泄露也无法推测出数据提供方和数据查询方各自提供的数据的详细信息。
100.进一步的,在上述实施例的基础上,在另一些实施例中,上述步骤“根据每个相同目标位点对应的第一结果或第二结果,计算得到对比结果”,具体可以通过如下步骤实现:确定对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量;根据对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量,计算对应为第一结果的相同目标位点或对应为第二结果的相同目标位点的数量占比;将数量占比作为对比结果。
101.在本实施例中,继续参考上图5,在上图5中,以“rs581313”作为相同目标位点为例,通过对比数据提供方在该相同目标位点的编码结果“1”与数据查询方在该相同目标位点的编码结果“1”,得到第一结果“1”,即在“rs581313”这个相同目标位点对应的为第一结果“1”。示例性的,通过查看图5还可以发现,在“rs3428572”、“rs123423790”、“rs285728274”这三个相同目标位点对应的也为第一结果“1”,在“rs76682845”、“rs23412342”这两个相同目标位点对应的为第二结果“0”。通过统计得到第一结果的相同目标位点的数量占比为4/6,第二结果的相同目标位点的数量占比为2/6,其中,示例性的,可以将第一结果的相同目标位点的数量占比作为对比结果。
102.在本实施例中,可以设置占比阈值,当第一结果的相同目标位点的数量占比达到占比阈值时,则确定目标样本序列与查询序列的来源存在关联。即可能来自于同一对象,或者存在关联关系的两个对象。
103.本技术实施例通过统计第一结果的相同目标位点的数量以第二结果的相同目标位点的数量,通过数量占比来确定目标样本序列与查询序列的来源是否存在关联,能够进一步对数据进行加密,提高了数据的安全性。
104.进一步的,在上述实施例的基础上,在另一些实施例中,上述步骤“根据对比结果,
分析确定样本序列与查询序列的来源是否存在关联”,具体还可以通过如下步骤实现:将数量占比分别与预设第一阈值和预设第二阈值进行对比,预设第一阈值小于预设第二阈值;若数量占比小于或等于预设第一阈值,则确定样本序列与查询序列来源于互不关联的两个不同对象;若数量占比大于预设第一阈值且小于预设第二阈值,则确定样本序列与查询序列来源于存在关联的两个不同对象;若数量占比等于或大于预设第二阈值,则确定样本序列和查询序列来源于同一个对象。
105.在本实施例中,可以通过设置阈值来判断数据查询方提供的查询序列与数据提供方提供的样本序列是否为同一个个体或者存在关联关系。示例性的,可以设置预设第一阈值为0.25,预设第二阈值为0.5。以样本序列和查询序列均为dna序列为例,当数量占比小于或等于0.25时,则证明样本序列和查询序列是来自于不存在血缘关系的两个不同的个体,若数量占比大于预设第一阈值且小于0.5,则确定样本序列与查询序列来源于存在关联的两个不同对象,例如存在血缘关系的两个不同的对象。若数量占比等于或大于0.5,则确定样本序列与查询序列来源于同一个对象。
106.本技术实施例通过设置阈值,基于阈值可以准确的分析出样本序列与查询序列的来源是否存在关联以及关联是否密切,有效提高了数据分析的效果。
107.进一步的,在另一些实施例中,在确定样本序列与查询序列的来源存在关联之后,可以从数据提供方获取该样本序列的样本标识信息并输出。其中,样本标识信息可以是该样本序列的来源对象的名称。
108.示例性的,以样本序列为动物a1的dna为例,以查询序列为动物b1的dna为例,如果动物a1和动物b1的父母相同,则样本序列与查询序列的来源存在关联,此时可以取动物a1的名称或者编号作为样本标识信息。
109.本技术实施例通过输出来源存在关联的样本序列的样本标识信息,可以方便数据查询方分析确定出与其所查询的查询序列存在关联的对象有哪些,提高数据查询效果。
110.示例性的,在一些实施例中,本技术还可以应用于样本识别,以样本为dna为例,可以在多方安全计算技术的前提下,通过同态加密等手段获取snp位点并基于snp位点的信息进行重编码。即使用snp位点作为识别样本的检测位点,使用实验手段,获取位点信息,并对其进行分类编码。在编码完成之后,将数据提供方和数据查询方的数据进行特征对齐,然后利用多方安全计算技术进行数据的快速定位、计算与比较,根据样本比较返回的结果分数进行排序,从而获取是否为同一样本以及血缘关系远近。
111.具体的,首先使用多方安全计算的隐私计算技术和人类基因组单体型图(hapmap)数据为例,使用hapmap队列数据,包含一千多例样本,每个样本包含数百万个snp位点,去除数据中获取基因型失败的样本。然后将基因型重新编码,编码时只区分野生和突变,不区分纯合突变和杂合突变。编码后的结果可以参考上述图3和图4。其次对数据查询方和数据提供方提供的数据进行计算、快速定位与比较:

根据上述图3和图4,数据重编码后每个样本(例如样本s1和样本s2)可以计算编码总和,利用总和进行快速定位,快速识别需要具体进行比较的样本,如上述图5。

将编码总和相等的样本,使用双方snp具体编码信息进行比较,如上述图5。

利用多方安全计算技术的判断双方数据是否相等,如果相等即为1,不等即为0,并计算相等分数,如上述图5。最后再进行样本识别:

使用计算分数进行判别是否为同一样本以及亲缘关系。

如果分数大于50%,则为可能为同一样本;如果在50%左右,
则为父母直系亲属;如果25%-50%,则亲缘关系较近;如果低于25%,则亲缘关系较远。
112.本技术实施例在保护相关数据隐私的前提下,实现对输入数据的快速计算、定位与样本识别,实现统一的数据计算与安全体系。不仅能够简化比较流程,保护双方数据。同时能够快速定位样本,隐藏样本具体突变和纯合信息,即使遍历也无法获取数据提供方中样本的精确信息。同时使用多方安全技术计算,只返回百分数,双方无法知道具体位点的差异性,因此更能保护双方数据。
113.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
114.图6为本技术实施例提供的基于可信执行环境的医疗隐私数据安全分析装置的结构示意图,该医疗隐私数据安全分析装置可以集成在服务器上,并在服务器的可信执行环境中执行相应的功能。如图6所示,该医疗隐私数据安全分析装置600包括有信息确定模块610、数据生成模块620、数据获取模块630、数据对比模块640和分析确定模块650。
115.其中,信息确定模块610用于在可信执行环境中,确定数据提供方提供的样本序列中的目标位点处所包含的信息。数据提供方提供有至少一个样本序列,每个样本序列包括有至少一个目标位点。数据生成模块620用于在可信执行环境中,根据样本序列中每个目标位点处所包含的信息,生成样本序列的编码数据集。编码数据集中包括有样本序列中每个目标位点对应的编码结果。数据获取模块630用于获取数据查询方提供至可信执行环境中的查询数据集。查询数据集包括数据查询方提供的查询序列中每个目标位点对应的编码结果。数据对比模块640用于用于在可信执行环境中,将编码数据集和查询数据集中相同目标位点对应的编码结果进行对比,计算得到对比结果,其中,对比结果用于表征查询数据集与编码数据集的相似概率值。分析确定模块650用于根据对比结果,分析确定样本序列与查询序列的来源是否存在关联。
116.可选的,数据生成模块具体可以用于:在样本序列的每个目标位点处所包含的信息中确定出第一信息和第二信息;根据样本序列中的每个目标位点的第一信息和第二信息,确定样本序列中的每个目标位点对应的编码结果;根据样本序列中每个目标位点对应的编码结果,生成样本序列的编码数据集。其中,第一信息来源于第一对象或通过第一对象随机突变得到,第二信息来源于第二对象或通过第二对象随机突变得到,编码结果为第一编码或第二编码,第一编码用于表征第一信息来源于第一对象且第二信息来源于第二对象,第二编码用于表征第一信息通过第一对象随机突变得到和/或第二信息通过第二对象随机突变得到。
117.可选的,数据对比模块具体可以用于:将每个样本序列的编码数据集中所有目标位点对应的编码结果求和,得到每个样本序列的编码数据集的编码总和;将查询数据集中每个目标位点对应的编码结果求和,得到查询序列的查询数据集的编码总和;在所有样本序列中查询得到编码数据集的编码总和与查询序列的查询数据集的编码总和的差值小于预设阈值的样本序列,作为目标样本序列;在可信执行环境中,将目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果进行对比,得到每个相同目标位点对应的对比结果。
118.可选的,数据对比模块具体可以用于:将目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果对比;若目标样本序列的编码数据集和查询数据集中相
同目标位点对应的编码结果相同,则确定相同目标位点对应的为第一结果;若目标样本序列的编码数据集和查询数据集中相同目标位点对应的编码结果不相同,则确定相同目标位点对应的为第二结果,第一结果与第二结果的取值不相同;根据每个相同目标位点对应的第一结果或第二结果,计算得到对比结果。
119.可选的,数据对比模块具体可以用于:确定对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量;根据对应为第一结果的相同目标位点的数量和对应为第二结果的相同目标位点的数量,计算对应为第一结果的相同目标位点或对应为第二结果的相同目标位点的数量占比;将数量占比作为对比结果。
120.可选的,数据对比模块具体可以用于:将数量占比分别与预设第一阈值和预设第二阈值进行对比,预设第一阈值小于预设第二阈值;若数量占比小于或等于预设第一阈值,则确定样本序列与查询序列来源于互不关联的两个不同对象;若数量占比大于预设第一阈值且小于预设第二阈值,则确定样本序列与查询序列来源于存在关联的两个不同对象;若数量占比等于或大于预设第二阈值,则确定样本序列和查询序列来源于同一个对象。
121.可选的,基于可信执行环境的医疗隐私数据安全分析装置还包括信息输出模块,用于若样本序列与查询序列的来源存在关联,则从数据提供方获取样本序列的样本标识信息并输出。
122.可选的,样本序列和查询序列均为脱氧核糖核酸序列,基于可信执行环境的医疗隐私数据安全分析装置还包括位点选择模块,用于获取脱氧核糖核酸序列中单核酸多态性所处的位点,作为目标位点。
123.本技术实施例提供的装置,可用于执行图2所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
124.需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,信息确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上信息确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
125.图7为本技术实施例提供的电子设备的结构示意图。如图7所示,该电子设备700包括:至少一个处理器710、存储器720、总线730及通信接口740。其中:处理器710、通信接口740以及存储器720通过总线730完成相互间的通信。通信接口740用于与其它设备进行通信。该通信接口包括用于进行数据传输的通信接口以及用于进行人机交互的显示界面或者操作界面等。
126.处理器,用于执行存储器中存储的计算机指令,具体可以执行上述实施例中所描述的方法中的相关步骤。处理器可能是中央处理器,或者是特定集成电路(application specific integrated circuit,asic),或者是被配置成实施本发明实施例的一个或多个
集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。存储器,用于存放计算机指令。存储器可能包含高速ram存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
127.本实施例还提供一种可读存储介质,可读存储介质中存储有计算机指令,当电子设备的至少一个处理器执行该计算机指令时,电子设备执行上述的各种实施方式提供的基于可信执行环境的医疗隐私数据安全分析方法。
128.本实施例还提供一种程序产品,该程序产品包括计算机指令,该计算机指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得电子设备实施上述的各种实施方式提供的基于可信执行环境的医疗隐私数据安全分析方法。
129.本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
130.可以理解的是,在本技术实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本技术的实施例的范围。在本技术的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术的实施例的实施过程构成任何限定。
131.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1