1.本文的一个或多个实施例涉及数据的动态匿名化,具体地,涉及包括个人识别信息的数据的匿名化。
背景技术:2.通用数据保护条例(gdpr)和加州消费者隐私法案(ccpa)解决了各种数据隐私问题。为了帮助促进数据隐私,一些现有的动态匿名化方法涉及限制可以被搜索和/或查询的参数和值。使用这种方法,所有数据仍然被存储,但不是所有数据都是可查询的。这可能会有问题,因为个人识别信息(pii)仍然存储在数据存储中。只要pii被存储,这种数据仍然容易受到数据泄露的影响。因此,需要更好地平衡数据隐私及安全问题与和数据分析相关的商业价值。
技术实现要素:3.以下呈现了发明内容,以提供对本发明的一个或多个实施例的基本理解。该发明内容不旨在标识关键或重要元素或描绘特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化的形式将概念呈现为稍后呈现的更详细描述的序言。在本文所描述的一个或多个实施例中,促进数据匿名化的系统、设备、计算机实现的方法和/或计算机程序产品。
4.根据实施例,一种设备包括存储器和可操作地耦合到该存储器并包括计算机可执行组件的处理器,该计算机可执行组件包括:确定组件,其根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定包括个人识别信息的数据的个人识别数据元素;以及存储组件,其将数据的非识别数据元素存储到非识别数据存储。
5.根据另一实施例,一种计算机实现的方法包括:由包括处理器的设备根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素;以及由该设备将数据的非识别数据元素存储到非识别数据存储。
6.根据又一实施例,一种非暂时性机器可读介质,包括可执行指令,当由处理器执行时,该可执行指令促进操作的执行,包括根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素,以及将数据的非识别数据元素存储到非识别数据存储。
附图说明
7.图1示出了根据本文所描述的一个或多个实施例的可以促进动态匿名化的示例非限制性系统的框图。
8.图2示出了根据本文所描述的一个或多个实施例的可以促进动态匿名化的示例非限制性系统的框图。
9.图3示出了根据本文所描述的一个或多个实施例的可以促进动态匿名化的示例非限制性系统的框图。
10.图4示出了根据本文所描述的一个或多个实施例的用于动态匿名化的示例非限制性过程的流程图。
11.图5示出了根据本文所描述的一个或多个实施例的用于动态匿名化的示例非限制性过程的流程图。
12.图6示出了根据本文所描述的一个或多个实施例的用于动态匿名化的示例非限制性过程的流程图。
13.图7a和7b示出了根据本文所描述的一个或多个实施例的示例性数据集。
14.图8示出了根据本文所描述的一个或多个实施例的用于动态匿名化的示例非限制性计算机实现方法的流程图。
15.图9示出了根据本文所描述的一个或多个实施例的用于由非暂时性机器可读介质促进的动态匿名化的示例性操作的流程图。
16.图10是其中可以实现本文所描述的一个或多个实施例的示例非限制性计算环境。
17.图11是其中可以实现本文所描述的一个或多个实施例的示例非限制性网络环境。
具体实施方式
18.以下详细描述仅是说明性的,并且不旨在限制实施例和/或应用或实施例的使用。此外,不旨在受在前面的背景技术或发明内容部分或在具体实施方式部分中呈现的任何明示或暗示的信息的约束。
19.现在参考附图描述一个或多个实施例,其中相同的附图标记始终用于指代相同的元素。在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对一个或多个实施例的更彻底的理解。然而,很明显,在各种情况下,可以在没有这些具体细节的情况下实践一个或多个实施例。
20.应当理解,当一个元件被称为“耦合”到另一元件时,它可以描述一种或多种不同类型的耦合,包括但不限于化学耦合、通信耦合、电容耦合、电耦合、电磁耦合、电感耦合、操作耦合、光学耦合、物理耦合、热耦合和/或另一种类型的耦合。如本文所引用,“实体”可以包括人、客户端、用户、计算设备、软件应用、代理、机器学习模型、人工智能和/或另一实体。应当理解,这种实体可以根据本文所描述的一个或多个实施例来促进本主题公开的实现。
21.图1示出了根据本文所描述的一个或多个实施例的示例非限制性系统102的框图。系统102可以包括存储器104、处理器106、接收组件108、确定组件110、存储组件112和/或总线114。在各种实施例中,存储器104、处理器106、接收组件108、确定组件110、存储组件112和/或总线114中的一个或多个可以通信地或可操作地彼此耦合,以执行系统102的一个或多个功能。
22.根据实施例,接收组件108可以接收数据或数据集。这种数据可以表示一组交易。这种交易可以包括例如汽车租赁或购买、住宅租赁、抵押或其他贷款申请、信用卡申请、银行账户申请或其他金融交易(例如,对于这些交易,个人数据可以有助于实体决定是否批准申请人)。请注意,这种个人数据可以包括,例如,出生年份、收入金额、邮政编码、州、国家、军事地位、信用分数或状况、住房付款、债务收入比、婚姻状况、性别、住房状况、就业状况、
保险状况、最高教育水平、破产历史或其他个人数据。个体的个人数据可以与其他个体的个人数据组合,使得可以对(例如,包括个体的个人数据和其他个体的个人数据的数据的)组合数据集执行各种分析。
23.根据实施例,确定组件110可以确定包括个人识别信息(pii)的数据的个人识别数据元素。请注意,这种确定可以使用匿名化标准来执行。在这点上,确定组件可以将数据集的数据元素与匿名化标准进行比较,以便确定这种数据元素是否包括pii数据元素。这种匿名化标准可以与个人识别信息相关联,如果数据包括大于匿名阈值的匿名化,则该匿名化标准被确定为不被数据元素所满足。本文的匿名化标准或阈值可以使用查找表、匿名化函数来定义或确定,或者以其他方式确定。
24.根据实施例,本文的匿名化标准可以与数据元素相似性指数相关联。这种相似性指数可以表示数据集的数据元素之间的方差或统计随机性的量。在另一实施例中,匿名化标准可以包括可能值的最大范围(例如,对于相应的数据元素)或者可能值的最大理论范围。
25.根据实施例,本文的阈值(例如,匿名化阈值)可以包括数据元素的数量。请注意,本文的阈值可以包括数据元素的数量和范围,使得相应的数据和数据内的值的分布作为整体上不包括pii。根据示例,本文的实施例可以考虑定义的邮政编码内的收入范围(例如,使用确定组件110)。如果在某个邮政编码内存在足够小数量的客户,这可以导致对具有收入y(例如,数据内的值)的某个人x的识别,则该数据包括pii。因此,阈值不够大。然而,如果在给定的邮政编码内存在足够数量的客户,并且收入范围具有足够的可变性,使得不可能(或者至少极其困难)将收入y与某个人x相匹配,则可以认为阈值足够大。换句话说,本文的阈值可以表示存在的值的数量,使得阈值足够大,使得数据作为整体不包括pii。
26.本文的匿名化可以指数据集中的可变性程度。通常,可变性越大,从数据元素或数据集中识别个体就越困难。例如,如果数据集包括拥有特定型号汽车并且居住在邮政编码90210的100名车主,那么在缺少其他识别数据的情况下,很难从邮政编码数据中确定个体车主。然而,如果一个数据集只包括拥有该特定型号汽车并且居住在邮政编码为90210的两个车主,那么使用邮政编码来识别个体车主就容易得多。根据实施例,匿名化的阈值水平可以被定义或者根据行业(例如,行业类型)、法律或公司标准来定义。
27.根据实施例,确定组件110可以评估数据类别(例如,邮政编码)以根据匿名化标准来确定该数据类别是否包括pii。在又一实施例中,确定组件110可以评估多个数据类别,以单独地或整体地确定这些数据类别是否包括pii。例如,如果在给定的邮政编码(例如,90210)内存在太少的客户而不能保持匿名,那么这种数据可以包括pii。因此,为了防止数据包括pii,可以聚集90210周围的邮政编码,以在数据中实现表示更大数量的个体。在这点上,可以阻止原本可能包括pii的数据包括pii。
28.在另一实施例中,如果例如数据集的大小小于阈值(例如,n),则确定组件110可以完全防止数据集是可查询的,其中n被确定组件110确定为使数据不是pii的最小数据大小。注意,最小大小可以取决于行业类型。还请注意,n可以表示大小标准或阈值(例如,对于整个数据集)。在又一实施例中,大小标准或阈值(例如,n)可以基于数据元素的数据元素类型。例如,与邮政编码相关联的大小标准可以不同于与婚姻状况相关联的大小标准。
29.请注意,n的值可以基于某些数据字段的匿名化或随机性程度来动态地确定,特别
是包括诸如收入或就业状况的敏感字段。根据示例,可以根据分布(例如,由确定组件110)来确定随机性。例如,如果存在四个收入水平,并且每个水平中的分布大约为25%,则数据可以被确定为足够随机(例如,由确定组件110)。然而,如果在较低的三个水平中的每一个水平中仅存在10%的数据,而在单个最高水平中仅存在70%的数据,则数据的随机性可以被确定为低(例如,由确定组件110)。因此,可能需要更多的数据(例如,更大的阈值)来确保匿名性。在这点上,n可以根据数据元素的敏感度水平而变化,因此个人识别元素的最小数量可以基于个人识别数据元素的敏感度水平而变化。在其他实施例中,个人识别数据元素的最小数量可以根据个人识别数据元素的可访问性水平(例如,访问信息的容易程度)而变化。
30.根据另一实施例,确定组件110可以考虑具有固定值的一些字段(例如,婚姻状况、性别、邮政编码、住房状况、就业状况、保险状况、信用状况和/或最高教育水平等)的分布或随机性。例如,如果这些字段的分布是分散的和/或随机的,那么阈值n可以更小。然而,如果这些字段中的一些字段的分布或随机性根本不是均匀分布或随机的(例如,大多数就业状况值是“就业的”,而不是任何其他可能的值),则阈值n将需要更高。
31.存储器104可以存储一个或多个计算机/机器可读和/或可执行的组件和/或指令,当由处理器106(例如,经典处理器、量子处理器等)执行时,可以促进由可执行组件和/或指令定义的操作的执行。例如,存储器104可以存储计算机和/或机器可读、可写和/或可执行的组件和/或指令,当由处理器106执行时,这些组件和/或指令可以促进本文所描述的与系统102、接收组件108、确定组件110、存储组件112或其他组件相关的各种功能的执行。存储器104可以包括可以采用一个或多个存储器架构的易失性存储器(例如,随机存取存储器(ram)、静态ram(sram)、动态ram(dram)等)和/或非易失性存储器(例如,只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)等)。可以理解,存储器104可以存储本文的数据(例如,来自存储组件112的数据)。
32.处理器106可以包括一种或多种类型的处理器和/或电子电路(例如,经典处理器、图形处理器、量子处理器等),其可以实现可以存储在存储器104上的一个或多个计算机和/或机器可读、可写和/或可执行的组件和/或指令。例如,处理器106可以执行可以由这种计算机和/或机器可读、可写和/或可执行的组件和/或指令指定的各种操作,包括但不限于逻辑、控制、输入/输出(i/o)、算术等。在一些实施例中,处理器106可以包括一个或多个中央处理单元、多核处理器、微处理器、双微处理器、微控制器、片上系统(soc)、阵列处理器、矢量处理器、量子处理器和/或另一种类型的处理器。
33.总线114可以包括一个或多个存储器总线、存储器控制器、外围总线、外部总线、本地总线、量子总线和/或可以采用各种总线架构(例如,工业标准架构(isa)、扩展isa(eisa)、微信道架构(msa)、智能驱动电子设备(ide)、高级图形端口(agp)、vesa本地总线(vlb)、外围组件互连(pci)、通用串行总线(usb)、卡总线、小型计算机系统接口(scsi)、火线(ieee1394)等)的另一种类型的总线。
34.图2示出了根据本文所描述的一个或多个实施例的示例非限制性系统202的框图。系统202可以类似于系统102,并且可以包括存储器104、处理器106、接收组件108、确定组件110、存储组件112和/或总线114。为了简洁起见,省略了对各个实施例中采用的相同元素和/或过程的重复描述。
35.系统202可以附加地包括调整组件204。在各种实施例中,存储器104、处理器106、接收组件108、确定组件110、存储组件112、总线114和/或调整组件204中的一个或多个可以通信地或可操作地彼此耦合,以执行系统202的一个或多个功能。
36.本文的实施例可以减少对进行交互式匿名化的需要的频率,并且增加执行静态匿名化的频率。例如,可以通过将特定领域的知识应用于被评估的数据(例如,由确定组件110或人工智能组件304,如稍后更详细讨论的)来完成前述。根据实施例,可以将乘数应用于(例如,使用调整组件204)需要额外方差的每个字段,以确保数据不被认为是pii。根据示例,可以在每个枚举值的范围内随机生成数字(例如,由调整组件204)。例如,关于就业状况,包括0-500的收入人可以被视为失业,包括500-1000的收入人可以被视为就业。因此,确定组件可以为数据的每个数据元素确定该范围内的随机数。因此,没有特定领域的知识(例如,500作为分界点),第三方不能确定就业状况。此外,范围可以根据数据值而变化,例如,数据包括1000行,其中200行表示失业,800行表示就业,分界点可以是200,因此数据可以表现为0-1000的平均分布。
37.根据另一实施例,n可以包括阈值,该阈值指示是进行交互式匿名化还是静态匿名化。根据示例,数据库的大小可以略小于大小n。在该示例中,如果数据库中存在一个列或行,其移除将使得阈值n2足够小,使得数据库的大小大于n2,则可以制作数据库的第二副本,对该特定的行或列进行分块。在这点上,可以利用通过仅移除一行或一列的调整的数据库来实现静态匿名化。这也可以对两列或两行进行,等等。
38.根据示例,调整组件204可以修改与个人相关联的收入信息(例如,从值改变到值范围),使得个体不能被识别。
39.根据实施例,例如,如果数据集的大小很小,调整组件204可以将数据集的数据元素的一些数值舍入到较低的精度水平。根据示例,如果数据集的大小》1000(例如,人/客户),则收入金额可以被舍入到最接近的千美元,如果数据集的大小》100,则收入金额(例如,年收入)可以被舍入到最接近的万美元,而如果数据集的大小》50,则收入金额可以被舍入到最接近的五万美元。在实施例中,如果数据集的大小《=50,则确定组件110可以防止存储整个数据集。然而,如果例如调整组件204调整数据(例如,将收入金额舍入到最接近的五万美元),则确定组件110可以允许存储数据集。类似的方法可以用于出生年份和/或住房月付款。例如,出生年份可以舍入到出生的年代(例如,1980年代)。
40.在另一实施例中,如果数据集的数据大小很小(例如,因此包括pii),调整组件204可以对某些值进行分块或舍入。例如,如果数据集仅包括少量的汽车订单或订购单,则出生年份、收入金额和/或邮政编码可以被分块。作为示例,来自图7a中表示的数据集的邮政编码从存储的数据集中省略(例如,通过存储组件112
–
参见图7b),并且代之以相应的分块值。
41.根据实施例,本文的分块(例如,由调整组件204促进的)可包括如上所描述的数据的分组或舍入。在这点上,可以导致相关联的个体的识别的数据元素可以被舍入或泛华,使得数据元素可以被分组为足够大的分组,以便防止这种数据元素导致相关联的个体的识别。
42.在又一实施例中,数据的分块可以包括数据在n维空间中的映射。在这点上,每个数据列可以被视为空间中的维度。如果存在n列,那么本文的系统可以构建n维空间。在这点上,每行数据可以包括n维空间中的数据点。因此,适当的阈值可以包括空间中的n维长方体
(例如,2维空间中的矩形)。此外,在这点上,对于每个维度,可以(例如,由确定组件110)确定任何所需的分组或映射,以便保持匿名。根据示例,每个维度可以包括彼此相差90度的角度。在这点上,维度之间没有任何可测量的统计相似性。请注意,保持维度之间的匿名性所需的变化量可以根据匿名函数来确定。例如,如果维度变化不满足变化阈值(例如,如确定组件110所确定的),则可以执行进一步的分块。请注意,每个维度可以对应于每个数据元素类型(例如,婚姻状况、性别、邮政编码、住房状况、就业状况、保险状况、收入、出生年份、信用检查状况、最高教育水平等)。
43.根据实施例,如果后来添加了更多的数据(例如,由接收组件108添加到数据集)使得数据集中的数据元素不再包括pii,则该数据元素可以被去分块(例如,由调整组件204)。
44.图3示出了根据本文所描述的一个或多个实施例的示例非限制性系统302的框图。系统302可以类似于系统202,并且可以包括存储器104、处理器106、接收组件108、确定组件110、存储组件112、总线114和/或调整组件204。为了简洁起见,省略了对各个实施例中采用的相同元素和/或过程的重复描述。
45.系统302可以附加地包括人工智能组件304。可以采用人工智能或机器学习系统和技术来促进学习用户行为、基于上下文的场景、偏好等,以便以高置信度采取自动动作。基于效用的分析可以用于将采取动作的收益与采取错误动作的成本相比较。基于概率或统计的分析可以与前述和/或以下结合使用。
46.人工智能组件304可以学习确定pii,学习减轻pii,和/或学习调整数据,以便制作除了系统302的其他功能之外还包括pii的数据集。例如,人工智能组件304可以包括和/或采用人工智能(ai)模型和/或机器学习(ml)模型,其可以学习执行上述或下述功能(例如,经由使用历史训练数据和/或反馈数据的训练)。在实施例中,人工智能组件304可以学习确定本文的阈值或大小,例如n。人工智能组件304还可以学习确定数据是否包括pii,并学习确定pii存储的最佳防止。在另一示例中,人工智能组件304可以利用机器学习来加权数据元素,这些数据元素单独地或整体地超过定义的可识别性水平。
47.在一些实施例中,人工智能组件304可以包括ai和/或ml模型,该模型可以被训练(例如,经由监督和/或无监督技术)以使用包括对应于动态匿名化操作的各种上下文条件的历史训练数据来执行上述功能。在该示例中,这种ai和/或ml模型还可以学习(例如,经由监督和/或无监督技术)使用包括反馈数据的训练数据来执行上述功能,其中这种反馈数据可以由人工智能组件304收集和/或存储(例如,在存储器104中)。在该示例中,这种反馈数据可以包括上面/下面描述的各种指令,这些指令可以响应于观察到的/存储的基于上下文的信息随时间输入到例如系统302。在一些实施例中,基于对执行上述功能的学习,人工智能组件304可以以与接收组件108、确定组件110、存储组件112、总线114和/或调整组件204相同的方式和/或使用相同的资源来执行这些功能。
48.人工智能组件304可以基于使用信息(例如,反馈数据)确定的定义的置信度水平来发起与pii和/或动态匿名化相关联的操作。例如,基于学习使用上面定义的反馈数据来执行上面描述的这种功能,如果人工智能组件304基于这种反馈数据确定数据集可以包括pii或者存储整个数据集可以增加在数据泄露的情况下暴露pii的风险,则它可以发起操作。例如,基于学习使用上面定义的反馈数据来执行上面描述的这种功能,人工智能组件304可以响应于数据集包括pii的确定来确定适当的动作。
49.在实施例中,人工智能组件304可以执行基于效用的分析,该分析将发起上述与pii和/或动态匿名化相关联的操作的成本与收益相比较。在该实施例中,人工智能组件304可以使用一个或多个附加上下文条件来确定数据集中是否存在pii和/或是否应该采取任何数据调整动作。
50.为了促进上述功能,人工智能组件304可以执行与人工智能原理相关联的分类、相关性、推断和/或表达。例如,人工智能组件304可以采用自动分类系统和/或自动分类。在示例中,人工智能组件304可以采用基于概率和/或统计的分析(例如,分解成分析效用和成本)来学习和/或生成推断。人工智能组件304可以采用任何合适的基于机器学习的技术、基于统计的技术和/或基于概率的技术。例如,人工智能组件304可以采用专家系统、模糊逻辑、支持向量机(svm)、隐马尔可夫模型(hmm)、贪心搜索算法、基于规则的系统、贝叶斯模型(例如,贝叶斯网络)、神经网络、其他非线性训练技术、数据融合、基于效用的分析系统、采用贝叶斯模型的系统等。在另一示例中,人工智能组件304可以执行一组机器学习计算。例如,人工智能组件304可以执行一组聚类机器学习计算、一组逻辑回归机器学习计算、一组决策树机器学习计算、一组随机森林机器学习计算、一组回归树机器学习计算、一组最小二乘机器学习计算、一组基于实例的机器学习计算、一组回归机器学习计算、一组支持向量回归机器学习计算,一组k均值机器学习计算、一组谱聚类机器学习计算、一组规则学习机器学习计算、一组贝叶斯机器学习计算、一组深度波尔兹曼机器计算、一组深度信任网络计算和/或一组不同的机器学习计算。
51.图4示出了根据本文所描述的一个或多个实施例的用于动态匿名化的过程400的示例非限制性流程图的流程图。在402,可以接收数据(例如,经由接收组件108)。这种数据可以例如由接收组件108来捕捉。本文的数据或数据集可以由接收组件108从服务器或其他外部源(未示出)接收。在这点上,数据可以被聚集和/或递增(例如,如获得新客户)。在404,可以分析所接收的数据(例如,由确定组件110)。在这点上,可以在406确定来自数据的pii数据元素。如果在408,数据元素包括pii,则过程400可以前进到412。如果在408,数据元素不包括pii,则过程400可以前进到410。在410,可以存储数据元素(例如,由存储组件112)。在412,可以丢弃该数据元素(例如,由存储组件112)。
52.图5示出了根据本文所描述的一个或多个实施例的用于动态匿名化的过程500的示例非限制性流程图的流程图。在502,可以接收数据(例如,经由接收组件108)。这种数据可以例如由接收组件108来捕获。在504,可以分析所接收的数据(例如,由确定组件110)。在这点上,可以在506确定来自数据的pii元素。如果在508,数据元素包括pii,则过程500可以前进到512。如果在508,数据元素不包括pii,则过程500可以前进到510。在510,可以存储数据元素(例如,由存储组件112)。在512,可以调整数据元素(例如,由调整组件204)。这种调整可以包括舍入或不同的调整。在其他实施例中,这种调整可以包括在多维空间中对数据进行分块。
53.图6示出了根据本文所描述的一个或多个实施例的用于动态匿名化的示例非限制性流程图的流程图。在602,可以访问数据(例如,由接收组件108)。这种数据可以例如由接收组件108来捕获。在604,可以分析所接收的数据(例如,由确定组件110)。在这点上,可以在606确定数据的大小(例如,条目、行、列或其他合适的度量的数量)。如果在608,数据小于数据大小阈值,则过程600可以前进到612。如果在610,数据不小于数据大小阈值,则过程
600可以前进到610。在612,所接收的数据可以被完全视为pii,并且过程600可以前进到618。在618,不存储(例如,丢弃)pii,并且该过程可以结束。在610,可以确定pii元素。在614,如果数据元素不包括pii,则可以在620存储该元素。在614,如果数据元素确实包括pii,则该过程可以前进到616,在616,确定该数据元素是否是可调整的。如果数据元素是不可调整的(例如,可舍入的),则过程可以前进到618,在618,不存储或丢弃数据元素。在616,如果数据元素是可调整的,则可以在622调整数据元素,并且可以在620存储调整后的数据元素。请注意,这种调整可以包括在多维空间(例如,n维空间)中对数据进行分块。
54.图8示出了根据本文所描述的一个或多个实施例的示例非限制性的计算机实现的方法800的流程图,该方法可以存储非pii数据。为了简洁起见,省略了对各个实施例中采用的相同元素和/或过程的重复描述。在802,计算机实现的方法800可以包括由包括处理器的设备根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素。在804,计算机实现的方法800可以包括由设备将数据的非识别数据元素存储到非识别数据存储。
55.图9示出了示例、非限制性非暂时性机器可读介质的流程图,该介质包括可执行指令,当由处理器执行时,该可执行指令促进根据本文所描述的一个或多个实施例的可以存储非pii数据的操作900的执行。为了简洁起见,省略了对各个实施例中采用的相同元素和/或过程的重复描述。在902,操作900可以包括根据与个人识别信息相关联的匿名化标准被确定为不被识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素。在904,操作900可以包括将数据的非识别数据元素存储到非识别数据存储。
56.本文所描述的系统可以(例如,通信地、电地、可操作地、光学地等等)耦合到一个或多个本地或远程(例如外部)系统、源和/或设备(例如电子控制系统(ecu)、经典和/或量子计算设备、通信设备等)。例如,可以使用数据电缆(例如,高清晰度多媒体接口(hdmi)、推荐性标准(rs)、以太网电缆等)和/或以下所描述的一个或多个有线网络,来将系统102(或其他系统、控制器、处理器等)(例如,通信地、电地、可操作地、光学地等等)耦合到一个或多个本地或远程(例如,外部)系统、源和/或设备。
57.在一些实施例中,本文的系统可以经由网络(例如,通信地、电地、可操作地、光学地等等)耦合到一个或多个本地或远程(例如外部)系统、源和/或设备(例如电子控制单元(ecu)、经典和/或量子计算设备、通信设备等)。在这些实施例中,这种网络可以包括一个或多个有线和/或无线网络,包括但不限于蜂窝网络、广域网(wan)(例如,互联网)和/或局域网(lan)。例如,系统102可以使用这种网络与一个或多个本地或远程(例如,外部)系统、源和/或设备(例如,计算设备)通信,该网络可以包括几乎任何期望的有线或无线技术,包括但不限于:电力线以太网、无线保真(wi-fi)、光纤通信、全球移动通信系统(gsm)、通用移动电信系统(umts)、全球微波接入互操作性(wimax)、增强型通用分组无线服务(增强型gprs),第三代合作伙伴计划(3gpp)长期演进(lte)、第三代合作伙伴计划2(3gpp2)超移动宽带(umb)、高速分组接入(hspa)、zigbee和其他802.xx无线技术和/或传统电信技术、会话发起协议(sip)、rf4ce协议、wirelesshart协议、6lo wpan(低功率无线局域网上的ipv6)、z-wave、ant、超宽带(uwb)标准协议和/或其他专有和非专有通信协议。在该示例中,系统102因此可以包括硬件(例如,中央处理单元(cpu)、收发器、解码器、天线(例如,超宽带(uwb)天线、低能量(ble)天线等)、量子硬件、量子处理器等)、软件(例如,一组
线程、一组进程、执行中的软件、量子脉冲调度、量子电路、量子门等),或者促进本文的系统与远程(例如,外部)系统、源和/或设备(例如,计算和/或通信设备,例如,智能电话、智能手表、无线入耳塞式耳机等)之间通信信息的硬件和软件的组合。
58.本文的系统可以包括一个或多个计算机和/或机器可读、可写和/或可执行的组件和/或指令,当由处理器(例如,可以包括经典处理器、量子处理器等的处理器106)执行时,这些组件和/或指令可以促进由这些组件和/或指令定义的操作的执行。此外,在许多实施例中,如本文参考或不参考本主题公开的各个附图所描述的,与本文的系统相关联的任何组件可以包括一个或多个计算机和/或机器可读、可写和/或可执行的组件和/或指令,当由处理器执行时,这些组件和/或指令可以促进由这些组件和/或指令定义的操作的执行。因此,根据多个实施例,如本文所公开的,本文的系统和/或与其相关联的任何组件可以采用处理器(例如,处理器106)来执行这些计算机和/或机器可读、可写和/或可执行的组件和/或指令,以促进本文参考本文的系统和/或与其相关联的任何这种组件所描述的一个或多个操作的执行。
59.本文的系统可以包括任何类型的系统、设备、机器、装置、组件和/或仪器,其包括处理器和/或可以经由有线和/或无线网络与一个或多个本地或远程电子系统和/或一个或多个本地或远程设备通信。所有这种实施例都是可预见的。例如,系统(例如,系统302或本文所描述的任何其他系统或设备)可以包括计算设备、通用计算机、专用计算机、车载计算设备、通信设备、车载通信设备、服务器设备、量子计算设备(例如,量子计算机)、平板计算设备、手持设备、服务器类计算机器和/或数据库、膝上型计算机、笔记本计算机、台式计算机、蜂窝电话、智能电话,消费电器和/或仪器、工业和/或商业设备、数字助理、支持多媒体互联网的电话、多媒体播放器和/或其他类型的设备。
60.为了提供本文所描述的各种实施例的附加上下文,图10和以下讨论旨在提供其中可以实现本文所描述的实施例的各种实施例的合适计算环境1000的简要概括描述。虽然以上已经在可以在一个或多个计算机上运行的计算机可执行指令的一般上下文中描述了实施例,但是本领域技术人员将认识到,这些实施例也可以结合其他程序模块和/或作为硬件和软件的组合来实现。
61.通常,程序模块包括例程、程序、组件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。此外,本领域技术人员将理解,本发明的方法可以用其他计算机系统配置来实现,包括单处理器或多处理器计算机系统、微型计算机、大型计算机、物联网(iot)设备、分布式计算系统,以及个人计算机、手持式计算设备、基于微处理器的或可编程的消费电子产品等,其中的每一个都可以可操作地耦合到一个或多个相关联的设备。
62.本文的实施例的图示实施例也可以在分布式计算环境中实践,其中某些任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
63.计算设备通常包括各种介质,这些介质可以包括计算机可读存储介质、机器可读存储介质和/或通信介质,这两个术语在本文彼此不同地使用如下。计算机可读存储介质或机器可读存储介质可以是可以由计算机访问的任何可用存储介质,并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读存储介质或机器可读存储介质可以结合用于存储诸如计算机可读或机器可读指令、程序模块、结构化数据或非结
构化数据等信息的任何方法或技术来实现。
64.计算机可读存储介质可以包括但不限于随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存或其他存储技术、光盘只读存储器(cdrom)、数字多功能盘(dvd)、蓝光盘(bd)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、固态驱动或其他固态存储设备、或其他可以用于存储所需信息的有形和/或非暂时性介质。在这点上,术语“有形的”或“非暂时性的”在本文应用于存储、存储器或计算机可读介质时,应理解为仅排除传播暂时性信号本身作为修饰语,并不放弃对不仅传播暂时信号本身的所有标准存储、存储器或计算机可读介质的权利。
65.计算机可读存储介质可以由一个或多个本地或远程计算设备例如经由访问请求、查询或其他数据检索协议来访问,用于关于介质所存储的信息的各种操作。
66.通信介质通常将计算机可读指令、数据结构、程序模块或其他结构化或非结构化数据包含在诸如经调制的数据信号的数据信号(例如载波或其他传输机制)中,并且包括任何信息传递或传输介质。术语“经调制的数据信号”指的是以在一个或多个信号中对信息进行编码的方式设置或改变其一个或多个特性的信号。作为示例而非限制,通信介质包括有线介质,例如有线网络或直接线连接,以及无线介质,例如声学、rf、红外和其他无线介质。
67.再次参考图10,用于实现本文描述的各方面的各种实施例的示例环境1000包括计算机1002,计算机1002包括处理单元1004、系统存储器1006和系统总线1008。系统总线1008将包括但不限于系统存储器1006的系统组件耦合到处理单元1004。处理单元1004可以是各种商用处理器中的任何一种。双微处理器和其他多处理器体系结构也可以用作处理单元1004。
68.系统总线1008可以是几种类型的总线结构中的任何一种,这些总线结构还可以互连到存储器总线(具有或不具有存储器控制器)、外围总线以及使用各种商用总线体系结构中的任何一种的局部总线。系统存储器1006包括rom 1010和ram 1012。基本输入/输出系统(bios)可以存储在诸如rom、可擦除可编程只读存储器(eprom)、eeprom之类的非易失性存储器中,该bios包含诸如在启动期间帮助在计算机1002内的元件之间传送信息的基本例程。ram 1012还可以包括高速ram,例如用于缓存数据的静态ram。
69.计算机1002还包括内部硬盘驱动(hdd)1014(例如,eide、sata)、一个或多个外部存储设备1016(例如,磁软盘驱动(fdd)1016、记忆棒或闪存驱动读取器、存储器卡读取器等)和光盘驱动1020(例如,其可以从cd-rom盘、dvd、bd等读取或写入)。虽然内部hdd 1014被示为位于计算机1002内,但是内部hdd 1014也可以被配置成在合适的机箱(未示出)中供外部使用。附加地,虽然在环境1000中未示出,但是除了hdd 1014之外,或者代替hdd 1014,可以使用固态驱动(ssd)。hdd 1014、外部存储设备1016和光盘驱动1020可以分别通过hdd接口1024、外部存储接口1026和光盘驱动器接口1028连接到系统总线1008。用于外部驱动实现的接口1024可以包括通用串行总线(usb)和电气和电子工程师协会(ieee)1394接口技术中的至少一种或两种。其他外部驱动连接技术也在本文所描述的实施例的考虑范围内。
70.驱动及其相关联的计算机可读存储介质提供了数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机1002,驱动和存储介质以合适的数字格式容纳任何数据的存储。尽管以上对计算机可读存储介质的描述涉及各种类型的存储设备,但是本领域技术人员应该理解,计算机可读的其他类型的存储介质,无论是目前存在的还是将来开发的,
1054还可以包括部署在其上的无线接入点(ap),用于以无线模式与适配器1058通信。
78.当在wan网络环境中使用时,计算机1002可以包括调制解调器1060,或者可以经由用于在wan 1056上建立通信的其他手段,例如通过互联网,连接到wan 1056上的通信服务器。可以是内置或外置的有线或无线设备的调制解调器1060可以经由输入设备接口1044连接到系统总线1008。在网络化环境中,相对于计算机1002或其部分描绘的程序模块可以存储在远程存储器/存储设备1052中。将会理解,所示的网络连接是示例,并且可以使用在计算机之间建立通信链路的其他手段。
79.当在lan或wan网络环境中使用时,除了或代替如上所描述的外部存储设备1016,计算机1002可以访问云存储系统或其他基于网络的存储系统。通常,计算机1002与云存储系统之间的连接可以通过lan 1054或wan 1056建立,例如分别通过适配器1058或调制解调器1060。在将计算机1002连接到相关联的云存储系统时,外部存储接口1026可以在适配器1058和/或调制解调器1060的帮助下管理由云存储系统提供的存储,如同它管理其他类型的外部存储一样。例如,外部存储接口1026可以被配置为提供对云存储源的访问,就好像这些源被物理地连接到计算机1002一样。
80.计算机1002可以可操作与可操作地布置在无线通信中的任何无线设备或实体进行通信,例如,打印机、扫描仪、台式和/或便携式计算机、便携式数据助理、通信卫星、与无线可检测标签(例如,电话亭、报摊、货架等)相关联的任何装备或位置,以及电话。这可以包括无线保真(wi-fi)和无线技术。因此,通信可以是与传统网络一样的预定义结构,或者仅仅是至少两个设备之间的特定通信。
81.现在参考图11,示出了根据本说明书的计算环境1100的示意框图。系统1100包括一个或多个客户端1102(例如,计算机、智能手机、平板电脑、相机、pda)。客户端1102可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,客户端1102可以通过采用该规范来容纳计算机缓存文件和/或相关联的上下文信息。
82.系统1100还包括一个或多个服务器1104。服务器1104还可以是硬件或硬件结合软件(例如,线程、进程、计算设备)。例如,服务器1104可以容纳线程以通过采用本公开的各方面来执行媒体项的转换。客户端1102和服务器1104之间的一种可能的通信可以是适于在两个或更多个计算机进程之间传输的数据包的形式,其中数据包可以包括经编码的分析的头部空间和/或输入。例如,数据包可以包括计算机缓存文件和/或相关联的上下文信息。系统1100包括通信框架1106(例如,诸如互联网之类的全球通信网络),该通信框架1106可以用于促进客户端1102和服务器1104之间的通信。
83.可以经由有线(包括光纤)和/或无线技术来促进通信。客户端1102可操作地连接到一个或多个客户端数据存储1108,客户端数据存储1108可以用于存储客户端1102本地的信息(例如,计算机缓存文件和/或相关联的上下文信息)。类似地,服务器1104可操作地连接到可以用于存储服务器1104本地的信息的一个或多个服务器数据存储1110。
84.在一个示例性实现中,客户端1102可以向服务器1104传送经编码的文件(例如,经编码的媒体项目)。服务器1104可以存储文件、对文件进行解码或者将文件发送到另一个客户端1102。应当理解,根据本公开,客户端1102还可以将未压缩的文件传送到服务器1104,并且服务器1104可以压缩该文件和/或转换该文件。同样,服务器1104可以对信息进行编码,并经由通信框架1106将信息发送到一个或多个客户端1102。
85.本公开的所示方面也可以在分布式计算环境中实施,其中某些任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
86.以上描述包括各种实施例的非限制性示例。当然,不可能出于描述所公开的主题的目的来描述组件或方法的每一种可能的组合,并且本领域技术人员可以认识到各种实施例的进一步组合和置换是可能的。所公开的主题旨在包含所有这些落入所附权利要求的精神和范围内的变更、修改和变化。
87.关于由上述组件、设备、电路、系统等执行的各种功能,除非另有说明,用于描述这些组件的术语(包括对“装置”的引用)旨在也包括执行所描述的组件的特定功能(例如,功能等同物)的任何结构,即使在结构上不等同于所公开的结构。此外,虽然可能仅关于若干实现中的一个公开了所公开的主题的特定特征,但是这种特征可以与其他实现的一个或多个其他特征相结合,这对于任何给定的或特定的应用来说可以是期望的和有利的。
88.本文使用的术语“示例性的”和/或“说明性的”意在表示用作示例、实例或说明。为了避免疑问,本文公开的主题不限于这些示例。此外,本文中描述为“示例性”和/或“说明性”的任何方面或设计不一定被解释为比其他方面或设计更优选或更有利,也不意味着排除本领域技术人员已知的等同结构和技术。此外,就术语“包括”、“具有”、“包含”和其他类似词语在具体实施方式或权利要求中使用的程度而言,这些术语旨在是开放性的,类似于作为开放式过渡词的术语“包括”的方式,而不排除任何附加或其他元素。
89.本文使用的术语“或”旨在表示开放性的“或”,而不是排他性的“或”例如,短语“a或b”旨在包括a、b以及a和b两者的实例。附加地,在本技术和所附权利要求中使用的数量词“一”和“一个”通常应被解释为表示“一个或多个”,除非另有说明或从上下文中清楚地指向单数形式。
90.本文所使用的术语“集合”不包括空集,即其中没有元素的集合。因此,本主题公开中的“集合”包括一个或多个元素或实体。同样,本文使用的术语“组”是指一个或多个实体的集合。
91.本文提供的对本主题公开的图示实施例的描述,包括摘要中描述的内容,并不旨在穷举所公开的实施例或将所公开的实施例限制为所公开的精确形式。虽然出于说明的目的本文描述了具体的实施例和示例,但是如本领域技术人员可以认识到的,在这些实施例和示例的范围内考虑的各种修改是可能的。在这点上,虽然本文已经结合各种实施例和相应的附图描述了主题,但是在适用的情况下,应当理解,可以使用其他类似的实施例,或者可以对所描述的实施例进行修改和添加,用于执行所公开主题的相同、类似、替代或代替功能,而不背离本发明。因此,所公开的主题不应限于本文描述的任何单个实施例,而是应根据以下所附权利要求的广度和范围来解释。
92.通过以下条款的主体提供本发明的其他方面:
93.1.一种设备,包括:
94.存储器;以及
95.处理器,处理器可操作地耦合到存储器,并且包括计算机可执行组件,计算机可执行组件包括:
96.确定组件,确定组件根据与个人识别信息相关联的匿名化标准被确定为不被个人
识别数据元素所满足,来确定包括个人识别信息的数据的个人识别数据元素;以及
97.存储组件,存储组件将数据的非识别数据元素存储到非识别数据存储。
98.2.根据任一前述条款的设备,其中匿名化标准与数据元素相似性指数相关联。
99.3.根据任一前述条款的设备,其中匿名化标准与可能值的最大范围相关联。
100.4.根据任一前述条款的设备,还包括:
101.调整组件,调整组件舍入个人识别数据元素,其中舍入将个人识别数据元素转换成经转换的非识别数据元素,并且其中存储组件将经转换的非识别数据元素存储到非识别数据存储。
102.5.根据任一前述条款的设备,其中调整组件将出生年份舍入到出生的年代。
103.6.根据任一前述条款的设备,其中调整组件将收入金额舍入到最接近的万美元。
104.7.根据任一前述条款的设备,其中确定组件确定数据的大小,并且响应于数据的大小小于大小标准,确定所有数据包括个人识别数据元素。
105.8.根据任一前述条款的设备,其中调整组件基于数据元素的数据元素的类型来调整大小标准。
106.9.根据任一前述条款的设备,其中匿名化标准与个人识别数据元素的最小数量相关联。
107.10.根据任一前述条款的设备,其中个人识别数据元素的最小数量基于与数据相关联的行业类型。
108.11.根据任一前述条款的设备,其中个人识别数据元素的最小数量基于个人识别数据元素的敏感度水平。
109.12.根据任一前述条款的设备,其中个人识别数据元素的最小数量基于个人识别数据元素的可访问性水平。
110.13.根据任一前述条款的设备,其中调整组件在多维空间中对数据进行分块。
111.14.根据上述条款1的设备以及上述设备2-13的组合的任何集合。
112.15.一种计算机实现的方法,包括:
113.由包括处理器的设备根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素;以及
114.由设备将数据的非识别数据元素存储到非识别数据存储。
115.16.根据任一前述条款的计算机实现的方法,还包括:
116.确定数据的大小;以及
117.响应于数据的大小小于数据大小标准,将所有数据指定为包括个人识别数据元素。
118.17.根据任一前述条款的计算机实现的方法,还包括:
119.舍入个人识别数据元素,其中舍入将个人识别数据元素转换成经转换的非识别数据元素;以及
120.将经转换的非识别数据元素存储到非识别数据存储。
121.18.根据任一前述条款的计算机实现的方法,还包括:
122.在多维空间对数据进行分块。
123.19.根据上面条款15的计算机实现的方法,以及上面计算机实现的方法16-18的组合的任何集合。
124.20.一种非暂时性机器可读介质,包括可执行指令,当由处理器执行时,可执行指令促进操作的执行,包括:
125.根据与个人识别信息相关联的匿名化标准被确定为不被个人识别数据元素所满足,来确定表示一组交易的包括个人识别信息的数据的个人识别数据元素;以及
126.将数据的非识别数据元素存储到非识别数据存储。
127.21.根据任一前述条款的非暂时性机器可读介质,其中匿名化标准与个人识别数据元素的最小数量相关联。
128.22.根据任一前述条款的计算机程序产品,其中个人识别数据元素的最小数量基于与数据相关联的行业类型。
129.23.根据上面条款20的非暂时性机器可读介质,以及上面条款21-22的非暂时性机器可读介质的组合的任何集合。