用于增强工业系统或电功率系统的数据隐私的方法及系统与流程

文档序号:26637649发布日期:2021-09-14 23:51阅读:109来源:国知局
用于增强工业系统或电功率系统的数据隐私的方法及系统与流程

1.本发明涉及用于增强数据隐私的方法和系统。本发明特别涉及允许用于保护工业系统或电功率系统的数据的隐私的系统设定被设置、验证和/或自动调整的技术。


背景技术:

2.在用于控制发电和/或输电系统的传统工业自动化应用或系统(例如scada系统)中,从一个或多个装置收集数据、处理数据,并且决定和执行对应动作。几十年来,出于控制目的数据处理和决策处理是本地执行的,即,在制造单元的场所(premise)内(控制系统位于该处)或在电功率系统的控制中心内执行。随着互连装置的数量和收集的数据量的增加,在场所外部,例如在远程服务器或云基础设施中的数据的传输和处理正在引起注意。来自分布式感测装置的数据可以由边缘装置连续地收集并且被传输到云基础设施,以用于执行高级数据分析、控制基础设施的预测性维护等。
3.在由服务提供商操作的云中的计算资源中存储和处理由例如工业系统、电功率系统或另一系统的操作者拥有的数据可能引起关于隐私和安全风险的关注。适当隐私保护方法的选择和应用、遗留(legacy)数据库中敏感数据字段的识别、和/或当前安全设定符合数据所有者(即,工业系统或电功率系统的操作者)与云中计算资源的操作者之间商定的隐私策略的验证通常由人类专家完成。这是耗时且容易出错的。对于不同的设定,例如对于不同的系统或不同的隐私策略,重新使用由人类专家做出的选择是具有挑战性的。
4.hummen等人的“a cloud design for user

controlled storage and processing of sensor data”(2012年,在云计算技术和科学上的第ieee4号国际会议(cloudcom),第232

240页,ieee)公开了一种安全架构,其通过到达传感器网络的数据所有者对云存储和处理子系统实施端到端数据访问控制,以及实施直到服务级别的隔离。
5.m.henze等的“maintaining user control while storing and processing sensor data in the cloud”(国际网格日志和高性能计算5(4):97

112,2013)公开了一种将明确定义的入口点从传感器网络引入云中的技术,该技术实施端到端数据保护,应用加密和完整性保护,并准许数据访问。
6.us2015/0271151a1公开了一种用于分布式计算系统中的安全数据存储的机制,其中网关装置选择一组分析算法来确定被拦截的数据文件是否包括敏感数据。


技术实现要素:

7.本发明的目的是要提供用于增强数据隐私的改进技术。特别地,本发明的目的是要提供促进适当隐私保护设定的识别和/或验证的技术,该隐私保护设定确保数据在传输、处理和存储期间以确保与在数据源自的工业或电功率系统的操作者与执行数据处理和/或存储操作的计算资源的操作者之间商定的隐私策略高度一致的方式被处理。
8.提供了如独立权利要求中所述的方法、计算机可读指令代码和计算系统。从属权利要求限定了实施例。
9.根据本发明的一些实施例的方法和装置提供了用来基于给定隐私策略自动选择和实现用于数据处理的隐私保护技术的技术。
10.根据实施例,一种计算机实现的方法操作用于将数据包含设定配置用于工业系统或电功率系统的数据。工业系统或电功率系统包括至少一个网关,经由该至少一个网关将数据传输到计算资源,以用于处理和/或存储。计算资源可以是不受工业系统或电功率系统的操作者控制下的计算资源,并且可以位于云中。
11.该方法包括自动确定要应用于数据的一个或若干隐私保护技术,该一个或若干隐私保护技术基于对数据的数据隐私要求和由计算资源要对数据执行的处理操作来确定,以及自动使所确定的一个或若干隐私保护技术被应用。
12.通过该方法获得了各种效果。为了说明,该方法支持用于远程数据处理的隐私保护技术的自动实现。这允许更时间有效地确定最佳隐私设定,并减轻与人为错误相关联的风险。该方法还可以配置软件(例如,在网关和/或云中)以便以可能的最隐私保护的方式处理数据。该方法更易于实现,并且需要较少的人类专业知识以用于配置数据保护设定。
13.自动地使所确定的一个或若干隐私保护技术被应用可以包括自动地配置由计算资源执行的可执行指令代码,以及自动地提供用于网关的配置文件或由网关执行的可执行指令代码。
14.可以根据数据隐私要求是否允许数据由计算资源处理并且根据数据隐私要求是否要求数据在由计算资源处理期间保持加密,自动地确定一个或若干隐私保护技术。
15.可以根据由计算资源要对数据执行哪些数学运算来自动确定一个或若干隐私保护技术。
16.自动确定的一个或若干隐私保护技术可以包括可参数化技术。
17.自动确定一个或若干隐私保护技术可以包括基于对数据的隐私要求和由计算资源对数据执行的处理操作,自动确定可参数化技术的参数。
18.可以从一组预定义的技术中自动地确定(例如,自动地选择)一个或若干隐私保护技术。
19.可以从包括数据加密、数据混淆、数据匿名化、同态加密、多方计算、可信执行环境或由其组成的组中自动确定一个或若干隐私保护技术。
20.该方法还可以包括由处理装置接收人可读数据隐私策略;以及由处理装置生成数据隐私要求,以作为人可读数据隐私策略的至少一部分的机器可读表示。
21.生成数据隐私要求可包括自动量化遗留数据库的数据字段的敏感性。
22.自动量化敏感性可以包括:监测由应用对数据库进行的数据库查询;分析数据库查询,包括对数据库查询执行特征提取技术以提取特征集;以及通过相对于所提取的特征集处理数据库查询来识别数据库中的敏感数据字段。
23.该方法还可以包括接收关于要由计算资源对数据执行的处理操作的信息,关于处理操作的信息指定要应用于数据的一个或若干算法或数学函数,分析要由计算资源对数据执行的处理操作,生成处理操作的机器可读表示,以及使用处理操作的机器可读表示,以用于确定要应用的一个或若干隐私保护技术。
24.自动确定要应用的一个或若干隐私保护技术可以包括根据度量来评估候选技术。
25.该度量可以在根据处理操作处理数据时量化与数据隐私要求的符合性
(compliance)。
26.根据实施例,提供有一种用于将数据保护设定配置用于从网关传输到计算资源以用于处理和/或存储的工业系统或电功率系统的数据的处理装置。该处理装置包括接口和至少一个集成电路,该集成电路适于自动确定要应用于数据的一个或多个隐私保护技术。基于对数据的数据隐私要求和要由计算资源对数据执行的处理操作来确定一个或若干隐私保护技术,并且通过经由接口输出配置文件或其他控制信息来自动地使所确定的一个或若干隐私保护技术被应用。
27.通过该方法和处理装置获得了各种效果。为了说明,上述方法和处理装置允许根据工业或电功率系统的操作者来指定隐私策略,并且隐私策略将由根据实施例的方法和处理装置自动地实施。
28.隐私保护云解决方案的实现变得更快,因为它是自动化的而不是由人类专家执行的。
29.隐私保护解决方案跨源自不同应用领域和/或客户端的项目具有较高的可重用性,但是共享类似的隐私策略。
30.提供用于远程数据处理的全面隐私保护解决方案引起由例如在云中操作的远程数据处理提供者提供的隐私中的增加的信任。
31.根据本发明的一些实施例的方法和装置提供了用于识别和可选地量化遗留数据库中的数据的敏感性的技术。这可以使用数据库和其外部接口之间的模块来完成,该模块分析访问模式。该模块可以识别包含私有信息的关键或敏感数据。这可以通过监测数据库如何被访问和执行特征提取以确定指示数据片有多重要的特征列表来完成。可以通过监测数据库如何相对于所提取的特征被访问来识别关键数据。该过程的输出可以是或可以包括重要的和潜在敏感的数据的列表。该过程的输出可以另外包括敏感性度量。
32.该方法和模块可以在具有查询它的现有外部应用的运行数据库中使用。
33.确定潜在敏感数据可以基于应用于数据的小子集的试探法和基于所提取的特征对数据进行聚类的机器学习的组合。
34.一种识别具有多个数据字段的数据库中的敏感数据的计算机实现的方法包括:监测由应用进行的对数据库的数据库查询;分析数据库查询,其中分析数据库查询包括对若干数据库查询执行特征提取技术以提取特征集;以及通过相对于所提取的特征集处理数据库查询来识别数据库中的敏感数据字段。
35.一种处理装置可以包括:第一接口,其用于从应用接收数据库查询;第二接口,其用于将所接收的数据库查询输出到数据库,而无需由所述处理装置对所述数据库查询进行先前修改;以及至少一个计算资源或计算装置,其被配置成分析所述数据库查询,包括对所述若干数据库查询执行特征提取技术以提取特征集,并且通过相对于所提取的特征集处理所述数据库查询来识别所述数据库中的敏感数据字段。
36.该方法和处理装置提供了使用机器学习和统计技术来可靠地识别遗留数据库中的敏感数据的自动方式。首先,可以识别与数据库的访问模式相关的重要特征。基于这些特征,使用统计方法来分析访问模式以识别对所分析的应用关键的数据字段。因此,该方法和装置通过加速敏感数据的识别,改善了数据保护的过程。该方法和装置还通过减少对人工工作时间的需要而使得数据库迁移的过程更便宜。
37.敏感数据可以在遗留数据库中被高效地识别,从而允许操作者相应地行动,诸如改进数据保护。
38.根据本发明的一些实施例的方法和装置提供了用来自动和系统地评估由数据分析系统中的安全机制保护处理数据的程度以及执行所需隐私策略的程度的技术。所述方法和装置可以生成报告和警报和/或经由图形用户界面提供关于如何处理数据以及数据被发送和存储在哪里的信息。所述方法和装置还可以帮助防止冒暴露敏感信息的风险的操作。
39.所述方法和装置可以自动检查系统配置和实现是否符合隐私要求。隐私分析可以在几乎没有安全方面的专门知识的情况下执行。在操作中的系统上支持隐私分析。分析可以手动、自动或周期性地触发。由于系统中的触发事件(例如配置改变)也有可能自动触发分析,这保证了当前数据保护状态的新分析。可以向工业或电功率系统的操作员提供关于数据的保护水平的透明和实时信息。
40.一种在系统中执行数据隐私设定的自动分析的计算机实现的方法可以包括:自动记录在系统的操作期间对数据执行的操作以生成系统执行日志;分析隐私要求的机器可读表示、系统的机器可读系统模型和系统执行数据以验证隐私要求的机器可读表示是否被符合;以及经由接口输出分析步骤的结果。
41.一种用于执行系统中数据隐私设定的自动分析的处理装置,包括:接口,其用于接收系统执行日志;以及至少一个集成电路,其被配置成分析隐私要求的机器可读表示、系统的机器可读系统模型、以及系统执行数据,以验证隐私要求的机器可读表示是否被符合,并且输出分析的结果。
42.该方法和处理装置提供了一种评估系统数据受保护程度的自动方式。
43.根据实施例的计算机可读指令代码包括指令,当由处理装置的至少一个集成电路执行时,所述指令使处理装置执行实施例的方法。
44.通过根据本发明的方法和处理装置获得各种效果和优点。为了说明,当确定确保符合隐私要求的适当设定时,当评估系统是否以它符合期望的隐私要求的方式配置时,和/或当量化数据库中的数据的敏感性时,减少了对人类专家的参与的需要,其中对于所述数据库,不需要关于与数据字段相关联的隐私或敏感性要求的先验信息。
45.本文公开的技术可以应用于各种工业系统或电功率系统,例如电网、微电网、分布式能源、分布式或传输网,但不限于此。
附图说明
46.将参考在附图中示出的优选示范性实施例来更详细地解释本发明的主题,在附图中:图1是根据实施例的工业系统、计算资源和处理装置的框图表示。
47.图2是根据实施例的方法的流程图。
48.图3是根据实施例的方法的流程图。
49.图4是根据实施例的方法的流程图。
50.图5是根据实施例的处理装置的用户界面的示意图。
51.图6是根据实施例的系统的框图表示。
52.图7是根据实施例的方法的流程图。
53.图8是根据实施例的方法的流程图。
54.图9是根据实施例的方法的流程图。
55.图10示出了根据实施例的方法中的统计分析的结果。
56.图11是根据实施例的工业系统、计算资源和处理装置的框图表示。
57.图12是根据实施例的方法的流程图。
58.图13是根据实施例的方法的流程图。
具体实施例
59.将参考附图描述本发明的示范性实施例,其中相同或类似的参考符号表示相同或类似的元件。虽然将在诸如制造设施、电网、微电网、分布式能源、分布式或传输网的特定工业系统或电功率系统的上下文中描述一些实施例,但是实施例不限于此。
60.除非另外特别指出,否则实施例的特征可以彼此组合。
61.根据实施例,提供了便于安全相关设定的确定和验证的方法和装置。安全相关设定可以确定源自工业系统或电功率系统的数据在传输到远离工业系统或电功率系统的计算资源(例如,在云中)期间、在存储期间以及在计算资源处的处理期间如何被保护。安全相关设定可以包括可执行代码、配置文件、代码包装器(code wrapper)、或由工业系统或电功率系统的网关和/或由可以位于云中的计算资源使用的其他信息。安全相关设定可以使用或可以包括量化存储在遗留数据库中的数据的隐私级别的信息,该信息可以被自动确定。
62.将更详细地描述用于自动确定安全相关设定的技术。这些技术可以单独使用或彼此结合使用,以增强安全性,特别是对于源自工业系统或电功率系统的数据,同时减少对人类专家的参与的需要。
63.用于自动配置数据保护设定的方法和装置图1是系统10的框图表示。系统10包括具有多个数据源21

23和网关24的工业系统或电功率系统20、计算资源25和处理装置30。应当领会,网关24是可选的,并且可以省略。为了说明,数据源21

23中的一些或全部可以直接与云连接。
64.在工业系统或电功率系统20的操作中,在工业系统或电功率系统20的操作员的控制下,从自动化单元或其他区域的场所收集感测数据,该数据可以是由传感器收集的传感器数据,或者可以由合并单元提供。数据通过充当边缘装置的网关24被传送到云28以供进一步处理。进一步的处理可以包括远程监测、预测性维护、操作故障的分类、根本原因分析、过程优化,但不限于此。云28中的计算资源25具有一个或若干个集成电路26 (其可以包括专用集成电路、控制器、处理器或其组合)和存储装置27。
65.其数据被传送到云28的工业系统或电功率系统20的操作者与另一方就隐私策略达成协议,该隐私策略指定收集哪些数据、谁有权访问它、如何处理它、用于什么目的等。隐私策略通常是人可读的文档。隐私策略可以包括自定义隐私要求(custom privacy requirement)。自定义隐私要求可以识别敏感数据,和/或可以指定预期隐私的级别。
66.例如,隐私策略可定义雇员的个人信息(诸如家庭名称、电子邮件地址、id卡号、公司徽章号、指纹图像或其他个人信息)在所有阶段保持加密并且从不被处理。
67.隐私策略可以定义从定义类型的传感器(例如,加速计)和/或具有某些装置id (例如,定义范围内的装置id)的传感器收集的信号数据在所有阶段保持加密,并且仅允许
对加密数据进行处理。
68.隐私策略可以定义来自其他传感器(例如,任何温度传感器)和/或具有某些装置id (例如,在定义的范围内的装置id)的测量不表示敏感数据,其中数据在通过网络传输期间被加密,并且允许对未加密数据的处理。
69.根据本发明的实施例,隐私策略的机器可读版本与关于数据处理的信息(即,关于数学运算的信息)结合使用,其将对相应数据(例如,源自特定数据源21

23的数据)执行以自动配置网关24和/或计算资源25。
70.系统10包括处理装置30,其可以是在工业自动化系统或电功率系统的自动化系统的设计或配置阶段期间使用的装置。处理装置30可以操作以基于隐私策略的机器可读版本(以下将称为隐私要求)和关于必须在计算资源25处执行的数据处理操作的信息、配置文件、可执行代码、代码包装器和/或要经由接口32部署以配置网关24、计算资源25和/或其他实体的其他信息而自动地确定。
71.通常,处理装置30可以支持用于远程数据处理的隐私保护技术的自动实现。处理装置30可用于自动配置软件、配置文件或其它配置信息,以根据隐私要求处理用户数据。这使得根据隐私策略配置系统10的过程更容易,并且需要更少的专家参与,或者甚至不需要专家参与。可以自动地实施指定的隐私策略。
72.处理装置30可以具有接口32,其允许处理装置30将配置信息(例如可执行代码或配置文件)部署到网关24、计算资源25和/或其他涉及对源自数据源21

23的数据进行收集、传输、存储和/或处理的实体。接口32可以允许处理装置30读出信息(例如指定网关24和/或其他涉及对源自数据源21

23的数据进行收集、传输、存储和/或处理的实体的能力的信息),并且在确定最优隐私保护设定时使用该信息。
73.处理装置30可具有用户接口31。用户接口31可以是图形用户接口(gui)。用户接口31可以允许处理装置30接收人可读的隐私策略。处理装置30可以将人可读隐私策略转换成一组机器可读隐私要求。用户接口31或另一接口可以允许处理装置30接收关于数据处理操作的信息,所述数据处理操作将由计算资源25分别针对数据源21

23中的每一个对数据执行。
74.处理装置30具有一个或多个ic33,其可以实现为专用集成电路(asic)、处理器、微处理器、控制器、微控制器或其组合。一个或若干ic可以操作用于分别为数据源21

23中的每一个自动确定要应用于数据的一个或若干隐私保护技术。可以基于对数据的数据隐私要求和要由计算资源对数据执行的处理操作来确定一个或若干隐私保护技术。处理装置30然后可以使得所确定的一个或若干隐私保护技术由网关24、计算资源25和/或在数据的收集、传输、处理或存储中涉及的其他实体应用。
75.处理装置30具有存储介质34。存储介质34可以在其上存储一组或若干组预定的隐私保护技术。一组或若干组预定义的隐私保护技术可以包括数据加密、数据混淆、数据匿名化、同态加密、多方计算、可信执行环境,但不限于此。存储介质34可以存储用于可参数化隐私保护技术的允许的参数值或参数范围。
76.将参考图2至图5更详细地解释处理装置30的操作。
77.图2是根据实施例的方法40的流程图。方法40可以由处理装置30自动执行,该方法可以处理机器可读的隐私要求,该机器可读的隐私要求可以从商定的隐私策略和关于特定
数学运算的信息中获得,该特定数学运算将在每种类型的数据上执行,以分别确定在相应数据的传输、存储和/或处理期间将应用哪些隐私保护技术。
78.在步骤41处,可以选择以下隐私保护技术中的一个或组合,而不限于此:数据加密、数据混淆、数据匿名化、同态加密、多方计算、可信执行环境。在例如数据加密的可参数化技术的情况下,自动确定指定参数化的所需参数。这可以包括加密的类型(在预定义的选项集合中)。在这种实例中,候选解决方案可以包括例如“基于特定算法的数据混淆”或“使用paillier同态加密方案”。
79.这些解决方案相对于表示隐私要求的覆盖的数学度量来评估。这种测量也将被称为度量。该度量量化所选技术与机器可读隐私要求的一致性。
80.步骤41可以自动地确定隐私保护方法的选择的组合、它们的实现参数和代码,以及隐私要求的估计的覆盖(理想地,对于可行的解决方案为100%)。所支持的隐私保护方法池及其参数可以被预定义并存储在存储装置34中。
81.在步骤41中隐私保护技术的选择可以被公式化并实现为优化问题。对于技术的每个可能的组合,并且如果该技术是可参数化的,则根据该度量来评估它们可能的参数、在传输、存储和处理期间用于各种类型的数据的隐私保护技术的相应组合。
82.该度量可以量化与给定数据集的隐私要求的一致性程度。该度量可以指示由隐私保护技术的所选组合遵守的隐私要求的一小部分(fraction)。
83.优化的目标是使该度量最大化,该度量用作优化过程的目标函数。
84.可选地,可以指定多个目标。多个目标可以包括最大化量化与隐私要求的一致性的度量,并且另外最小化实现开销(overhead)。
85.如果系统模型和优化函数可以表示为线性函数,则可以使用传统的优化算法(例如cplex)来求解优化问题。备选地或附加地,可以使用机器学习技术,诸如人工神经网络(ann)或通用对抗神经网络(gan)。
86.备选地或附加地,在步骤41处对一个或若干隐私保护技术的确定可以基于试探法。每个数据处理操作可以被映射到支持它的一组隐私保护技术。最终可接受的解可以从支持每个操作的解集的交集中选择。
87.备选地或附加地,可以提供不符合隐私要求的100%但仍通过细化由处理装置30建议的部分解来支持人类专家识别最终设置的部分解。
88.在步骤42处,可以自动地将所选择的隐私保护技术集合应用于数据集。这可以包括代码包装器、配置文件、可执行代码或其他配置信息的自动生成。该步骤的输出可以直接部署用于预定云基础设施中的远程处理。例如,输出可以采取docker容器的形式。
89.方法40中使用的机器可读隐私要求可以作为输入由处理装置30接收。备选地,机器可读隐私要求可以作为自动配置安全相关设定的方法的一部分而生成,如将参考图3所解释的。
90.处理操作的机器可读表示(即由计算资源25应用于数据的数学函数和统计操作的机器可读表示)可以作为处理装置30的输入而被接收。备选地,处理操作的机器可读表示可以作为自动配置安全相关设定的一部分而被生成,如将参考图3所解释的。
91.图3是根据实施例的方法45的流程图。方法45可以由处理装置30自动执行。方法45可以包括将人可读隐私策略处理成机器可读隐私。方法45可包括处理用于计算资源25的源
代码以自动生成关于要对每种类型的数据执行的特定数学运算的信息。
92.在步骤46处,可以生成隐私要求的机器可读表示。对于由隐私策略保护并且将由计算资源25处理的一组收集的数据,隐私策略的文本可以由处理装置30或另一计算装置分析。在步骤46中,识别必要的信息,例如,哪个数据是敏感的、对数据的访问权限(即,谁可以访问数据以及一方可以访问数据(数据的部分)的程度)等。
93.为了说明,如果隐私策略定义具有在某个范围或范围集合内的装置id的加速度计数据必须在传输和处理期间被加密,则具有在相应(一个或多个)范围内的装置id的加速度计数据被确定为敏感数据,并且对应的保护要求“在传输期间被加密”并且“在处理期间被加密”。
94.在步骤46处,生成隐私要求的机器可读表示。步骤46可以包括应用于人可读隐私策略的自然语言处理技术。为了说明,在c.a.brodie、c

m.karat和j.karat的“an empirical study of natural language parsing of privacy policy rules using the sparcle policy workbench”soups中,2006年中公开的这些技术可被采用。
95.在步骤47处,分析需要在计算资源25处对数据远程执行的精确操作(例如,快速傅里叶变换、求幂等)并将其与所需隐私级别相关。在步骤47处,生成数据处理操作的机器可读表示(例如,数据/控制流图),其补充在步骤47处生成的机器可读隐私要求。
96.步骤47可包括分析包括源代码注释的源代码。数据处理操作的机器可读表示的生成可以基于静态代码分析技术。
97.随后,在步骤41和42处,机器可读隐私要求和数据处理操作的机器可读表示被用于自动确定和部署一个或若干隐私保护技术。步骤41和42可以如参考图2所述的那样实现。
98.应当领会,根据实施例的方法操作以便自动确定在相应数据的传输、存储和/或处理期间要应用哪些隐私保护技术。步骤46和47是可选的,并且如果隐私要求的正式模型(例如,隐私要求的机器可读表示)和所需的数据处理操作分别可用,则可以省略。
99.可以根据数据的源,分别对数据执行用于传输、存储和处理的隐私保护技术的确定。在确定过程中可以使用量化相应数据的敏感性的定量信息,诸如数值。
100.可以将分别用于源自各种数据源21

23的数据的传输、存储和处理的隐私保护技术的确定实现为优化问题。该确定可以涉及从一组预定义技术中选择一个或若干候选技术以用于存储、处理,并且如果需要的话,用于数据的传输,以及确定可参数化技术的参数。
101.可以确定度量以量化与隐私要求的一致性程度。该度量可以指示由相应的隐私保护技术和可参数化技术的参数满足的机器可读隐私要求的一小部分。
102.隐私保护技术的选择以及如果适用的话它们的参数化的选择可以在优化例程中被迭代地重复,以识别一组隐私保护技术,并且如果适用的话,识别一组最大化度量的它们的参数化,即,其确保与机器可读隐私要求的最大一致性。
103.图4是可以被执行以确定隐私保护技术以及如果适用的话确定其参数化的过程50的流程图。
104.在步骤51处,从预定义的技术集合中选择隐私保护候选技术。候选技术可以从由但不限于数据混淆/匿名化、差分隐私、同态加密、多方计算、在可信执行环境上的处理或其组合组成的组中选择。
105.在步骤52处,如果所选技术是可参数化的,则选择用于可参数化技术的参数值。可
以根据可以本地存储在处理装置30中的约束或者可以经由用户接口31设置的约束来进行选择。确定参数化例如可以包括确定加密的类型。
106.在步骤53处,计算量化与机器可读隐私要求的一致性的度量。该度量可以指示由所选择的隐私保护候选技术及其参数化所遵守的隐私要求的一小部分。
107.在步骤54处,确定是否满足终判准则(termination criterion)。终判准则可以包括与隐私策略的最大(100%)一致性,或者隐私要求的阈值比率(例如,至少99%)被满足。如果不满足终判准则,则该方法可以返回到步骤51,如果满足终判准则,则该方法可以进行到步骤55。
108.在步骤55处,可执行代码、配置文件、代码包装器或其他配置指令可以被自动生成,以根据所选择的隐私保护技术以及如果适用的话,根据它们的参数化,配置网关24和计算资源25以用于数据传输、处理和存储。
109.根据实施例的方法和处理装置可以操作以提供隐私监测器,该隐私监测器可视化系统中的数据流,呈现在系统中何处应用了哪些数据保护机制,并且呈现(按需)以之前/之后的方式处理的数据项。这种隐私监测器可以帮助工业系统或电功率系统20的操作员理解如何处理数据以保护隐私,从而增强他们对所应用的保护的信任。
110.图5是作为隐私监测器操作的用户接口31的示意性表示。隐私监测器可以显示工业系统或电功率系统20的组件、云中的计算资源25的组件以及其间的传输路径的示意性表示。
111.隐私监测器可以显示指定在传输期间如何保护数据项的信息57,以作为系统的图形表示中的覆盖或插入。
112.隐私监测器可以显示指定在云中的处理期间如何保护数据项的信息58,以作为系统的图形表示中的覆盖或插入。
113.信息57、58可以响应于用户输入而显示,或者可以自动地示出。信息57、58可以响应于隐私策略和/或系统配置的改变而被更新。
114.使用参考图1至图5解释的装置和方法获得了各种效果和优点,为了说明,提供了用于数据隐私保护的改进技术,即个人可识别信息以及由数据所有者定义为敏感的数据的保护。可以完全自动地或至少部分自动地执行适当的隐私保护方法的选择和应用。可以获得对敏感数据的改进保护,例如制造装置的操作模式和/或雇员的个人数据。
115.可以根据数据处理的类型和期望的隐私级别自动选择一个或多个隐私保护数据处理技术,并且可以自动部署该一个或多个隐私保护数据处理技术。该方法和装置允许以更时间有效的方式并且在较少涉及人类专家的情况下执行隐私保护技术的自动部署,这增强了可靠性并且促进了先前确定的隐私保护技术的组合的重用。分析和/或展开(roll out)隐私策略、选择隐私保护数据处理技术以及实现它们的过程是自动的,而几乎没有或最少的人为干预。
116.因此,其中云28中的计算资源25执行数据处理的隐私保护云解决方案的实现变得更快,因为它是自动的而不是由系统设计者手动执行的。隐私保护解决方案跨源自不同应用领域和/或数据所有者的项目具有较高的可重用性,但共享类似的隐私策略。为远程数据处理提供全面的隐私保护解决方案引起由远程计算资源25的操作者所提供的对数据保护中的增加的信任。
117.用于自动量化遗留数据库中的敏感性的方法和装置为了保护数字信息,例如,使用参考图1至图5描述的技术,必须知道数据库中的每个数据字段根据商定的隐私策略保护它有多敏感。特别期望提供帮助确定不包含指定敏感数据的元信息的传统数据库的敏感数据字段的工具。
118.为了说明,数据保护法和数据所有者需求可以回顾性地应用于遗留数据存储装置。因此,期望提供在有效识别遗留数据库中的敏感数据方面提供帮助的工具。这便于分别考虑数据库中的各个数据字段的敏感程度,向用户提供通知(诸如警告或建议的删除策略)和/或改进数据保护。
119.数据库的敏感或关键部分可以通过参考设计文档来识别。然而,由于这种信息需要一致的簿记(bookkeeping),因此这种信息可能不总是可用的。在不知道数据库中的数据字段的语义的情况下,服务提供商必须手动地检查数据库布局和数据值以确定它们是否需要附加的安全和隐私保护,这是耗时、易出错且昂贵的过程。
120.参考图6到图10,公开了解决传统技术的上述缺点的技术,并且该技术提供了使用机器学习和统计技术来可靠地识别这种传统数据库72中的敏感数据的自动方式。该技术不需要设计文档或数据库布局的先验知识。
121.在参考图6到图10描述的示范性实施例中,特征提取被应用于识别与数据库72的访问模式相关的重要特征。基于所提取的特征,使用统计方法(诸如无监督机器学习,可能与试探法和/或监督机器学习相结合)分析访问模式以识别对于所分析的应用71关键的数据字段。通过加速敏感数据的识别来改进数据保护的过程。通过减少人类专家的参与,可以更有效地执行数据库迁移。
122.参考图6,自动识别敏感数据字段的方法可以由处理装置备80执行,处理装置80可以是数据库72和其外部接口之间的线中的块(bump

in

the

wire)模块。处理装置80可以分析访问模式。处理装置80可以识别关键或敏感数据。
123.处理装置80可以具有接口81,其用来从应用71接收要分析的数据库查询。接口81可以是数据库的外部接口。处理装置80可以具有接口82,其用来将接收到的数据库查询中继到数据库72,而不修改接收到的数据库查询。处理装置80可以操作以存储数据库查询的副本以用于进一步分析,如将参考图7到图10更详细地描述的,处理装置80可以具有用于存储数据库查询的副本的存储装置84 (为了简单起见,下面将参考“数据库查询”,应当理解,处理装置80将接收到的数据库查询中继到数据库72上并存储副本)。处理装置80可具有一个或若干集成电路83,其可包括一个或若干asic、处理器、微处理器、控制器、微控制器或其组合。(一个或多个)ic 83可以以参考图7到图10更详细描述的方式处理数据库查询。
124.图7示出了识别关键或敏感数据的线中的块的模块80的实现。模块80包括特征提取模块84和敏感数据识别模块85。
125.特征提取模块84监测如何访问数据库72。特征提取模块84可以使用例如基于数据库查询的模式类似性的常规特征提取技术来执行特征提取。特征提取模块84可以提供指示数据片段有多重要的一组特征以作为特征提取的输出。为了说明,该组特征可以指示组合起来频繁访问的数据字段或数据字段组的访问模式。
126.敏感数据识别模块85可接收由特征提取模块84提取的特征集。敏感数据识别模块85可例如通过监测接收的数据库查询或通过存储的数据库查询的随后分析来确定相对于
提取的特征如何访问数据库72。敏感数据识别模块85可以生成并输出重要(例如,频繁访问)且被确定为敏感的数据的列表。敏感数据识别模块85可以通过向数据字段分配敏感性值来定量地评估数据字段的敏感性,如将在下面解释的。将参考图9和图10更详细地描述敏感数据识别模块85的操作。
127.处理装置80可以与具有查询它的现有外部应用71的运行数据库72相关联地使用。在一个使用情况下,数据库72的操作者可以激活特征提取模块84以学习外部数据库查询的重要特性。然后,数据库72的操作者可以激活敏感数据识别模块85以确定敏感数据,例如通过向数据字段分配敏感性值确定敏感数据。
128.备选地,在另一场景中,数据库72的操作者可以同时运行模块84、85两者,以迭代地改进敏感数据发现的准确性和完整性。为了说明,特征提取模块84可继续对数据库查询执行特征提取,同时敏感数据识别模块85同时处理由特征提取模块84在前一迭代中提取的所述组特征。敏感数据识别模块85可基于在一个或若干先前迭代循环中由特征提取模块84执行的特征提取,在每次迭代中更新分配给数据字段的敏感性值。
129.图8是根据实施例的方法90的流程图。方法90可由诸如线中的块的模块80之类的处理装置执行。
130.在步骤91处,执行数据库查询的特征提取。特征提取可以识别相对于其中应用71查询数据库72的方式而言重要的特征。为了说明,特征提取可以包括识别通常被联合查询的数据字段。
131.在步骤92处,执行敏感数据识别。可以使用特征提取的结果。为了说明,特征提取的结果可以用于在步骤92处执行的机器学习算法中,以识别相互关联的数据字段。
132.在步骤93处,敏感数据字段的识别结果可以用于增强数据隐私。这可以包括向数据所有者提供通知或其他信息,和/或提出用于改进确保数据隐私的设定的建议。
133.仅为了说明,使用本文公开的技术确定的数据字段的敏感性可在参考图1至图6解释的方法和装置中使用,以例如通过自动生成考虑数据如何敏感的配置文件、可执行代码等来确定数据保护设定。
134.步骤91处的特征提取可由特征提取模块84执行。特征提取模块84可分析由外部应用71在一段时间内向数据库72发出的查询,该时间段可以是可变的。特征提取模块84可以考虑数据库查询的可能因素。特征提取模块84可以不限于任何查询语言,并且其可以适于考虑正在使用的任何查询语言的因素。
135.例如,当适用于sql数据库时,模块可以考虑以下信息:

数据操作和选择类型(例如,select、update、insert)

数据控制(例如,grant,revoke)

数据表名

数据字段名

所述数据库查询是否包括join命令

通配符使用

查询发出的时间戳

查询完成的时间戳

字符串(用于模式匹配)

应用函数(例如,count、max、min)模块80被动地记录查询。可以存储关于取决于查询语言的因素的信息。特征提取模块84应用特征提取技术来识别以相互独立的方式指示查询的各种因素的特征,以便以高效和简洁的方式表示各个查询。特征提取模块84的操作可以被认为是识别在数据库查询中共同出现的因素。
136.特征提取可以使用通用算法,如主成分分析(pca)。
137.在步骤92处的敏感数据的确定可以使用试探法和无监督机器学习的组合来学习数据库中的数据字段的敏感性。可以可选地使用监督机器学习。试探法可例如通过使用预定义规则来应用以量化数据字段的小子集的敏感性。基于特征提取和试探法的结果,无监督机器学习可被应用来量化其它数据字段的敏感性。在步骤92处,可以可选地采用监督机器学习技术来调整一小组数据字段的敏感性值,并且提高敏感数据的识别的总体准确性。
138.图9是可用于确定数据库72的数据字段的敏感性的方法100的流程图。
139.在步骤101处,可以应用试探法来发现存储在数据库72中的小数据集中的敏感数据字段。作为示例,包含被认为是机密的传感器数据的数据(例如因为它们对于工业或电功率系统的安全操作是关键的)可以基于这样的试探法被识别为敏感数据。为了进一步说明,身份、姓名、联系信息、计费信息、访问时间戳、视频记录和照片都可以用于决定数据库中的特定记录或其相关数据字段是否可能包含敏感信息。
140.试探法的应用可以基于绝对规则。仅为了说明,

包含客户名称的所有记录都是敏感的

所有包含面部图片的记录都是敏感的

包含来自指示工业或电功率系统的安全操作状态的传感器的数据的所有记录是敏感的其它方法可以基于复合函数和/或阈值。这考虑到非敏感信息的组合可能导致敏感信息的出现。这可以涉及以加法或乘法方式组合与各种数据类型(诸如各种传感器或传感器id)相关联的基本敏感性值,以确定复合敏感性值。可以将复合敏感性值与阈值进行比较,以确定数据记录是敏感的还是不敏感的。
141.以下是说明性示例,应当理解,与传感器或装置id相关联的数据类型可以替换以下指示的示例性数据:

每列的基础敏感值可以是:5表示城市名;5表示学校名;9表示性别;7表示头发颜色;以及7表示眼睛颜色

可以将数据记录的复合函数计算为每个检测到的数据类型的基值之和

定义用于所述复合函数的值的阈值

包含城市名称、学校名称、性别、头发颜色、眼睛颜色的记录将具有值5 + 3 + 9 + 7 + 7 = 31。如果合成值高于阈值,则数据记录被认为是敏感信息。仅包含(城市名称、性别、头发颜色)的记录将具有5 + 9 + 7 = 21的一小部分,如果该合成值小于阈值,则将认为其是不敏感的。
142.也可以应用基于除加法以外的运算的其它复合函数,例如乘法算子。
143.在步骤101处的试探法可以应用于数据的相对小的子集,例如小于数据的10%或小于1%。
144.在步骤102处,可以应用无监督的机器学习。基于所提取的特征和通过试探法确定的敏感性值,无监督学习方法可以用于自动识别潜在敏感数据,而不需要人为干预。
145.在步骤102处,可以对所提取的特征执行无监督机器学习,以对数据库中的所有数据记录进行聚类。这生成了一组聚类,其可以包含具有已知敏感性值(使用试探法确定)或未知敏感性值的数据字段。
146.聚类的示范性结果在图10中示出。数据记录的聚类111、115沿着例如由pca确定的一个或若干坐标轴分离。每个聚类111、115包括数据记录113、117,对于其,通过应用试探法已知敏感性值。每个聚类111、115包括对于其敏感性值未知的数据记录112、116。
147.聚集在一起的数据记录具有类似的访问模式。因此,它们可以被分配相同或类似的敏感性值。例如,如果数据字段112或116的敏感性值是未知的,则其可以被设置为相同聚类111或115中的数据字段的所有可用敏感性值113或117的平均值或中值。
148.聚类过程是应用不可知的。聚类过程可以使用建立的算法,如k

均值聚类或混合模型。聚类也可以在更高的级别上执行,诸如整个表,而不是在单独的数据字段上执行。
149.关联规则学习可用于揭示多个数据字段之间的隐藏关系。例如,与具有高敏感性值的另一数据字段相关联的数据字段也可被分配相同的敏感性值。
150.通过结合无监督机器学习102应用试探法101,可以自动确定遗留数据库中的数据字段的敏感性。
151.可以执行使用监督学习的可选步骤103,以基于特征提取(步骤91)和试探法方式(步骤101)的结果来改进通过使用非监督机器学习102获得的敏感性值的准确度。可以根据无监督学习步骤102所实现的性能是否不令人满意来选择性地执行步骤103。在这种情况下,可以应用监督学习方法来为一些数据字段提供新的敏感性值。这需要在监督学习算法的训练阶段期间进行人为干预,以标记实际上包含敏感信息的数据库字段。与传统上需要识别每个单个传统数据库中的敏感字段(需要敏感值)的人工努力不同,预期人为参与相对较低(例如,通过标记来自有限数量的数据库的数据)并且仅进行几次。
152.在步骤103的监督机器学习算法可以包括遗传算法的应用,如神经网络和随机森林分类。来自遗留数据库的一组数据字段以及指示数据字段包含敏感信息还是非敏感信息的标签可以被提供作为监督机器学习的输入。在训练阶段期间,监督机器学习算法基于输入数据进行学习。这可以涉及调整人工神经网络中的节点权重或者在随机森林分类器中形成决策树,直到损失函数被最小化。损失函数可以指示经训练的模型的准确度。即,损失函数可以指示经训练的监督机器学习模型可以多好地将数据字段的分类预测为“敏感”或“不敏感”。一旦完成训练阶段,经训练的模型可用于对来自其它数据库的未标记数据字段进行分类。
153.除了其中数据字段被标记为敏感或非敏感的二元分类之外,可以使用敏感性值(其可以从较大的可能值的集合中选择,例如从可能值的范围中选择)来代替二元敏感性标记以用于执行监督机器学习。这允许经训练的模型处理数据库中的其他数据字段,并为它们产生量化的敏感性值。
154.如参考图6至图10所述实现的敏感数据识别提供了关于数据库中所有数据字段的敏感性的结构化信息。这样的信息允许数据库管理员和云计算机操作员在不同的动作上对他们的资源进行优先级排序,诸如加密数据、更新加密密钥、安全地删除不必要的数据、以
及通知客户。
155.关于数据库中所有数据字段的敏感性的结构化信息可以被体现在列表或其它结构化集合中,该列表或其它结构化集合包含每个数据字段或表以及指示数据是否敏感的二进制标志。可以执行阈值比较以将数据字段标记为敏感或不敏感。备选地,列表或其它结构化集合也可直接包含使用机器学习方法获得的每个数据字段的敏感性值。
156.参照图6到图10所解释的技术可以用于在图3的方法中的步骤46确定机器可读的隐私要求,为了说明,传统数据库中的敏感数据字段的识别可以用于自动确定哪些隐私保护技术将被应用于该数据。
157.用于过程数据的自动隐私分析的方法和装置可能期望自动地和系统地评估在云中操作的数据分析系统中的安全机制保护过程数据的良好程度,和/或实施商定的隐私策略的良好程度。即使当使用参考图1至6描述的技术自动确定用于配置网关24、计算资源25和/或收集、传输、存储和处理数据的其它装置的设定时,这也适用。为了说明,隐私策略可以改变和/或系统配置可以改变,使得有必要重新评估在传输、存储和处理期间数据是否被充分保护。
158.图11是系统120的框图表示。系统120包括具有多个数据源21

23和网关24的工业系统或电功率系统20、计算资源25和处理装置30。
159.在工业系统或电功率系统20的操作中,在工业系统或电功率系统20的操作员的控制下,从自动化单元或其他区域的场所收集感测数据,该数据可以是由传感器收集的传感器数据,或者可以由合并单元提供。数据通过充当边缘装置的网关24被传送到云28以供进一步处理。如上所述,数据也可以从数据源直接传输到云。进一步的处理可以包括远程监控、预测性维护、操作故障的分类、根本原因分析、过程优化,但不限于此。云28中的计算资源25具有一个或若干集成电路26 (其可以包括专用集成电路、控制器、处理器或其组合)和存储装置27。
160.其数据被传送到云28的工业系统或电功率系统20的操作者与操作计算资源25的服务提供商基于隐私策略达成一致,该隐私策略指定收集哪些数据、谁有权访问它、如何处理它、用于什么目的等,如参考图1所描述的。
161.隐私策略可以定义从定义类型的传感器(例如,加速计)和/或具有某些装置id (例如,定义范围内的装置id)的传感器收集的信号数据在所有阶段保持加密,并且仅允许对加密数据进行处理。
162.隐私策略可以定义来自其他传感器(例如,温度传感器)和/或具有某些装置id (例如,在定义的范围内的装置id)的测量不表示敏感数据,其中数据在通过网络传输期间被加密,并且允许对未加密数据的处理。
163.可以部署一个或多个日志记录代理(logging agent)121

123,以生成对数据执行的操作的日志。例如,日志可以包含时间戳、参数和/或数据操作的描述、访问哪些数据文件、在系统120的点之间传输的数据的熵和/或访问控制信息,但不限于此。日志记录代理121

123可以在执行时动态地收集该信息。以下将该信息统称为“执行日志”或“系统执行跟踪”。
164.根据本发明的实施例,隐私策略的机器可读版本与执行日志结合使用,以在隐私策略被遵守的进行中的操作期间验证和/或监测。
165.系统120包括处理装置30。处理装置30可用于自动分析隐私要求的机器可读表示、系统120的机器可读系统模型、以及由代理121和123记录的系统执行数据,以验证是否符合隐私要求的机器可读表示。处理装置30可以输出分析结果。
166.通常,处理装置30可以在系统120的正在进行的操作期间支持对系统120中使用的隐私保护技术的自动分析。参考图11至图13描述的处理装置30和方法可以操作用于自动生成报告和/或警报,提供关于如何处理数据以及数据被发送和存储在哪里的理解,并且帮助防止冒暴露敏感信息的风险的操作。
167.处理装置30可以具有接口32,其允许处理装置30从日志记录代理121和123接收系统执行日志。接口32可以允许处理装置30读出信息,例如指定网关24和/或涉及收集、传输、存储和/或处理源自数据源21

23的数据的其他实体的能力的信息,并且当确定最优隐私保护设定时使用该信息。
168.处理装置30可具有用户接口31。用户接口31可以是图形用户接口(gui)。用户接口31或另一接口可以允许处理装置30接收静态系统模型,例如系统120的机器可读配置描述。
169.处理装置30具有一个或多个ic33,其可以实现为专用集成电路(asic)、处理器、微处理器、控制器、微控制器或其组合。一个或多个ic可以操作以使用将参考图12和图13更详细描述的技术来自动分析旨在确保系统120中的数据隐私的设定。
170.处理装置30具有存储介质34。存储介质34可以在其上存储关于系统配置的信息和/或对于分析旨在确保系统120中的数据隐私的设定有用的其他信息。
171.将参考图12和13更详细地解释处理装置30的操作。
172.图12是根据实施例的方法130的流程图。可以使用日志记录代理121

123来执行步骤131。步骤132和133可以使用处理装置30来执行。
173.在步骤131处,执行动态系统监控。这可以包括至少生成执行日志,该执行日志指定在计算资源25处对数据执行哪些操作。执行日志可以定义访问哪些数据、如何存储数据(例如,加密或未加密)以及如何处理数据,包括关于数据在处理期间是否保持加密或者数据是否被解密以用于处理的信息。时间戳信息可以分别与涉及访问、存储和处理操作的信息相关联地被记录。
174.在步骤132处,可以执行自动验证或监测,其确定是否符合从隐私策略导出的隐私要求。为了说明,可处理系统执行日志以验证数据处理的目的、上下文、条件和义务是如隐私策略中所定义的。可以使用形式验证技术。可以计算数据保护指示符,诸如量化隐私要求的覆盖范围的度量(例如,指示所满足的隐私要求的一小部分的值)、硬件或软件组件的信任级别、和/或暴露风险级别等。
175.在系统120的实时操作期间,可以在正在进行的基础上执行该验证和/或监测。由此,支持对操作中的系统的隐私分析。分析可以手动、自动或周期性地触发。由于系统120中的某些事件,例如配置改变,也可以自动触发分析,这保证了当前数据保护状态的新分析。
176.在步骤133处,可以输出分析结果。输出分析结果可以包括输出指示所满足的隐私要求的一小部分、硬件或软件组件的信任级别和/或暴露风险级别的数值。备选地或附加地,可以提供用于更新系统120的安全设定的建议。可以使用例如参考图1至图6描述的技术来自动地部署建议。
177.步骤132处的分析可以基于机器可读隐私要求,该机器可读隐私要求可以从人可
读隐私策略生成。步骤132处的分析可以基于静态系统模型。静态系统模型可以是系统120的配置文件或其他配置描述。机器可读隐私要求和/或静态系统信息分析的确定可以包括在分析安全相关设定的方法中,如图13所示。
178.图13是根据实施例的方法140的流程图。方法140可以包括:步骤141:基于隐私策略生成机器可读隐私要求步骤142:基于系统实现生成静态系统规范/模型步骤143:在操作期间监测监视系统并生成系统执行日志步骤144:检查系统操作与机器可读隐私要求的符合性步骤145:例如向用户输出分析结果步骤146:可选地自动生成增强与机器可读隐私要求的一致性的系统更新下面描述可以在本发明的实施例中单独或组合使用的这些步骤的示范性实现。
179.在步骤141处,处理装置可以自动分析人可读隐私策略。可以提取相关信息。相关信息可以包括关于什么数据是敏感的、谁或什么过程可以访问它、授予什么访问权限、现有时间约束等的信息。在步骤142处,基于隐私策略生成隐私要求的机器可读表示(例如,采取线性临时逻辑属性的形式)。
180.生成隐私要求的机器可读表示的过程可以使用自然语言处理技术。示范性技术在例如c.a.brodie,c.a.

m.karat和j.karat的“an empirical study of natural language parsing of privacy policy rules using the sparcle policy workbench”在soups中,2006年中描述。
181.在步骤142处,可以生成作为系统的机器可读规范的系统模型。所生成的系统模型可以包括关于组件、操作、输入和输出数据以及数据流的信息。步骤142可以使用数据收集点、用于数据传输的装置、服务器和数据库的源代码和配置文件以作为输入,但不限于此。该步骤142提供了系统的机器可读模型。系统模型的提取可以基于静态代码分析技术。
182.在步骤143处,生成对数据执行的操作的日志。为了说明,系统执行日志可以包含时间戳、参数和数据操作的描述、访问哪些数据文件、在系统的点之间传输的数据的熵、访问控制信息。在执行时动态地收集该信息。
183.在步骤144处,处理机器可读隐私要求、系统模型和系统执行日志,以确定隐私策略是否被遵守。步骤144可以包括验证数据处理的目的、上下文、条件和义务是如隐私策略中所定义的。
184.形式验证技术可以用于步骤144。验证技术可以包括以下中描述的技术中的任何一个:m.kost和j.

c.freytag,codaspy,2012年,“privacy analysis using ontology”;v.cortier,d.galindo和m.turuani的、ieee european symposium on security and privacy, 2018中的“a formal analysis of the neuch
â
tel e

voting protocol”;f.knirsch,d.engel,c.neureiter,m.frinv和v.prisanan的international conference on information systems security and privacy (icissp), 2015中的“model

driven privacy assessment in the smart grid”。
185.在步骤144处,可以计算数据保护指示符。数据保护指示符可以包括隐私要求的覆盖,即,可以包括指示隐私要求被遵守的程度的数值。备选地或附加地,数据保护指示符可以包括硬件或软件组件的信任级别。备选地或附加地,数据保护指示符可以包括暴露风险
水平。
186.在步骤144处,可以检测隐私要求的违反的示例。可检测违反的示例包括但不限于以下:a. 不受限或不允许进入b. 不限制或不允许的操作c. 所需数据保护机制(例如加密)的抽象d. 不合格的数据保护(例如,使用未授权或反对的加密方案,使用短加密密钥)e. 例如安全机制的不足保护(例如密钥材料的非安全存储、散列密码的无盐存储)f. 有限保留的违反g. 对删除请求的非符合性h. 收集不必要的数据在步骤145处,可以输出在步骤144处执行的分析的结果。该结果可以经由用户接口31输出给用户,例如工业或电功率系统10的操作员。该结果可以经由数据保护用户接口以作为图形输出,该数据保护用户接口可以操作以执行以下中的任何一个或任何组合:提供报告、警报或其它通知;可视化系统中的数据流;呈现在系统中的何处应用每种数据保护机制(如参考图5所解释的);在处理之前和之后呈现(按需)数据项。该数据保护接口还可操作以接收输入,该输入可调整某些隐私要求(例如,准许特定用户或组件临时访问数据的某些部分)。
187.在步骤146处,如果总体隐私级别或特定度量不令人满意(即,度量低于预定义阈值),则可以自动生成并建议附加隐私技术、其参数、代码以及数据保护度量的结果新值。对应于该组隐私保护技术的代码包装器、配置文件等可以可选地自动生成和部署。这可以使用参考图1到图6描述的技术来完成。参考图11到13公开的技术可以用于验证安全相关的初始系统设定和/或随后更新系统设定。
188.方法130的步骤132、133和方法140的步骤144、145可以以各种方式触发。在一些实施方式中,这些步骤可以在循环的,例如周期性的基础上执行。在一定时间之后可以重复系统设定的分析。方法130、140的一些步骤(例如机器可读隐私要求的生成)不需要在方法的每次重复中执行。例如,如果隐私策略保持不变,则可以省略步骤141。
189.当修改隐私策略时或当系统配置改变时,可以触发方法130的步骤132、133和方法140的步骤141、144、145。示范性场景包括访问权限的修改、数据处理操作的修改、硬件改变或软件更新。
190.当实现方法140的步骤143和144时,基于区块链的数据结构可被用于实施云28中的资源的操作者的责任(accountability)。为了说明,为了在系统执行期间实施责任,云28中的每个组件可担当使用区块链实现的共享日志的写入器。每当云28中的单个组件对敏感数据执行计算时,该事件可被记录为新块的一部分。如果可以写入同一日志的所有其它组件(例如,超过一半)的法定数量验证该计算符合隐私策略,则可以接受该新块。否则,可以使用警报。这可以经由参考步骤145描述的接口来完成。如果隐私策略存在违反,则区块链日志可用于检查由每个组件执行的所有计算以标识隐私策略违反的责任。所有方(即,数据所有者、云平台28的操作者和云28中的个体资源25的提供者)可以使用智能合同来解决隐
私事件。
191.参考图11至图13描述的技术相对于给定隐私策略和规章来自动化数据分析应用的隐私分析。减少或甚至消除了分析中的人参与。执行自动验证和/或监测以确定系统配置和实现是否符合隐私要求。可以触发隐私分析,而不需要工程师具有执行安全的专门技能。
192.在系统的操作中支持对系统的隐私分析。分析可以手动、自动或周期性地触发。由于系统中的事件,例如配置改变,可以自动触发分析,这保证了对当前数据保护状态的新分析。
193.可以向诸如工业或电功率系统10的操作员的数据所有者提供关于其数据的保护级别的透明和实况信息。可以向数据所有者提供在系统操作之前和同时的隐私级别的综合评估。这增加了数据所有者对所采取的用于保护其数据隐私的措施的信任。
194.该技术还允许数据所有者保持对其数据的控制,因为他们可以连续地监测保护级别并且可能进行调整以调整保护级别。这导致了对隐私和数据保护策略的更快的协定。
195.基于云的解决方案被给予更安全,因为提供了敏感数据的暴露的潜在风险的早期检测。可以减少或消除数据破坏和敏感信息泄漏的风险。
196.已经参照附图描述了示范性实施例。公开了本发明的以下示范性方面和实施例:1.一种将数据保护设定配置用于工业系统或电功率系统的数据的计算机实现的方法,所述工业系统或所述电功率系统包括至少一个网关,所述数据经由所述至少一个网关被传输到计算资源,以用于处理和/或存储,所述方法包括:由处理装置自动确定要应用于所述数据的一个或若干隐私保护技术,所述一个或若干隐私保护技术基于对所述数据的数据隐私要求和要由所述计算资源对所述数据执行的处理操作来确定;由所述处理装置自动地使得所确定的一个或若干隐私保护技术被应用。
197.2.如方面1所述的计算机实现的方法,其中,自动地使所确定的一个或若干隐私保护技术被应用包括自动地配置由所述计算资源执行的可执行指令代码。
198.3.如方面1或方面2所述的计算机实现的方法,其中,自动地使所确定的一个或多个隐私保护技术被应用包括自动地配置由所述网关执行的可执行指令代码4.如前述方面中的任一项所述的计算机实现的方法,其中,所述一个或若干隐私保护技术由所述处理装置取决于所述数据隐私要求是否允许所述数据由所述计算资源处理并且取决于所述数据隐私要求是否要求所述数据在由所述计算资源处理期间保持加密而自动确定。
199.5.如前述方面中任一项所述的计算机实现的方法,其中,所述一个或若干隐私保护技术由所述处理装置根据所述数据隐私要求是否要求在所述网关与所述计算资源之间的传输期间对所述数据进行加密来自动确定。
200.6.如前述方面中任一项所述的计算机实现的方法,其中,所述一个或若干隐私保护技术由所述处理装置根据所述计算资源要对所述数据执行哪些数学运算来自动确定。
201.7.如前述方面中任一项的计算机实现的方法,其中,自动确定的一个或若干隐私保护技术包括可参数化技术。
202.8.如方面7的计算机实现的方法,其中,自动确定一个或若干隐私保护技术包括基于对数据的隐私要求和由计算资源对数据执行的处理操作,自动确定可参数化技术的参
数。
203.9.如前述方面中任一项的计算机实现的方法,其中,所述一个或若干隐私保护技术是从预定义技术的集合中自动确定的。
204.10.如前述方面中任一项的计算机实现的方法,其中,该组预定义技术包括用于该组预定义技术中所包括的可参数化技术的离散组或参数范围。
205.11.如前述方面中任一项所述的计算机实现的方法,其中,所述一个或若干隐私保护技术由所述处理装置从包括数据加密、数据混淆、数据匿名化、同态加密、多方计算、可信执行环境的组中自动确定。
206.12.如前述方面中任一项的计算机实现的方法,其中,自动地使所确定的一个或若干隐私保护技术被应用包括自动地生成用于网关的配置文件和/或自动地生成用于计算资源的配置文件。
207.13.如前述方面中任一项所述的计算机实现的方法,其中,自动地使所确定的一个或若干隐私保护技术被应用包括自动地生成可执行代码和/或代码包装器。
208.14.如前述方面中任一项的计算机实现的方法,其中,自动地使所确定的一个或若干隐私保护技术被应用包括自动地将可执行代码和/或配置文件部署到网关和/或计算资源。
209.15.如前述方面中任一项所述的计算机实现的方法,还包括:由所述处理装置接收人可读数据隐私策略;以及由所述处理装置生成所述数据隐私要求以作为所述人可读数据隐私策略的至少一部分的机器可读表示。
210.16.如方面15所述的计算机实现的方法,其中,生成所述数据隐私要求包括由处理装置监测由应用进行的对所述数据库的数据库查询;由所述处理装置分析所述数据库查询,其中分析所述数据库查询包括对所述若干数据库查询执行特征提取技术以提取特征集;以及由所述处理装置通过相对于所提取的特征集处理所述数据库查询来识别所述数据库中的敏感数据字段。
211.17.如方面16所述的计算机实现的方法,包括应用自然语言处理以生成所述数据隐私要求以作为所述人可读数据隐私策略的至少一部分的所述机器可读表示。
212.18.如前述方面中任一项所述的计算机实现的方法,还包括:由所述处理装置接收关于要由所述计算资源对所述数据执行的所述处理操作的信息,关于所述处理操作的所述信息指定要应用于所述数据的一个或若干算法或数学函数;由所述处理装置分析将由所述计算资源对所述数据执行的所述处理操作;由所述处理装置生成所述处理操作的机器可读表示;以及由所述处理装置使用所述处理操作的所述机器可读表示来确定要应用的所述一个或若干隐私保护技术。
213.19.如方面18所述的计算机实现的方法,其中,生成所述处理操作的所述机器可读表示包括执行静态代码分析。
214.20.如方面18或方面19所述的计算机实现的方法,其中,生成所述处理操作的所述
机器可读表示包括分析源代码注释。
215.21.如前述方面中任一项的计算机实现的方法,其中,自动确定要应用的一个或若干隐私保护技术包括根据度量评估候选技术。
216.22.如方面21所述的计算机实现的方法,其中,根据度量评估候选技术包括由所述处理装置分析所述隐私要求、所述系统的机器可读系统模型以及系统执行数据,以验证所述隐私要求的所述机器可读表示是否符合所述候选技术。
217.23.如方面21或方面22所述的计算机实现的方法,其中,当根据所述处理操作处理所述数据时,所述度量量化对所述数据隐私要求的符合性。
218.24.如方面21

23中任一项的计算机实现的方法,其中,自动确定要应用的一个或若干隐私保护技术包括求解优化问题以识别导致度量具有最大或最小值的一个或若干隐私保护技术。
219.25.如前述方面中的任一项所述的计算机实现的方法,还包括由所述处理装置输出基于所确定的一个或若干隐私保护技术增强的所述工业系统或所述电功率系统的数据源的可视化。
220.26.如方面25所述的计算机实现的方法,进一步包括输出自动确定的一个或若干隐私保护技术的数值,该数值量化自动确定的一个或若干隐私保护技术与数据隐私要求的一致性。
221.27.如前述方面中任一项所述的计算机实现的方法,其中,所述数据是包括来自所述工业系统或所述电功率系统的若干数据源的数据项的数据集,并且其中,自动确定所述一种或若干隐私保护技术包括自动确定针对所述数据项中的每个数据项的隐私保护技术。
222.28.如方面27的计算机实现的方法,其中,所述数据源包括工业系统或电功率系统的传感器。
223.29.如方面27或方面28所述的计算机实现的方法,其中,所述数据源包括至少一个合并单元。
224.30.一种包括指令的计算机可读指令代码,所述指令在由处理装置的至少一个集成电路执行时,使得所述处理装置执行前述方面中任一项所述的方法。
225.31.一种用于将数据保护设定配置从网关传输到计算资源以用于处理和/或存储的工业系统或电功率系统的数据的处理装置,所述处理装置包括:接口;以及至少一个集成电路,其适于:自动地确定要应用于所述数据的一个或若干隐私保护技术,所述一个或若干隐私保护技术基于对所述数据的数据隐私要求和要由所述计算资源对所述数据执行的处理操作来确定;通过经由所述接口输出配置文件或其他控制信息,自动地使所确定的一个或若干隐私保护技术被应用。
226.32.如方面31所述的处理装置,其中,所述至少一个集成电路被配置为执行方面1至29中任一项所述的方法。
227.33.一种系统,包括:工业系统或电功率系统,其具有多个数据源和用于将数据传输到计算资源的网
关;与工业系统或电功率系统分离的计算资源,所述计算资源适于存储和/或处理数据;以及用于配置数据保护设定的处理装置,其包括至少一个集成电路,所述至少一个集成电路适于:自动地确定要应用于所述数据的一个或若干隐私保护技术,所述一个或若干隐私保护技术基于对所述数据的数据隐私要求和要由所述计算资源对所述数据执行的处理操作来确定;自动地使所确定的一个或若干隐私保护技术被所述计算资源和/或所述网关应用。
228.34.一种识别数据库中的敏感数据的计算机实现的方法,所述数据库具有多个数据字段,所述计算机实现的方法包括:由处理装置监测由应用进行的对所述数据库的数据库查询;由所述处理装置分析所述数据库查询,其中分析所述数据库查询包括对所述若干数据库查询执行特征提取技术以提取特征集;以及由所述处理装置通过相对于所提取的特征集处理所述数据库查询来识别所述数据库中的敏感数据字段。
229.35.如方面34所述的计算机实现的方法,其中,所述处理装置是所述应用和所述数据库之间的线中的块的模块。
230.36.如方面34或方面35所述的计算机实现的方法,其中,所述处理装置从所述应用接收所述数据库查询,并且将所述数据库查询中继到所述应用。
231.37.如方面34

36中任一项所述的计算机实现的方法,还包括输出关于敏感数据字段的信息。
232.38.如方面34

37中任一项所述的计算机实现的方法,还包括使用识别敏感数据字段的结果来增强数据保护。
233.39.如方面38所述的计算机实现的方法,其中,增强数据保护包括执行数据加密、修改现有数据加密、删除数据和/或输出通知。
234.40.如方面34

39中任一项所述的计算机实现的方法,其中,识别敏感数据字段包括使用机器学习技术来识别数据库中的敏感数据字段。
235.41.如方面40所述的计算机实现的方法,其中,所述机器学习技术包括基于所提取的特征执行的无监督机器学习技术。
236.42.如方面40或方面41所述的计算机实现的方法,其中,所述机器学习技术对存储在所述数据库中的数据记录进行聚类。
237.43.如方面40

42中任一项所述的计算机实现的方法,其中,机器学习技术基于所提取的特征集合对存储在数据库中的数据记录进行聚类,以生成具有类似的数据库访问模式的聚类。
238.44.如方面40

44中任一项所述的计算机实现的方法,其中,所述机器学习技术揭示多个数据字段之间的关系。
239.45.如方面34

44中的任一项的计算机实现的方法,其中,识别敏感数据字段包括
在应用机器学习技术之前将启发法应用于数据库中的数据记录的子集。
240.46.如方面45所述的计算机实现的方法,其中,应用所述试探法包括向所述数据记录的数据字段分配敏感性值。
241.47.如方面45或方面46所述的计算机实现的方法,其中,应用所述试探法包括基于所述敏感性值的复合函数来将数据记录识别为敏感的或不敏感的。
242.48.如方面40

47中任一项所述的计算机实现的方法,其中,识别敏感数据字段包括基于由所述机器学习技术生成的数据记录的聚类和通过所述试探法先前分配给所述聚类中的数据字段的敏感度值来识别敏感数据字段。
243.49.如方面40

48中任一项所述的计算机实现的方法,其中,识别敏感数据字段还包括执行监督学习技术。
244.50.如方面49所述的计算机实现的方法,其中,所述监督式学习技术包括执行人工神经网络。
245.51.如方面34

50中任一项所述的计算机实现的方法,其中,所述数据库是遗留数据库。
246.52.如方面34

51中任一项所述的计算机实现的方法,其中,所述数据库存储工业系统或电功率系统的数据。
247.53.如方面34

52中任一项所述的计算机实现的方法,其中,工业系统或电功率系统的数据包括传感器数据。
248.54.一种包括指令的计算机可读指令代码,所述指令在由处理装置的至少一个集成电路执行时,使得所述处理装置执行前述方面中任一项所述的方法。
249.55.一种处理装置,包括第一接口,其用于从应用接收数据库查询;第二接口,其用于将所接收的数据库查询输出到数据库,而无需由所述处理装置对所述数据库查询的先前修改;至少一个集成电路,其被配置成:分析所述数据库查询,包括对所述若干数据库查询执行特征提取技术以提取特征集;以及通过相对于所提取的特征集处理数据库查询来识别所述数据库中的敏感数据字段。
250.56.如方面55所述的处理装置,其中,所述处理装置是线中的块的模块。
251.57.如方面55或方面56所述的处理装置,其中,所述至少一个集成电路被配置为执行方面34

53中任一项所述的方法。
252.58.一种系统,包括:工业系统或电功率系统,其包括执行应用的计算系统;数据库;以及处理装置,包括第一接口,其用于从应用接收数据库查询;第二接口,其用于将所接收的数据库查询输出到数据库,而无需由所述处理装置对所述数据库查询的先前修改;
至少一个集成电路,其被配置成:分析所述数据库查询,包括对所述若干数据库查询执行特征提取技术以提取特征集;以及通过相对于所提取的特征集处理数据库查询来识别所述数据库中的敏感数据字段。
253.59.如方面58所述的系统,其中,所述处理装置被配置为执行方面34

53中任一项所述的方法。
254.60.一种执行系统中的数据隐私设定的自动分析的计算机实现的方法,所述数据隐私设定特别是用于工业系统数据或电功率系统数据的数据隐私设定,所述方法包括:自动记录在系统操作期间对数据执行的操作以生成系统执行日志;由处理装置分析隐私要求的机器可读表示、系统的机器可读系统模型以及系统执行数据,以验证隐私要求的机器可读表示是否被符合;以及经由接口输出所述分析步骤的结果。
255.61.如方面60上述的计算机实现的方法,还包括:由所述处理装置从人可读隐私策略生成所述隐私要求的机器可读表示。
256.62.如方面61上述的计算机实现的方法,包括应用自然语言处理以从人类可读隐私策略生成隐私要求的机器可读表示。
257.63.如方面60

62中任一项所述的计算机实现的方法,还包括:由所述处理装置生成所述系统的所述机器可读系统模型。
258.64.如方面63所述的计算机实现的方法,其中,基于数据收集点的源代码和/或配置文件生成系统的机器可读系统模型。
259.65.如方面63或方面64所述的计算机实现的方法,其中,基于用于数据传输的装置的源代码和/或配置文件来生成所述系统的机器可读系统模型。
260.66.如方面63

65中任一项所述的计算机实现的方法,其中,基于服务器的源代码和/或配置文件来生成所述系统的机器可读系统模型。
261.67.如方面63

66中任一项所述的计算机实现的方法,其中,基于数据库的源代码和/或配置文件来生成所述系统的机器可读系统模型。
262.68.如方面60

67中任一项的计算机实现的方法,其中,所述系统执行日志包括以下各项中的至少一项:时间戳、参数,以及数据操作的描述,关于哪些数据文件被访问的信息,关于在系统的点之间传输的数据的熵的信息,访问控制信息。
263.69.如方面60

68中任一项所述的计算机实现的方法,其中,分析隐私要求的机器可读表示、系统的机器可读系统模型以及系统执行数据包括计算数据保护指示符。
264.70.如方面60

69中任一项所述的计算机实现的方法,其中,所述数据保护指示符包括下列中的一个或若干对隐私要求的覆盖,硬件的信任级别,
软件组件的信任级别,暴露风险水平。
265.71.如方面60

70中任一项所述的计算机实现的方法,其中,分析隐私要求的机器可读表示、系统的机器可读系统模型以及系统执行数据包括检测对隐私要求的违反。
266.72.如方面60

71中任一项所述的计算机实现的方法,其中,输出分析步骤的结果包括经由用户接口输出结果。
267.73.如方面60

72中任一项所述的计算机实现的方法,其中,输出分析步骤的结果包括经由图形用户界面输出结果。
268.74.如方面72或方面73所述的计算机实现的方法,其中,所述用户界面提供报告和警报。
269.75.如方面72

74中任一项所述的计算机实现的方法,其中,用户界面可视化系统中的数据流,包括关于在系统的各个位置中应用的数据保护机制的信息。
270.76.如方面72

75中任一项所述的计算机实现的方法,还包括经由用户接口接收调整隐私设定的用户输入。
271.77.如方面60

76中任一项所述的计算机实现的方法,其中,分析步骤包括计算量化系统模型和系统执行数据与隐私要求的符合性的度量。
272.78.如方面60

77中任一项所述的计算机实现的方法,还包括自动确定对改进所述度量的增强隐私设定的推荐。
273.79.如方面78所述的计算机实施的方法,进一步包括经由用户接口输出对所述增强型隐私设定的所述推荐。
274.80.如方面60

79中任一项所述的计算机实现的方法,还包括自动部署增强隐私设定。
275.81.如方面80所述的计算机实现的方法,其中,自动部署所述增强的隐私设定包括自动生成可执行代码和/或代码包装器。
276.82.如方面60

81中任一项所述的计算机实现的方法,其中,循环地触发所述分析步骤。
277.83.如方面60

82中任一项所述的计算机实现的方法,其中,周期性地触发所述分析步骤。
278.84.如方面60

83中任一项所述的计算机实现的方法,其中,响应于隐私策略的改变和/或响应于系统改变来触发分析步骤。
279.85.如方面60

84中任一项所述的计算机实现的方法,其中,响应于隐私策略的改变和/或响应于系统改变来触发分析步骤。
280.86.如方面60

85中任一项所述的计算机实现的方法,其中,所述记录步骤和/或所述分析步骤利用基于区块链的数据结构。
281.87.如方面60

86中任一项所述的计算机实现的方法,其中,所述基于区块链的数据结构实施服务提供商的责任。
282.88.如方面86或87上述的计算机实现的方法,其中,记录步骤包括由对数据执行操作的组件充当使用块链实现的共享日志的写入器。
283.89.如方面86

88中任一项所述的计算机实现的方法,包括
响应于对敏感数据执行的计算操作,记录所述计算操作已被执行为所述共享日志的新块的一部分的事实;如果法定数量的一组组件验证所述计算符合所述隐私要求,则接受所述新块;和/或如果所述一组组件的法定人数未验证所述计算符合所述隐私要求(即,当所述验证的结果是否定的时),则输出警告、警告或其它信息。
284.90.一种包括指令的计算机可读指令代码,所述指令在由处理装置的至少一个集成电路执行时,使得所述至少一个集成电路执行根据方面60

89中任一项所述的方法。
285.91.一种用于执行系统中的数据隐私设定的自动分析的处理装置,所述数据隐私设定特别是用于工业系统数据或电功率系统数据的数据隐私设定,所述处理装置包括:接口,其用于接收系统执行日志;至少一个集成电路,被配置成分析隐私要求的机器可读表示、所述系统的机器可读系统模型以及所述系统执行数据,以验证所述隐私要求的机器可读表示是否被符合;以及输出分析结果。
286.92.如方面91所述的处理装置,其中,所述处理在适于执行根据方面60

89中任一项所述的方法。
287.93.一种系统,包括工业系统或电功率系统,其包括执行应用的计算系统;以及方面91或方面92所述的处理装置。
288.本发明的实施例可以用于相对于隐私要求确定、验证和/或调整系统设定。
289.虽然在附图和前面的描述中详细描述了本发明,但是这样的描述应当被认为是说明性的或示范性的而非限制性的。通过研究附图、公开内容和所附权利要求,由本领域熟练的并实践所要求保护的发明的技术人员可以理解和实现对所公开的实施例的变型。在权利要求中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。仅仅在互不相同的权利要求中记载某些元件或步骤的事实并不表示这些元件或步骤的组合不能有利地使用,特别地,除了实际的权利要求相关性之外,任何进一步有意义的权利要求组合应被认为是公开的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1