数据管控方法、装置、设备、计算机存储介质及系统与流程

文档序号:17604078发布日期:2019-05-07 20:35阅读:217来源:国知局
数据管控方法、装置、设备、计算机存储介质及系统与流程

本发明属于数据安全技术领域,尤其涉及一种数据管控方法、装置、设备、计算机存储介质及系统。



背景技术:

目前,大数据平台主要通过“接口机-代理服务-大数据平台组件”方式对数据进行管控。

接口机是公用平台,运维人员仅需登录接口机的授权账号即可以对大数据平台进行运维管理,并且各个授权账号的权限一般相同。但是,可能存在多人共享同一授权账号的情况,导致难以确认实施运维管理操作的运维人员的具体身份,使得无法对运维人员进行追责。

另外,当从大数据平台下载/导出数据时,无法知晓在数据落到接口机之后的流转情况,如果数据被直接下载到用户终端上,极有可能造成数据泄漏的风险。并且,由于接口机通过代理服务的方式连接大数据平台组件,也无法在代理服务调用操作命令之前对运维管理操作进行实时管控,同样会带来安全风险。



技术实现要素:

本发明实施例提供一种数据管控方法、装置、设备、计算机存储介质及系统,能够对大数据平台的数据进行管控,提高数据的安全性。

一方面,本发明实施例提供一种数据管控方法,包括:

在存储数据时,确定待存储的数据对应的敏感数据信息,并存储所述待存储的数据及其对应的敏感数据信息;

在读取数据时,获取敏感数据读取规则、待读取的数据和所述待读取的数据对应的敏感数据信息,并根据所述敏感数据读取规则、所述待读取的数据及其对应的敏感数据信息,生成输出数据。

进一步地,确定待存储的数据对应的敏感数据信息前,还包括:

若所述待存储的数据大于预设数据量,对所述待存储的数据进行分布式计算处理。

进一步地,确定待存储的数据对应的敏感数据信息包括:

若所述待存储的数据为结构化数据,利用结构化数据分析组件确定所述待存储的数据对应的敏感数据信息;

若所述待存储的数据为非结构化数据,利用非结构化数据分析组件确定所述待存储的数据对应的敏感数据信息。

进一步地,所述待存储的数据对应的敏感数据信息包括所述待存储的数据中包含的敏感数据、所述敏感数据在所述待存储的数据中的数据位置以及所述敏感数据的等级。

进一步地,存储所述待存储的数据及其对应的敏感数据信息包括:

将所述待存储的数据存储至数据库;

将所述待存储的数据对应的敏感数据信息存储至标记库。

进一步地,获取敏感数据读取规则的方法包括:

获取读取数据的用户标识;

根据所述用户标识,查询与所述用户标识对应的所述敏感数据读取规则。

进一步地,所述敏感数据读取规则包括对敏感数据进行模糊处理和对敏感数据进行加密处理。

进一步地,若所述敏感数据读取规则为对敏感数据进行加密处理,在读取数据时,还包括:

获取权限修改指令;

根据所述权限修改指令,解密所述输出数据中被加密的敏感数据,并重新生成输出数据。

另一方面,本发明实施例提供了一种数据管控装置,所述装置包括:

数据存储单元,其配置为在存储数据时,确定待存储的数据对应的敏感数据信息,并存储所述待存储的数据及其对应的敏感数据信息;

数据输出单元,其配置为在读取数据时,获取敏感数据读取规则、待读取的数据和所述待读取的数据对应的敏感数据信息,并根据所述敏感数据读取规则、待读取的数据及其对应的敏感数据信息,生成输出数据。

又一方面,本发明实施例提供了一种数据管控设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;

所述处理器执行所述计算机程序指令时实现上述的数据管控方法。

再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的数据管控方法。

再一方面,本发明实施例提供了一种数据管控系统,包括:

数据库,用于存储数据;

用户终端,用于发出向所述数据库存储数据或从所述数据库读取数据的指令信息;

数据管控模块,分别与所述用户终端和所述数据库通信连接,用于根据所述用户终端发出的所述指令信息执行如权利要求1-8任意一项所述的数据管控方法。

进一步地,所述数据库至少包括hdfs数据库、hive数据库和hbase数据库。

本发明实施例的数据管控方法、装置、设备、计算机存储介质及系统,用于对大数据平台的数据进行管控,能够在存储数据时先识别待存储的数据的敏感数据信息,然后同时存储待存储的数据及其对应的敏感数据信息,在读取数据时根据敏感数据读取规则、待读取的数据及其对应的敏感数据信息生成输出数据,使得运维人员在读取数据时,仅输出经过对敏感数据进行处理后的输出数据,提高大数据平台的数据安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的数据管控方法的流程示意图;

图2是本发明一个实施例提供的确定敏感数据信息的具体方法的流程示意图;

图3是本发明一个实施例提供的读取数据的具体方法的流程示意图;

图4是本发明一个实施例提供的数据管控装置的结构示意图;

图5是本发明实施例提供的数据管控设备的硬件结构示意图;

图6是本发明一个实施例提供的数据管控系统的结构示意图;

图7是采用本发明实施例的数据管控系统读取hdfs数据库中的数据的流程示意图;

图8是采用本发明实施例的数据管控系统读取hive数据库中的数据的流程示意图;

图9是采用本发明实施例的数据管控系统读取hbase数据库中的数据的流程示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题,本发明实施例提供了一种数据管控方法、装置、设备、计算机存储介质及系统。下面首先对本发明实施例所提供的数据管控方法进行介绍。

图1示出了本发明一个实施例提供的数据管控方法的流程示意图。如图1所示,该数据管控方法包括:

s110、在存储数据时,确定待存储的数据对应的敏感数据信息,并存储所述待存储的数据及其对应的敏感数据信息;

s120、在读取数据时,获取敏感数据读取规则、待读取的数据和所述待读取的数据对应的敏感数据信息,并根据所述敏感数据读取规则、所述待读取的数据及其对应的敏感数据信息,生成输出数据。

本发明实施例用于对大数据平台的数据进行管控,能够在存储数据时先识别待存储的数据的敏感数据信息,然后同时存储待存储的数据及其对应的敏感数据信息,在读取数据时根据敏感数据读取规则、待读取的数据及其对应的敏感数据信息生成输出数据,使得运维人员在读取数据时,仅输出经过对敏感数据进行处理后的输出数据,提高大数据平台的数据安全性。

在本发明实施例中,敏感数据可以包括平台用户的个人信息,例如姓名、电话号码、邮箱、住址、银行卡号等。因此,对敏感信息进行处理后再输出给读取数据的运维人员,可以防止数据被运维人员获取后可能出现的数据外泄,进一步提高数据的安全性,保证了平台用户的个人隐私信息。

在本发明实施例的步骤s110中,确定待存储的数据对应的敏感数据信息之前,还包括:

若待存储的数据大于预设数据量,对待存储的数据进行分布式计算处理。即若待存储的数据大于预设数据量,则说明该待存储的数据数据较大的数据,因此需要先对待存储的数据进行分布式计算(mapreduce,mr)处理,生成mr数据文件,然后对该mr数据文件进行敏感数据信息的识别。

若待存储的数据不大于预设数据量,此时说明待存储的数据属于较小的数据,可以直接进行敏感数据信息的识别。

需要说明的是,在本发明实施例中,预设数据量根据需要进行设置即可。

在本发明实施例的步骤s110中,确定待存储的数据对应的敏感数据信息的具体方法可以包括:

若待存储的数据为结构化数据,利用结构化数据分析组件确定待存储的数据对应的敏感数据信息;其中,结构化数据分析组件可以包括结构化数据解析引擎。

若待存储的数据为非结构化数据,利用非结构化数据分析组件确定待存储的数据对应的敏感数据信息;其中,非结构化数据分析组件可以包括非结构化数据解析引擎。

因此,在本发明实施例中,可以分别利用与结构化数据和非结构化数据对应的方法确定待存储的数据对应的敏感数据信息,保证敏感数据的识别效率和准确性。

在本发明实施例中,待存储的数据对应的敏感数据信息包括待存储的数据中包含的敏感数据、敏感数据在待存储的数据中的数据位置以及敏感数据的等级。

其中,识别待存储的数据中包含的敏感数据的方法可以包括:利用敏感数据识别规则来识别待存储的数据中包含的敏感数据,具体地,敏感数据识别规则可以为预设的正则表达式或者数据字典。当识别出待存储的数据中包含的敏感数据后,可以获取该敏感数据在待存储的数据中所处的数据位置,例如,该敏感数据具体在哪个文件的哪个字段的哪个字节中。

在本发明其他实施例中,敏感数据信息还可以包括敏感数据的类型。其中,敏感数据的类型可以与敏感数据的等级相关联。

需要说明的是,在本发明实施例中,敏感数据识别规则可以根据需要进行添加、修改和删除。

在本发明实施例的步骤s110中,存储待存储的数据及其对应的敏感数据信息包括:

将待存储的数据存储至数据库,将待存储的数据对应的敏感数据信息存储至标记库。其中,数据库可以为大数据平台的数据库,标记库可以为solr数据库。在本发明实施例中,可以将待存储的数据及其对应的敏感数据信息分别进行存储,并且仅将待存储的数据存储在大数据平台,而其对应的敏感数据信息存储在单独的solr数据库中,可以不占用大数据平台的数据库资源,并且由于solr数据库为索引数据库,可以提高查询效率。

图2示出了本发明一个实施例提供的确定敏感数据信息的具体方法的流程示意图。如图2所示,确定敏感数据信息的具体方法可以包括:

步骤s201、获取待存储的数据;

步骤s202、确定待存储的数据是否大于预设数据量,若大于预设数据量,则执行步骤s203,若不大于预设数据量,则执行步骤s204;

步骤s203、处理待存储的数据并创建mr文件;

步骤s204、确定待存储的数据是否为结构化数据,若是结构化数据,则执行步骤s205,若不是结构化数据,则执行步骤s206;

步骤s205、利用结构化数据分析组件确定待存储的数据对应的敏感数据信息,然后执行步骤s207;

步骤s206、利用非结构化数据分析组件确定待存储的数据对应的敏感数据信息,然后执行步骤s207;

步骤s207、确定是否发现敏感数据,若发现敏感数据,则执行步骤s208,若未发现,则结束处理;

步骤s208、利用敏感数据等级规则确定发现的敏感数据的等级;

步骤s209、确定敏感数据在待存储的数据中的数据位置;

步骤s210、将待存储的数据中包含的敏感数据、敏感数据在待存储的数据中的数据位置以及敏感数据的等级作为敏感数据信息保存至标记库。

在本发明实施例中,若上述的确定敏感数据信息的过程中发生异常,可以则将该待存储的数据的信息记录到敏感数据识别异常表中,结束识别,并且直接将该待存储的数据存储至数据库。然后对于已经存储在数据库中的数据,可以每隔预定时间间隔,重新确定敏感数据识别异常表中的信息对应的数据中的敏感数据信息,并将确定了敏感数据信息的数据对应的信息从敏感数据识别异常表中删除。

在本发明实施例的步骤s120中,获取敏感数据读取规则的具体方法可以包括:

获取读取数据的用户标识;

根据用户标识,查询与用户标识对应的敏感数据读取规则。

即可以根据用户标识,确定该用户标识对应的运维人员的读取权限,从而根据读取权限查询对应的敏感数据读取规则。

在本发明其他实施例中,还可以获取敏感数据的等级和敏感数据的类型,然后根据用户标识、敏感数据的等级和敏感数据的类型,确定该用户标识对应的运维人员对应的敏感数据读取规则。

在本发明实施例中,敏感数据读取规则可以包括对敏感数据进行模糊处理和对敏感数据进行加密处理。其中,对敏感数据进行模糊处理即是将敏感数据模糊化,例如,只显示敏感数据中的个别字符,这种处理是一种不可逆处理,当运维人员读取的数据为经过模糊处理的数据后,无法通过其他操作将该数据还原为原始数据。对敏感数据进行加密处理即是将敏感数据利用设定的加密规则进行编码,敏感数据在显示时通过该编码显示,这种处理可以设置为可逆处理也可以设置为不可逆处理。当加密处理为可逆处理时,可以通过其他操作将该数据还原为原始数据。

图3示出了本发明一个实施例提供的读取数据的具体方法的流程示意图。如图3所示,若敏感数据读取规则为对敏感数据进行可逆的加密处理,在读取数据时,当生成了输出数据后,读取数据的方法还可以包括:

s320、获取权限修改指令;

s330、根据权限修改指令,解密输出数据中被加密的敏感数据,并重新生成输出数据。

此时,运维人员可以向大数据平台的管理人员发出针对该输出数据的权限申请,若管理人员批准该权限申请,则可以发出权限修改指令。此时,既可以根据该权限修改指令解密输出数据中被加密的敏感数据,并利用原始的待读取的数据重新生成输出数据。

图4示出了本发明一个实施例提供的数据管控装置的结构示意图。如图4所示,该数据管控装置包括:

数据存储单元410,其配置为在存储数据时,确定待存储的数据对应的敏感数据信息,并存储待存储的数据及其对应的敏感数据信息;

数据输出单元420,其配置为在读取数据时,获取敏感数据读取规则、待读取的数据和待读取的数据对应的敏感数据信息,并根据敏感数据读取规则、待读取的数据及其对应的敏感数据信息,生成输出数据。

本发明实施例用于对大数据平台的数据进行管控,能够在存储数据时先识别待存储的数据的敏感数据信息,然后同时存储待存储的数据及其对应的敏感数据信息,在读取数据时根据敏感数据读取规则、待读取的数据及其对应的敏感数据信息生成输出数据,使得运维人员在读取数据时,仅输出经过对敏感数据进行处理后的输出数据,提高大数据平台的数据安全性。

在本发明实施例中,数据存储单元410可以被进一步配置为若待存储的数据大于预设数据量,对待存储的数据进行分布式计算处理后,再确定待存储的数据对应的敏感数据信息。

在本发明实施例中,数据存储单元410还可以被进一步配置为若待存储的数据为结构化数据,利用结构化数据分析组件确定待存储的数据对应的敏感数据信息;若待存储的数据为非结构化数据,利用非结构化数据分析组件确定待存储的数据对应的敏感数据信息。

在本发明实施例中,待存储的数据对应的敏感数据信息包括待存储的数据中包含的敏感数据、敏感数据在待存储的数据中的数据位置以及敏感数据的等级。

在本发明实施例中,数据输出单元420可以被进一步配置为获取读取数据的用户标识,并根据用户标识,查询与用户标识对应的敏感数据读取规则。

在本发明实施例中,数据输出单元420还可以被进一步配置为当生成了输出数据后,获取权限修改指令,并根据权限修改指令,解密输出数据中被加密的敏感数据,并重新生成输出数据。

图5示出了本发明实施例提供的数据管控设备的硬件结构示意图。

在数据管控设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地,上述处理器501可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,asic),或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(harddiskdrive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种数据管控方法。

在一个示例中,数据管控设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者,将数据管控设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

该数据管控设备可以执行本发明实施例中的数据管控方法,从而实现结合上述附图描述的数据管控方法和装置。

另外,结合上述实施例中的数据管控方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据管控方法。

图6示出了本发明一个实施例提供的数据管控系统的结构示意图。如图6所示,该数据管控系统包括:

数据库610,用于存储数据;

用户终端620,用于发出向数据库存储数据或从数据库读取数据的指令信息;

数据管控模块630,分别与用户终端和数据库通信连接,用于根据用户终端发出的指令信息执行上述的数据管控方法。

在本发明实施例中,数据库610可以为大数据平台的数据库,其至少包括hdfs数据库、hive数据库和hbase数据库。

在本发明实施例中,用户终端620上安装有网络终端(webtermianl),webtermianl是一个可以模拟运维管理操作界面的网页客户端。webtermianl可以实现网络套接字(websocket)连接请求的发送,监听键盘输入、窗口变化事件以及websocket返回的数据流,以及将远端的标准输出(stdout)数据流和标准错误输出(stderr)数据流输出到用户终端620并显示为标准输出和标准错误。

因此,本发明实施例由于使用了网页客户端,即可以避免运维人员对客户端的依赖,又能够实现对运维人员的权限控制,使运维人员在不改变操作习惯的情况下,也可以对运维人员执行的操作命令进行记录和控制。

在本发明实施例中,数据管控模块630可以包括文件隔离模块631、数据输出模块632和数据存储模块633。

其中,数据输出模块632可以由docker守护进程(dockerdaemon)构成,用户终端的webtermianl可以远程调用dockerdaemonapi接口。因此,本发明实施例可以消除线上、线下的环境之间的差异,保证各个模块的环境的一致性和标准化。同时,还可以精确地为各个模块分配cpu、内存等资源,保证了各个模块间不会相互影响。

在本发明实施例中,数据存储模块633可以包括敏感数据识别单元6301、敏感数据存储单元6302和识别规则存储单元6303。

具体地,敏感数据识别单元6301用于根据识别规则存储单元6303中存储的敏感数据识别规则确定待存储的数据对应的敏感数据信息,并将待存储的数据存储至大数据平台的数据库610,将敏感数据信息存储至敏感数据存储单元6302。数据输出模块632中存储有敏感数据读取规则,当数据输出模块632获取了待读取的数据及其敏感数据信息后,可以根据敏感数据读取规则生成输出数据。输出数据包括文件流的输出数据和数据流的输出数据,其中,文件流的输出数据缓存在文件隔离模块631中,数据流的输出数据直接传输至webtermianl显示。

本发明实施例的文件隔离模块631可以将文件流数据的生成与下载相分离、将文件流数据的使用与下载进行合并,使文件流数据可以直达运维人员,实现“谁使用谁下载、谁下载谁负责”的文件流数据的安全管控,将安全责任落实到具体的运维人员,从而大幅提升核心数据的安全性。

在本发明实施例中,运维人员可以通过标准输入(stdin)数据流向大数据平台存储数据以及发出写入、读取或修改请求。当向数据库610存储数据时,敏感数据识别单元6301通过解析stdin数据流确定敏感数据信息。

因此,在本发明实施例中,运维人员可使用通过使用用户终端620上的webtermianl远程调用数据管控模块630来对大数据平台的数据库610进行运维管理操作,在运维人员不改变操作习惯的同时,可以通过webtermianl对运维人员执行的操作命令进行记录和控制。另外,在运维人员读取数据时,还可以根据需要直接对待读取的数据中的敏感数据采取保护措施。

在本发明实施例中,数据输出模块632中存储的敏感数据读取规则还可以定义用户访问敏感数据的限制条件。其中,一次访问可以有多个限制条件,可以包括对敏感数据的等级、敏感数据的类型、敏感数据的数据位置、是否公开敏感数据、是否发送预警信息等。上述的多个限制条件可以通过组合方式来定义对应的敏感数据读取规则:允许访问敏感数据或拒绝访问敏感数据,允许访问敏感数据时对敏感数据进行加密处理或模糊处理,允许访问敏感数据时是否发送预警信息等。

下面,根据图7-9对不同类型的数据库的数据读取流程进行详细说明。

图7是采用本发明实施例的数据管控系统读取hdfs数据库中的数据的流程示意图。

hdfs数据库可以提供对hadoop数据的存储和读取功能,并且可以包括hadoop-namenode节点和hadoop-datanode节点。当数据库为hdfs数据库时,其管理文件系统文件的元数据信息的节点的代理(namenode-agent)和存储数据的节点的代理(datanode-agent)可以构成数据输出模块632。

如图7所示,数据管控系统读取hdfs数据库中的数据的具体流程包括:

步骤s701、由用户终端发起对文件等的namenode请求给namenode-agent,首次发送的namenode请求中包括sasl消息。

步骤s702、namenode-agent收到namenode请求后,判断其是否带有sasl消息,如果有则解析sasl消息。其中,解析sasl消息期间namenode-agent会与用户终端进行几次sasl消息的交互。

步骤s703、namenode-agent在sasl消息解析完成后进行kerberos认证。

步骤s704、当kerberos认证通过后namenode-agent会创建sasl客户端,并且由sasl客户端发送sasl消息给hadoop-namenode。

步骤s705、hadoop-namenode收到sasl消息后解析sasl消息。

步骤s706、hadoop-namenode对sasl消息解析完成后,进行kerberos认证。

步骤s707、hadoop-namenode返回认证结果给namenode-agent。

步骤s708、namenode-agent收到认证结果后,判断是否认证成功,认证成果则调用bds的访问控制接口,检查是否允许访问。

步骤s709、namenode-agent经过访问控制且允许访问后,返回认证结果给用户终端。

步骤s710、认证成功后用户终端发送rpc请求给namenode-agent。

步骤s711、namenode-agent收到rpc请求后进行rpc请求解析。

步骤s712、namenode-agent对解析的操作进行鉴权,检查是否有操作文件或目录的权限等。

步骤s713、namenode-agent重新组装rpc请求,将组装后的rpc请求发送给hadoop-namenode。

步骤s714、hadoop-namenode收到rpc请求后进行解析处理,返回rpc响应消息。

步骤s715、如果需要操作文件,如文件的读写等,hadoop-namenode返回的rpc响应中包含数据块的信息,namenode-agent替换数据块消息中的hadoop-datanode的地址和端口为datanode-agent的地址和端口。

步骤s716、namenode-agent返回rpc响应消息给用户终端。

步骤s717、用户终端收到rpc响应后直接请求datanode-agent,发送数据的读写请求。

步骤s718、datanode-agent收到用户终端的请求后,如果开启kerberos,则要根据加密密钥获取加密数据流。

步骤s719、datanode-agent进行读写请求协议解析,分辨出读写类型。

步骤s720、datanode-agent将读写请求转发给hadoop-datanode。

步骤s721、hadoop-datanode进行协议解析并进行读写操作后返回响应数据给datanode-agent。

步骤s722、datanode-agent根据判断是否需要对敏感数据进行模糊处理或者加密处理,并根据判断结果进行处理。

步骤s723、datanode-agent将处理后的数据通过文件隔离模块返回给用户终端。

图8是采用本发明实施例的数据管控系统读取hive数据库中的数据的流程示意图。

hive数据库包括hivesever2节点。当数据库为hive数据库时,hivesever2节点的bdshive代理(bdshive-agent)可以构成数据输出模块632。

如图8所示,数据管控系统读取hive数据库中的数据的具体流程包括:

步骤s801、用户终端向bdshive-agent发送请求信息。

步骤s802、bdshive-agent接收到请求信息后,读取大数据平台系统配置,判断是否开启kerberos认证,若开启则执行步骤s803,若不开启则执行步骤s804。

步骤s803、bdshive-agent进行kerberos认证,若通过认证则执行步骤s804,若不通过认证则执行步骤s806。

步骤s804、bdshive-agent进行访问控制认证,若通过认证则执行步骤s805,若不通过认证则执行步骤s806。

步骤s805、bdshive-agent进行sql鉴权,若通过鉴权则执行步骤s807,若不通过鉴权则执行步骤s806。

步骤s806、bdshive-agent向用户终端返回提示权限不足的响应数据,然后执行步骤s816。

步骤s807、bdshive-agent确定读取是否启用敏感数据保护功能,若启用则执行步骤s808,若不启用则执行步骤s809。

步骤s808、bdshive-agent进行敏感数据检查,将检查结果写入参数,并重新生成请求信息。

步骤s809、bdshive-agent将请求信息发送至hivesever2。

步骤s810、hivesever2处理请求信息。

步骤s811、hivesever2向bdshive-agent返回响应数据。

步骤s812、bdshive-agent对hivesever2返回的响应数据进行解析,将响应数据写入tbase。

步骤s813、bdshive-agent再次确定读取是否启用敏感数据保护功能,若启用则执行步骤s814,若不启用则执行步骤s815。

步骤s814、bdshive-agent对敏感数据进行模糊处理或者加密处理,重新生成响应数据。

步骤s815、将响应数据返回至用户终端。

步骤s816、用户终端接收响应数据。

图9是采用本发明实施例的数据管控系统读取hbase数据库中的数据的流程示意图。

hbase数据库可以包括hbase节点和zookeeper节点。当数据库为hbase数据库时,hbase节点的代理(hbase-agent)和zookeeper节点的代理(zookeeper-agent)可以构成数据输出模块632。

如图9所示,数据管控系统读取hbase数据库中的数据的具体流程包括:

步骤s901、由用户终端首先连接zookeeper-agent,请求连接目标hbase-agent。

步骤s902、zookeeper-agent收到请求后,对请求消息进行解析。

步骤s903、zookeeper-agent转发请求消息给zookeeper。

步骤s904、zookeeper向zookeeper-agent反馈响应信息。

步骤s905、zookeeper-agent收到响应信息后解析zookeeper消息,将zookeeper消息中的地址信息替换成hbase-agent的地址信息。

步骤s906、zookeeper-agent将修改后的响应信息反馈给用户终端。

步骤s907、用户终端收到响应信息后建立与hbase-agent的连接,发送sasl消息给hbase-agent。

步骤s908、hbase-agent收到sasl消息后对其进行解析并与用户终端进行多次交互。

步骤s909、hbase-agent完成sasl消息的解析后进行kerberos认证。

步骤s910、hbase-agent返回认证结果给用户终端。

步骤s911、用户终端发送rpc请求给hbase-agent。

步骤s912、hbase-agent收到请求后对rpc请求进行解析。

步骤s913、hbase-agent解析rpc请求后对请求的操作进行访问控制检查和操作鉴权,对不符合访问控制或鉴权的请求,返回拒绝请求消息给用户终端。

步骤s914、hbase-agent重新组装rpc请求。

步骤s915、hbase-agent模拟用户终端发送sasl消息给hbase进行kerberos认证。

步骤s916、hbase向hbase-agent返回认证结果。

步骤s917、hbase-agent发送重新组装的rpc请求给hbase。

步骤s918、hbase根据收到的rpc请求返回响应数据给hbase-agent。

步骤s919、hbase-agent收到hbase的响应数据后,如果开启敏感数据保护功能,则对敏感数据进行模糊处理或者加密处理,并将处理后的数据重新组装成响应数据。

步骤s920、hbase-agent将重新组装的响应数据返回给用户终端。

本发明实施例的数据管控系统用于面向需频繁获取大数据平台的数据文件或需涉及敏感数据访问的运维人员,可以为其提供一个专属个人私有的文件流转以及安全防护平台。

本发明实施例的数据管控系统强制运维人员只能使用个人的账号访问大数据平台,解决了多人共享账号无法追责的问题,并且可以通过对操作命令的解析、敏感数据的匹配以及金库模式的接入,实现了操作命令的实时管控。

本发明实施例的数据管控系统通过设置文件隔离模块,使大数据管控平台拥有了专属的文件流数据的存放及流转的中心,满足了对文件流数据后续流转的管控要求。

本发明实施例的数据管控系统的性能更加优良、系统负载更低,可以更充分地利用系统资源。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1