本申请涉及数据安全技术领域,更具体地说,涉及一种数据窃取风险分析方法及分析系统。
背景技术:
随着信息化的不断发展,数据安全成为人们关注的重点,特别是对于企业来说,财务数据、技术数据等关键数据的泄漏对于企业的负面影响是巨大的,但是现有技术中并不存在有效的数据窃取风险的分析方法,当企业的数据被窃取后可能会很长时间才会被企业管理人员发现,而这时对于发生数据窃取行为的员工的定位就会变得异常困难。
因此如何根据企业员工的终端操作行为分析其数据窃取风险,以实现对可能发生的数据窃取行为的预警,从而减少对企业利益的损害成为研究人员努力的方向。
技术实现要素:
为解决上述技术问题,本发明提供了一种数据窃取风险分析方法及分析系统,以实现根据用户的操作行为数据分析其复制数据窃取风险值的目的。
为实现上述技术目的,本发明实施例提供了如下技术方案:
一种数据窃取风险分析方法,包括:
建立关键资源数据库;
获取用户的操作行为数据,所述操作行为数据包括复制操作数据,所述复制操作数据包括复制操作、每次复制操作发生的时间与每次复制操作对应的应用地址;
根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作及其发生的时间,其中,与所述关键复制操作对应的应用地址属于所述关键资源数据库;
对所述关键复制操作进行第一次分类处理,获得工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,所述工作时间间隔参数指工作时间内发生的相邻关键复制操作的时间间隔的均值,所述非工作时间间隔参数指非工作时间内发生的相邻关键复制操作的时间间隔的均值;
将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,获取用户的复制数据窃取风险值;
其中,m1表示工作时间复制次数,m2表示非工作时间复制次数,t1表示工作时长,t2表示非工作时长,σ表示高斯函数的平均差,A代表根据训练样本获取的历史关键复制操作次数均值,B代表根据训练样本获取的历史相邻关键复制操作的时间间隔均值。
优选的,所述根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作之后还包括:
对所述关键复制数据进行第二次分类处理,获得工作时间高频复制参数和非工作时间高频复制参数;
将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值;
其中,m3表示所述工作时间高频复制参数,m4表示所述非工作时间高频复制参数,σ表示高斯函数的平均差,C代表根据训练样本获取的历史关键高频复制操作次数均值,D代表根据训练样本获取的历史相邻高频复制操作的时间间隔均值。
优选的,所述将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值之后还包括:
将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值。
优选的,所述操作行为数据还包括用户地址;
所述将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值之后还包括:
判断所述用户数据窃取风险值是否超过预设值,如果是,则根据所述用户地址定位目标用户并生成预警报告。
优选的,所述根据所述用户地址定位目标用户并发出预警警报包括:
根据所述用户地址定位目标用户;
将所述目标用户的用户数据窃取风险值和用户地址绑定,生成所述预警报告。
一种数据窃取风险分析系统,包括:
数据库建立模块,用于建立关键资源数据库;
行为数据获取模块,用于获取用户的操作行为数据,所述操作行为数据包括复制操作数据,所述复制操作数据包括复制操作、每次复制操作发生的时间与每次复制操作对应的应用地址;
关键数据筛选模块,用于根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作及其发生的时间,其中,与所述关键复制操作对应的应用地址属于所述关键资源数据库;
第一分类模块,用于对所述关键复制操作进行第一次分类处理,获得工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,所述工作时间间隔参数指工作时间内发生的相邻关键复制操作的时间间隔的均值,所述非工作时间间隔参数指非工作时间内发生的相邻关键复制操作的时间间隔的均值;
复制数据风险模块,用于将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,获取用户的复制数据窃取风险值;
其中,m1表示工作时间复制次数,m2表示非工作时间复制次数,t1表示工作时长,t2表示非工作时长,σ表示高斯函数的平均差,A代表根据训练样本获取的历史关键复制操作次数均值,B代表根据训练样本获取的历史相邻关键复制操作的时间间隔均值。
优选的,还包括:
第二分类模块,用于对所述关键复制数据进行第二次分类处理,获得工作时间高频复制参数和非工作时间高频复制参数;
高频复制风险模块,用于将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值;
其中,m3表示所述工作时间高频复制参数,m4表示所述非工作时间高频复制参数,σ表示高斯函数的平均差,C代表根据训练样本获取的历史关键高频复制操作次数均值,D代表根据训练样本获取的历史相邻高频复制操作的时间间隔均值。
优选的,还包括:
求和模块,用于将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值。
优选的,所述操作行为数据还包括用户地址;
所述数据窃取风险分析系统还包括:
判断模块,用于判断所述用户数据窃取风险值是否超过预设值,如果是,则根据所述用户地址定位目标用户并生成预警报告。
优选的,所述判断模块包括:
定位单元,用于根据所述用户地址定位目标用户;
报告生成单元,用于将所述目标用户的用户数据窃取风险值和用户地址绑定,生成所述预警报告。
从上述技术方案可以看出,本发明实施例提供了一种数据窃取风险分析方法及分析系统,其中,所述数据窃取风险分析方法通过利用建立的关键资源数据库对获取的操作行为数据进行筛选,以保留复制操作数据中的关键复制操作及其发生的时间,从而实现只针对关键资源数据库的复制操作的风险分析;然后对所述关键复制操作进行第一次分类处理,获得所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,并将这些参数代入公式(1)中进行计算,以计算结果作为所述用户的复制数据窃取风险值,从而实现根据用户的操作行为数据分析其数据窃取风险值,进而实现对可能发生的数据窃取行为的预警,减少对企业或科研院所利益的损害。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种数据窃取风险分析方法的流程示意图;
图2为本申请的另一个实施例提供的一种数据窃取风险分析方法的流程示意图;
图3为本申请的又一个实施例提供的一种数据窃取风险分析方法的流程示意图;
图4为本申请的再一个实施例提供的一种数据窃取风险分析方法的流程示意图;
图5为本申请的一个实施例提供的一种数据窃取风险分析系统的结构示意图;
图6为本申请的另一个实施例提供的一种数据窃取风险分析系统的结构示意图;
图7为本申请的又一个实施例提供的一种数据窃取风险分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种数据窃取风险分析方法,如图1所示,包括:
S101:建立关键资源数据库。
所述关键资源数据库是指一个企业或科研院所等的重要资源库,比如财务信息资源、技术信息资源和商业秘密资源等。在本申请的一个实施例中,所述关键资源数据库中存储的资源格式以统一资源定位符(Uniform Resoure Locator,URL)的形式保存。
S102:获取用户的操作行为数据,所述操作行为数据包括复制操作数据,所述复制操作数据包括复制操作、每次复制操作发生的时间与每次复制操作对应的应用地址。
需要说明的是,所述复制操作包括但不限于截屏操作、图片复制操作和文字复制操作。本申请对此并不做限定,在本申请的一个具体实施例中,所述复制操作仅包括截屏操作,具体视实际情况而定。
S103:根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作及其发生的时间,其中,与所述关键复制操作对应的应用地址属于所述关键资源数据库。
根据所述关键资源数据库对所述复制操作数据进行筛选的目的是使所述数据窃取风险分析方法更加具有针对性,因为用户日常针对一些门户网站或不重要的信息进行的复制行为并不会造成企业或科研院所关心的数据的泄漏,而只有复制操作对应的应用地址属于所述关键资源数据库的复制操作才是有可能发生数据窃取行为的。
并且根据所述关键资源数据库对所述复制操作数据进行筛选可以降低接下来的数据处理难度,加快所述数据窃取风险分析方法的运算速度。
S104:对所述关键复制操作进行第一次分类处理,获得工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,所述工作时间间隔参数指工作时间内发生的相邻关键复制操作的时间间隔的均值,所述非工作时间间隔参数指非工作时间内发生的相邻关键复制操作的时间间隔的均值。
S105:将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,获取用户的复制数据窃取风险值;
其中,m1表示工作时间复制次数,m2表示非工作时间复制次数,t1表示工作时长,t2表示非工作时长,σ表示高斯函数的平均差,A代表根据训练样本获取的历史关键复制操作次数均值,B代表根据训练样本获取的历史相邻关键复制操作的时间间隔均值。
需要说明的是,所述工作时间复制次数是指用户在工作时间内进行的所有的复制操作的次数,相应的,所述非工作时间复制次数是指用户在非工作时间内进行的所有的复制操作的次数;那么m1、m2、t1和t2的值可以通过统计方法获得,也可以通过所述用户的操作行为数据获得,本申请对获取m1、m2、t1和t2的值的具体方式并不做限定,具体视实际情况而定。
所述训练样本可以是用户历史最近一段时期(例如历史最近一周或历史最近一月)内的关键复制操作数据;也可以是固定的一段时期内(比如某月X日到Y日)的关键复制操作数据。本申请对所述训练样本的构成并不做限定,具体视实际情况而定。
从公式(1)中可以看出,所述用户的复制数据窃取风险值由两部分构成,分别为工作时间的数据窃取风险值:和非工作时间的数据窃取风险值:其中,W代表非工作时间的数据窃取权重,P(m1)、P(m2)由概率密度函数p(m)积分获得,P(t1)和P(t2)由概率密度函数p(t)获得,而概率密度函数p(m)和p(t)均为高斯型,且包括根据训练样本获取的历史关键复制操作次数均值和根据训练样本获取的历史相邻关键复制操作的时间间隔均值,因此P(m1)和P(m2)分别代表用户在工作时间内发生m1次关键复制操作和在非工作时间内发生m2次关键复制操作的概率,这两个值越大,说明该用户的行为越正常,发生数据窃取的风险越低;另外,在此基础上,m1和m2的取值越大,和的值就越大,即发生的关键复制操作次数越多,该用户发生的数据窃取风险就越大。另外,我们还在公式(1)中引入了非工作时间的数据窃取风险值的权重W,表示用户在工作时间和非工作时间的关键复制操作具有不同的风险等级。综合上述三方面的考虑,我们将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,以获取用户的复制数据窃取风险值,从而实现根据用户的操作行为数据分析其数据窃取风险值,进而实现对可能发生的数据窃取行为的预警,减少对企业或科研院所利益的损害。
在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示,所述根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作之后还包括:
S106:对所述关键复制数据进行第二次分类处理,获得工作时间高频复制参数和非工作时间高频复制参数;
在本实施例中,所述工作时间高频复制参数是指在工作时间内发生的高频复制的次数,相应的,所述非工作时间高频复制参数是指在非工作时间内发生的高频复制的次数;所述高频复制是指在工作时间的预设时间段内进行的关键复制操作次数超过预设数量的次数。比如在1分钟中内进行的关键复制操作次数超过10次,我们就认为这是一次高频复制。但本申请对所述预设时间段和预设次数并不做限定,具体视实际情况而定。
S107:将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值;
其中,m3表示所述工作时间高频复制参数,m4表示所述非工作时间高频复制参数,σ表示高斯函数的平均差,C代表根据训练样本获取的历史关键高频复制操作次数均值,D代表根据训练样本获取的历史相邻高频复制操作的时间间隔均值。同样的,所述训练样本可以是用户历史最近一段时期(例如历史最近一周或历史最近一月)内的关键复制操作数据;也可以是固定的一段时期内(比如某月X日到Y日)的关键复制操作数据。本申请对所述训练样本的构成并不做限定,具体视实际情况而定。
公式(2)和公式(1)的原理相同,在本实施例中,我们获取用户的高频复制操作数据窃取风险值以便为管理人员提供更多维度的评判标准。
在上述实施例的基础上,在本申请的另一个实施例中,如图3所示,所述将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值之后还包括:
S108:将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值。
在本实施例中,我们将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,为管理人员提供第三个用于评判用户的数据窃取行为的参数。
在上述实施例的基础上,在本申请的一个优选实施例中,如图4所示,所述操作行为数据还包括用户地址;
所述将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值之后还包括:
S109:判断所述用户数据窃取风险值是否超过预设值,如果是,则根据所述用户地址定位目标用户并生成预警报告。
具体的,所述根据所述用户地址定位目标用户并发出预警警报包括:
根据所述用户地址定位目标用户;
将所述目标用户的用户数据窃取风险值和用户地址绑定,生成所述预警报告。
需要说明的是,设置所述预设值的目的是当所述用户数据窃取风险值明显异常时通过所述预警报告的方式对管理人员进行提醒。
另外,所述用户地址包括但不限于用户IP和MAC地址。本申请对此并不做限定,具体视实际情况而定。
相应的,本申请实施例还提供了一种数据窃取风险分析系统,如图5所示,包括:
数据库建立模块,用于建立关键资源数据库;
行为数据获取模块,用于获取用户的操作行为数据,所述操作行为数据包括复制操作数据,所述复制操作数据包括复制操作、每次复制操作发生的时间与每次复制操作对应的应用地址;
关键数据筛选模块,用于根据所述关键资源数据库对所述复制操作数据进行筛选,保留所述复制操作数据中的关键复制操作及其发生的时间,其中,与所述关键复制操作对应的应用地址属于所述关键资源数据库;
第一分类模块,用于对所述关键复制操作进行第一次分类处理,获得工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,所述工作时间间隔参数指工作时间内发生的相邻关键复制操作的时间间隔的均值,所述非工作时间间隔参数指非工作时间内发生的相邻关键复制操作的时间间隔的均值;
复制数据风险模块,用于将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,获取用户的复制数据窃取风险值;
其中,m1表示工作时间复制次数,m2表示非工作时间复制次数,t1表示工作时长,t2表示非工作时长,σ表示高斯函数的平均差,A代表根据训练样本获取的历史关键复制操作次数均值,B代表根据训练样本获取的历史相邻关键复制操作的时间间隔均值。
需要说明的是,所述工作时间复制次数是指用户在工作时间内进行的所有的复制操作的次数,相应的,所述非工作时间复制次数是指用户在非工作时间内进行的所有的复制操作的次数;那么m1、m2、t1和t2的值可以通过统计方法获得,也可以通过所述用户的操作行为数据获得,本申请对获取m1、m2、t1和t2的值的具体方式并不做限定,具体视实际情况而定。
所述训练样本可以是用户历史最近一段时期(例如历史最近一周或历史最近一月)内的关键复制操作数据;也可以是固定的一段时期内(比如某月X日到Y日)的关键复制操作数据。本申请对所述训练样本的构成并不做限定,具体视实际情况而定。
还需要说明的是,所述关键资源数据库是指一个企业或科研院所等的重要资源库,比如财务信息资源、技术信息资源和商业秘密资源等。在本申请的一个实施例中,所述关键资源数据库中存储的资源格式以统一资源定位符(Uniform Resoure Locator,URL)的形式保存。
所述复制操作包括但不限于截屏操作、图片复制操作和文字复制操作。本申请对此并不做限定,在本申请的一个具体实施例中,所述复制操作仅包括截屏操作,具体视实际情况而定。
所述关键数据筛选模块根据所述关键资源数据库对所述复制操作数据进行筛选的目的是使所述数据窃取风险分析系统更加具有针对性,因为用户日常针对一些门户网站或不重要的信息进行的复制行为并不会造成企业或科研院所关心的数据的泄漏,而只有复制操作对应的应用地址属于所述关键资源数据库的复制操作才是有可能发生数据窃取行为的。
并且根据所述关键资源数据库对所述复制操作数据进行筛选可以降低接下来的数据处理难度,加快所述数据窃取风险分析系统的运行速度。
从公式(1)中可以看出,所述用户的复制数据窃取风险值由两部分构成,分别为工作时间的数据窃取风险值:和非工作时间的数据窃取风险值:其中,W代表非工作时间的数据窃取权重,P(m1)、P(m2)由概率密度函数p(m)积分获得,P(t1)和P(t2)由概率密度函数p(t)获得,而概率密度函数p(m)和p(t)均为高斯型,且包括根据训练样本获取的历史关键复制操作次数均值和根据训练样本获取的历史相邻关键复制操作的时间间隔均值,因此P(m1)和P(m2)分别代表用户在工作时间内发生m1次关键复制操作和在非工作时间内发生m2次关键复制操作的概率,这两个值越大,说明该用户的行为越正常,发生数据窃取的风险越低;另外,在此基础上,m1和m2的取值越大,和的值就越大,即发生的关键复制操作次数越多,该用户发生的数据窃取风险就越大。另外,我们还在公式(1)中引入了非工作时间的数据窃取风险值的权重W,表示用户在工作时间和非工作时间的关键复制操作具有不同的风险等级。综合上述三方面的考虑,我们将所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(1)中,以获取用户的复制数据窃取风险值,从而实现根据用户的操作行为数据分析其数据窃取风险值,进而实现对可能发生的数据窃取行为的预警,减少对企业或科研院所利益的损害。
在上述实施例的基础上,在本申请的一个优选实施例中,如图6所示,所述数据窃取风险分析系统还包括:
第二分类模块,用于对所述关键复制数据进行第二次分类处理,获得工作时间高频复制参数和非工作时间高频复制参数;
高频复制风险模块,用于将所述工作时间高频复制参数、非工作时间高频复制参数、工作时间间隔参数和非工作时间间隔参数代入公式(2)中,获取用户的高频复制操作数据窃取风险值;
其中,m3表示所述工作时间高频复制参数,m4表示所述非工作时间高频复制参数,σ表示高斯函数的平均差,C代表根据训练样本获取的历史关键高频复制操作次数均值,D代表根据训练样本获取的历史相邻高频复制操作的时间间隔均值。同样的,所述训练样本可以是用户历史最近一段时期(例如历史最近一周或历史最近一月)内的关键复制操作数据;也可以是固定的一段时期内(比如某月X日到Y日)的关键复制操作数据。本申请对所述训练样本的构成并不做限定,具体视实际情况而定。
在本实施例中,所述工作时间高频复制参数是指在工作时间内发生的高频复制的次数,相应的,所述非工作时间高频复制参数是指在非工作时间内发生的高频复制的次数;所述高频复制是指在工作时间的预设时间段内进行的关键复制操作次数超过预设数量的次数。比如在1分钟中内进行的关键复制操作次数超过10次,我们就认为这是一次高频复制。但本申请对所述预设时间段和预设次数并不做限定,具体视实际情况而定。
公式(2)和公式(1)的原理相同,在本实施例中,我们获取用户的高频复制操作数据窃取风险值以便为管理人员提供更多维度的评判标准。
在上述实施例的基础上,在本申请的另一个实施例中,如图7所示,所述数据窃取风险分析系统还包括:
求和模块,用于将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,获得用户数据窃取风险值。
在本实施例中,我们将所述复制数据窃取风险值和所述高频复制操作数据窃取风险值求和,为管理人员提供第三个用于评判用户的数据窃取行为的参数。
在上述实施例的基础上,在本申请的另一个实施例中,所述操作行为数据还包括用户地址;
所述数据窃取风险分析系统还包括:
判断模块,用于判断所述用户数据窃取风险值是否超过预设值,如果是,则根据所述用户地址定位目标用户并生成预警报告。
具体的,所述判断模块包括:
定位单元,用于根据所述用户地址定位目标用户;
报告生成单元,用于将所述目标用户的用户数据窃取风险值和用户地址绑定,生成所述预警报告。
需要说明的是,设置所述预设值的目的是当所述用户数据窃取风险值明显异常时通过所述预警报告的方式对管理人员进行提醒。
另外,所述用户地址包括但不限于用户IP和MAC地址。本申请对此并不做限定,具体视实际情况而定。
综上所述,本申请实施例提供了一种数据窃取风险分析方法及分析系统,其中,所述数据窃取风险分析方法通过利用建立的关键资源数据库对获取的操作行为数据进行筛选,以保留复制操作数据中的关键复制操作及其发生的时间,从而实现只针对关键资源数据库的复制操作的风险分析;然后对所述关键复制操作进行第一次分类处理,获得所述工作时间复制参数、非工作时间复制参数、工作时间间隔参数和非工作时间间隔参数,并将这些参数代入公式(1)中进行计算,以计算结果作为所述用户的复制数据窃取风险值,从而实现根据用户的操作行为数据分析其数据窃取风险值,进而实现对可能发生的数据窃取行为的预警,减少对企业或科研院所利益的损害。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。