文件检测系统以及方法与流程

文档序号:23540360发布日期:2021-01-05 20:48阅读:89来源:国知局
文件检测系统以及方法与流程

本发明实施例涉及数据处理技术领域,尤其涉及一种文件检测系统以及方法。



背景技术:

随着社会的发展,企业敏感数据泄露等安全事件不断爆发,与此同时人们对敏感数据安全的关注度也越来越高。传统数据防泄漏手段以囚笼、枷锁式的强管控居多,即直接将数据全部隔离,或者全部加密,但这在实际的数据生产、使用、流转中带来了很多不必要的麻烦。

在防止敏感数据外泄的技术手段上,除了强管控外,企业还可以通过文件内容基础检测技术对各种格式类型的文件内容进行检测,以确定待测文件中是否包括敏感数据,以期达到对企业内部数据精细化管理的目的。但是,由于这些基础检测的技术无法计算文件与敏感数据的相似度,因此无法对企业数据进行更细粒度的数据防护。



技术实现要素:

本发明提供一种文件检测系统以及方法,可以快速有效地计算待测文件与敏感文件的文件相似度,并对待测文件进行更细粒度的数据防护。

第一方面,本发明实施例提供了一种文件检测系统,包括:管理平台、指纹处理模块、文件指纹库以及决策模块;

管理平台,用于响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令;

指纹处理模块,用于根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件;

决策模块,用于根据目标敏感文件的文件参数,生成与待测文件对应的处理策略。

可选的,还包括:用于存放敏感文件的文件库;

管理平台,还用于响应于用户输入的文件库更新请求,将与更新请求对应的敏感文件存入文件库,并向指纹处理模块下发第二处理指令;

指纹处理模块,还用于根据第二处理指令,采用目标指纹生成算法,生成文件库中的各敏感文件的敏感文件指纹。

可选的,指纹处理模块,包括:指纹生成单元和指纹对比单元;

指纹生成单元,用于根据第一处理指令,采用目标指纹生成算法,生成待测文件的目标文件指纹;

指纹比对单元,用于计算目标文件指纹与文件指纹库中的敏感文件指纹的文件相似度,并将与最高的文件相似度对应的敏感文件作为与待测文件相似的目标敏感文件。

可选的,还包括:参数配置模块;

管理平台,还用于响应于用户对敏感文件的参数配置请求,向参数配置模块发送参数配置指令;

参数配置模块,用于根据参数配置指令,为文件库中的各敏感文件配置文件参数,文件参数包括:敏感度级别以及相似度阈值。

可选的,决策模块,用于:

获取目标敏感文件的敏感度级别以及相似度阈值,并判断目标敏感文件与待测文件的文件相似度是否大于相似度阈值;

如果文件相似度大于相似度阈值,则根据待测文件对应的场景以及敏感度级别,生成与待测文件对应的去重策略或者数据防泄漏策略;场景包括:文件去重和数据防泄漏;

如果文件相似度小于相似度阈值,则生成与待测文件对应的不处理策略。

可选的,还包括:

检测结果库,用于存储与待测文件关联的检测信息;检测信息包括:待测文件的文件指纹、相似文件的文件指纹、文件相似度以及处理策略。

可选的,还包括:

数据分析模块,用于间隔预设时间对检测结果库中的检测信息进行数据分析,并根据分析结果生成分析报告展示给用户。

第二方面,本发明实施例还提供了一种文件检测方法,应用于如本发明任一实施例提供的文件检测系统,包括:

通过管理平台,响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令;

通过指纹处理模块,根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件;

通过决策模块,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略。

可选的,通过指纹处理模块,根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件,包括:

通过指纹处理模块,根据第一处理指令,采用目标指纹生成算法,生成待测文件的目标文件指纹;目标指纹生成算法还用于为文件库中的各敏感文件生成敏感文件指纹;

计算目标文件指纹与文件指纹库中的敏感文件指纹的文件相似度,并将与最高的文件相似度对应的敏感文件作为与待测文件相似的目标敏感文件。

可选的,通过决策模块,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略,包括:

通过决策模块,获取目标敏感文件的敏感度级别以及相似度阈值,并判断目标敏感文件与待测文件的文件相似度是否大于相似度阈值;

如果文件相似度大于相似度阈值,则根据待测文件对应的场景以及敏感度级别,生成与待测文件对应的去重策略或者数据防泄漏策略;场景包括:文件去重和数据防泄漏;

如果文件相似度小于相似度阈值,则生成与待测文件对应的不处理策略。

本发明实施例的技术方案,文件检测系统的管理平台响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令;指纹处理模块根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件;决策模块根据目标敏感文件的文件参数,生成与待测文件对应的处理策略,解决了现有技术中无法计算待测文件与敏感文件的相似度的问题,可以快速有效地计算待测文件与敏感文件的文件相似度,并对待测文件进行更细粒度的数据防护。

附图说明

图1是本发明实施例一中的一种文件检测系统的结构示意图;

图2是本发明实施例二中的一种文件检测方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种文件检测系统的结构示意图,本实施例可适用于计算待测文件与敏感文件之间的相似度的情况。如图1所示,文件检测系统包括:管理平台110、指纹处理模块120、文件指纹库130以及决策模块140;

管理平台110,用于响应于用户对待测文件的获取操作,向指纹处理模块120下发与待测文件对应的第一处理指令;

指纹处理模块120,用于根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库130进行匹配,得到与待测文件相似的目标敏感文件;

决策模块140,用于根据目标敏感文件的文件参数,生成与待测文件对应的处理策略。

本实施例中,文件检测系统既可以适应于对企业文件等进行数据防泄露的场景,又可以适应于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、社交媒体等文本去重和聚类等场景。其中,待测文件可以是以文档形式存储的非结构化数据,例如microsoftwordpowerpoint文件、pdf文档以及其他敏感或专有信息等。敏感文件可以是含有需要保护的敏感信息的文件,或者是文本去重的对照文件。文件指纹是根据文件内容计算出来的,相当于文件的标识,其中,内容相同的文件,对应的文件指纹也相同,内容相似度较高的文件,对应的文件指纹的相似度也较高。

本实施例中,文件检测系统可以分为服务层和数据层两大部分,管理平台110属于服务层,可以对文件检测系统进行综合管理。例如,与数据层的交互管理、对系统用户的管理、角色权限分配以及人机界面交互管理等。因此,当用户通过文件检测系统提供的前端交互页面获取待测文件时,管理平台110响应于用户对待测文件的获取操作,可以生成与待测文件匹配的第一处理指令,并下发至指纹处理模块120,以使指纹处理模块120根据第一处理指令计算待测文件与敏感文件的文件相似度。

本实施例中,文件指纹库130中存储有预先设置的敏感文件的文件指纹,可以用于比对待测文件是否是敏感文件。指纹处理模块120可以根据第一处理指令获取待测文件,并生成待测文件的目标文件指纹,然后通过将目标文件指纹与文件指纹库130进行相似性匹配,找到与待测文件最相似的目标敏感文件,然后决策模块140,获取目标敏感文件的文件参数,并根据目标敏感文件的文件参数,以及待测文件与目标敏感文件的相似度大小,确定是否对待测文件进行去重处理或者数据防泄漏处理,并生成对应的处理策略。

可选的,还可以包括:用于存放敏感文件的文件库150;

管理平台110,还用于响应于用户输入的文件库更新请求,将与更新请求对应的敏感文件存入文件库150,并向指纹处理模块120下发第二处理指令;

指纹处理模块120,还用于根据第二处理指令,采用目标指纹生成算法,生成文件库中的各敏感文件的敏感文件指纹。

本实施例中,文件检测系统还包括文件库150,用于存放预先设置的敏感文件,例如,数据防泄漏场景下的企业员工的工资文档、企业项目计划书等,或者,文档去重场景下的用于文本去重的对照文件等。当用户通过前端交互页面向管理平台110请求文件库的管理权限,以对文件库150进行更新时,例如,将新的敏感文件放入文件库150,或者删除或修改文件库150中的部分敏感文件,管理平台110会将待更新的敏感文件存入文件库150,或者从文件库150中删除或修改对应的敏感文件,并生成与更新的敏感文件对应的第二处理指令,发送至指纹处理模块120。指纹处理模块120根据第二处理指令确定更新的敏感文件,并采用指定的指纹生成算法,例如,k-shingle算法、simhash算法或者minhash算法,生成各更新的敏感文件的敏感文件指纹,并存放至文件指纹库130中。

本实施例中,第二处理指令可以是管理平台110在将对文件库150中的敏感文件进行更新之后,自动生成的,也可以是管理平台110响应于用户对文件指纹库130的更新请求,针对文件库150中更新的敏感文件生成的。

其中,k-shingle算法的思想是,将文件分别分割成n个长度为k的任意字符子串,即可得到与文件对应的shingle向量,即文件指纹。例如,对于一段文本,分词向量为[w1,w2,w3,w4,…wn],设k=3,则该文本的shingle向量表示为[(w1,w2,w3),(w2,w3,w4),(w3,w4,w5),……(wn-2,wn-1,wn)]。

simhash算法的思想是,先对文件进行分词,得到有效的特征向量,然后通过hash函数计算各个特征向量的hash值,在hash值的基础上,给所有特征向量进行加权,将各个特征向量的加权结果累加,最后,对于累加结果,如果大于0则置1,否则置0,从而得到文件的文件指纹。

minhash算法的思想是,首先构建集合的特征矩阵,然后通过定义最小哈希函数,对构建好的特征矩阵进行行打乱,行打乱后某一列的第一个不为0的元素所在的行号则为这一列的最小哈希值,通过多次的行打乱,计算每一列的最小哈希值,形成新的签名矩阵,即文件指纹。

可选的,指纹处理模块120,可以包括:指纹生成单元121和指纹对比单元122;

指纹生成单元121,用于根据第一处理指令,采用目标指纹生成算法,生成待测文件的目标文件指纹;

指纹比对单元122,用于计算目标文件指纹与文件指纹库130中的敏感文件指纹的文件相似度,并将与最高的文件相似度对应的敏感文件作为与待测文件相似的目标敏感文件。

本实施例中,当指纹生成单元121根据第一处理指令生成待测文件的目标文件指纹时,其所采用的指纹生成算法,需要与文件库中的敏感文件生成敏感文件指纹所采用的指纹生成算法相同,否则,即使后续指纹比对单元122将目标文件指纹与文件指纹库中的敏感文件指纹相匹配,得到的匹配结果也是错误的。例如,如果采用simhash算法生成文件库150中各敏感文件的敏感文件指纹,则也需要采用simhash算法生成待测文件的目标文件指纹。

本实施例中,指纹生成算法还可以用于根据文件指纹计算文件之间的相似度,因此,指纹比对单元122可以采用目标指纹生成算法计算目标文件指纹与文件指纹库130中的敏感文件指纹的文件相似度。例如,如果待测文件的目标文件指纹以及文件指纹库130中的敏感文件指纹是采用k-shingle算法生成的,则指纹比对单元122可以根据k-shingle算法,计算目标文件指纹与敏感文件指纹之间的jaccard系数,得到待测文件与敏感文件之间的文件相似度。进而,可以从文件指纹库130中获取到与待测文件的相似度最高的目标敏感文件。

可选的,还可以包括:参数配置模块160;

管理平台110,还用于响应于用户对敏感文件的参数配置请求,向参数配置模块160发送参数配置指令;

参数配置模块160,用于根据参数配置指令,为文件库150中的各敏感文件配置文件参数,文件参数包括:敏感度级别以及相似度阈值。

本实施例中,为了实现更细粒度的文件去重或者数据防泄漏处理,可以根据文件的重要程度,为各敏感文件设置敏感度级别以及相似度阈值等文件参数。当用户通过前端监护界面向管理平台110发送参数配置请求之后,管理平台110根据参数配置请求中包括的各敏感文件的敏感度级别以及相似度阈值,生成对应的参数配置指令,并发送至参数配置模块160,参数配置模块160根据参数配置指令,为文件库150中的对应的敏感文件配置文件参数。例如,为敏感文件a配置敏感度级别为高敏感度,相似度阈值为70%。其中,相似度阈值用于判断待测文件是否与该敏感文件相似,敏感度级别用于确定对待测文件的处理程度。

可选的,决策模块140,用于:获取目标敏感文件的敏感度级别以及相似度阈值,并判断目标敏感文件与待测文件的文件相似度是否大于相似度阈值;如果文件相似度大于相似度阈值,则根据待测文件对应的场景以及敏感度级别,生成与待测文件对应的去重策略或者数据防泄漏策略;场景包括:文件去重和数据防泄漏;如果文件相似度小于等于相似度阈值,则生成与待测文件对应的不处理策略。

本实施例中,决策模块140在确定与待测文件相似的目标敏感文件之后,获取目标敏感文件的敏感度级别以及相似度阈值,并将目标敏感文件与待测文件之间的文件相似度与相似度阈值进行比较,如果文件相似度大于相似度阈值,则认为待测文件与目标敏感文件相似,需要根据待测文件对应的场景以及目标敏感文件的敏感度级别,确定对待测文件的处理策略。如果文件相似度小于等于相似度阈值,则认为待测文件与目标敏感文件不相似,无论待测文件对应何种场景,目标敏感文件的敏感度级别多高,都无需对待测文件进行任何处理。

示例性的,假设待测文件与目标敏感文件相似,待测文件是搜索引擎检索到的爬虫文件,对应的是文件去重场景,目标敏感文件的敏感度级别为高敏感度,则决策模块140生成过滤待测文件的去重策略;如果目标敏感文件的敏感度级别为低敏感度,则决策模块140生成不做处理的去重策略。如果待测文件是企业文件,对应的是数据防泄漏场景,则决策模块140可以根据目标敏感文件的敏感度级别,生成阻断待测文件、待测文件重定向、待测文件加密传输、短信告警等数据防泄漏策略。

可选的,还可以包括:检测结果库170,用于存储与待测文件关联的检测信息;检测信息包括:待测文件的文件指纹、相似文件的文件指纹、文件相似度以及处理策略。

本实施例中,决策模块140在生成与待测文件对应的处理策略之后,将待测文件的文件指纹、与待测文件相似的目标敏感文件的文件指纹、待测文件与目标敏感文件的相似度,以及对待测文件的处理策略都存储到检测结果库中,以记录本次对待测文件进行指纹识别、查询的结果信息。

可选的,还可以包括:数据分析模块180,用于间隔预设时间对检测结果库中的检测信息进行数据分析,并根据分析结果生成分析报告展示给用户。

本实施例中,数据分析模块180可以周期性的从检测结果库中获取检测信息进行数据分析,得到分析结果,例如,统计文本去重的准确率,或者敏感数据防泄漏的正确率和错误率等,并生成分析报告展示给用户。

本发明实施例的技术方案,文件检测系统的管理平台响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令;指纹处理模块根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件;决策模块根据目标敏感文件的文件参数,生成与待测文件对应的处理策略,解决了现有技术中无法计算待测文件与敏感文件的相似度的问题,可以快速有效地计算待测文件与敏感文件的文件相似度,并对待测文件进行更细粒度的数据防护。

实施例二

图2是本发明实施例二中的一种文件检测方法的流程图。本实施例可适用于计算待测文件与敏感文件之间的相似度的情况,该方法可以由文件检测系统来执行,如图2所示,该方法包括:

步骤210、通过管理平台,响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令。

本实施例既可以适应于对企业文件等进行数据防泄露的场景,又可以适应于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、社交媒体等文本去重和聚类等场景。其中,待测文件可以是以文档形式存储的非结构化数据,管理平台可以对文件检测系统进行综合管理。当用户通过文件检测系统提供的前端交互页面获取待测文件时,可以通过管理平台生成与待测文件匹配的第一处理指令,并下发至指纹处理模块,以使指纹处理模块根据第一处理指令计算待测文件与敏感文件的文件相似度。

可选的,在通过管理平台,响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令之前,还可以包括:通过管理平台,响应于用户输入的文件库更新请求,将与更新请求对应的敏感文件存入文件库,并向指纹处理模块下发第二处理指令;通过指纹处理模块,还用于根据第二处理指令,采用目标指纹生成算法,生成文件库中的各敏感文件的敏感文件指纹。

本实施例中,当用户通过前端交互页面向管理平台请求将新的敏感文件放入文件库,或者删除或修改文件库中的部分敏感文件时,可以通过管理平台,将待更新的敏感文件存入文件库,或者从文件库中删除或修改对应的敏感文件,并生成与更新的敏感文件对应的第二处理指令,发送至指纹处理模块,通过指纹处理模块,根据第二处理指令确定更新的敏感文件,并采用指定的指纹生成算法,例如,k-shingle算法、simhash算法或者minhash算法,生成各更新的敏感文件的敏感文件指纹,并存放至文件指纹库中。

步骤220、通过指纹处理模块,根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件。

其中,敏感文件可以是含有需要保护的敏感信息的文件,或者是文本去重的对照文件。文件指纹是根据文件内容计算出来的,相当于文件的标识,其中,内容相同的文件,对应的文件指纹也相同,内容相似度较高的文件,对应的文件指纹的相似度也较高。

本实施例中,指纹处理模块可以根据第一处理指令获取待测文件,并采用指纹生成算法生成待测文件的目标文件指纹,然后通过将目标文件指纹与文件指纹库中的各敏感文件指纹进行相似性匹配,找到与待测文件最相似的目标敏感文件。

可选的,通过指纹处理模块,根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件,可以包括:通过指纹处理模块,根据第一处理指令,采用目标指纹生成算法,生成待测文件的目标文件指纹;目标指纹生成算法还用于为文件库中的各敏感文件生成敏感文件指纹;计算目标文件指纹与文件指纹库中的敏感文件指纹的文件相似度,并将与最高的文件相似度对应的敏感文件作为与待测文件相似的目标敏感文件。

本实施例中,当指纹处理模块根据第一处理指令生成待测文件的目标文件指纹时,其所采用的指纹生成算法,需要与文件库中的敏感文件生成敏感文件指纹所采用的指纹生成算法相同,否则,即使后续将目标文件指纹与文件指纹库中的敏感文件指纹相匹配,得到的匹配结果也是错误的。例如,如果采用simhash算法生成文件库中各敏感文件的敏感文件指纹,则也需要采用simhash算法生成待测文件的目标文件指纹。

本实施例中,指纹生成算法还可以用于根据文件指纹计算文件之间的相似度,因此,指纹处理模块可以采用目标指纹生成算法计算目标文件指纹与文件指纹库中的敏感文件指纹的文件相似度。例如,如果待测文件的目标文件指纹以及文件指纹库中的敏感文件指纹是采用k-shingle算法生成的,则指纹处理模块可以根据k-shingle算法,计算目标文件指纹与敏感文件指纹之间的jaccard系数,得到待测文件与敏感文件之间的文件相似度。进而,可以确定与待测文件的相似度最高的目标敏感文件。

步骤230、通过决策模块,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略。

本实施例中,为了实现更细粒度的文件去重或者数据防泄漏处理,可以根据文件的重要程度,各敏感文件分别配置有敏感度级别以及相似度阈值等文件参数。

可选的,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略,可以包括:通过决策模块,获取目标敏感文件的敏感度级别以及相似度阈值,并判断目标敏感文件与待测文件的文件相似度是否大于相似度阈值;如果文件相似度大于相似度阈值,则根据待测文件对应的场景以及敏感度级别,生成与待测文件对应的去重策略或者数据防泄漏策略;场景包括:文件去重和数据防泄漏;如果文件相似度小于相似度阈值,则生成与待测文件对应的不处理策略。

本实施例中,决策模块在确定与待测文件相似的目标敏感文件之后,获取目标敏感文件的敏感度级别以及相似度阈值,并将目标敏感文件与待测文件之间的文件相似度与相似度阈值进行比较,如果文件相似度大于相似度阈值,则认为待测文件与目标敏感文件相似,需要根据待测文件对应的场景以及目标敏感文件的敏感度级别,确定对待测文件的处理策略。如果文件相似度小于等于相似度阈值,则认为待测文件与目标敏感文件不相似,无论待测文件对应何种场景,目标敏感文件的敏感度级别多高,都无需对待测文件进行任何处理。

示例性的,假设待测文件与目标敏感文件相似,待测文件是搜索引擎检索到的爬虫文件,对应的是文件去重场景,目标敏感文件的敏感度级别为高敏感度,则通过决策模块生成过滤待测文件的去重策略;如果目标敏感文件的敏感度级别为低敏感度,则通过决策模块生成不做处理的去重策略。如果待测文件是企业文件,对应的是数据防泄漏场景,则通过决策模块,可以根据目标敏感文件的敏感度级别,生成阻断待测文件、待测文件重定向、待测文件加密传输、短信告警等数据防泄漏策略。

可选的,在通过决策模块,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略之前,还可以包括:通过管理平台,响应于用户对敏感文件的参数配置请求,向参数配置模块发送参数配置指令;通过参数配置模块,根据参数配置指令,为文件库中的各敏感文件配置文件参数,文件参数包括:敏感度级别以及相似度阈值。

本实施例中,当用户通过前端监护界面向管理平台发送参数配置请求之后,可以通过管理平台,根据参数配置请求中包括的各敏感文件的敏感度级别以及相似度阈值,生成对应的参数配置指令,并发送至参数配置模块。通过参数配置模块,根据参数配置指令,为文件库中的对应的敏感文件配置文件参数。例如,为敏感文件a配置敏感度级别为高敏感度,相似度阈值为70%。其中,相似度阈值用于判断待测文件是否与该敏感文件相似,敏感度级别用于确定对待测文件的处理程度。

可选的,还可以包括:存储与待测文件关联的检测信息;检测信息包括:待测文件的文件指纹、相似文件的文件指纹、文件相似度以及处理策略。

本实施例中,在生成与待测文件对应的处理策略之后,还可以将待测文件的文件指纹、与待测文件相似的目标敏感文件的文件指纹、待测文件与目标敏感文件的相似度,以及对待测文件的处理策略都存储到检测结果库中,以记录本次对待测文件进行指纹识别、查询的结果信息。

可选的,还可以包括:间隔预设时间对检测结果库中的检测信息进行数据分析,并根据分析结果生成分析报告展示给用户。

本实施例中,还可以通过数据分析模块,周期性的从检测结果库中获取检测信息进行数据分析,得到分析结果,例如,统计文本去重的准确率,或者敏感数据防泄漏的正确率和错误率等,并生成分析报告展示给用户。

本发明实施例的技术方案,通过管理平台,响应于用户对待测文件的获取操作,向指纹处理模块下发与待测文件对应的第一处理指令;通过指纹处理模块,根据第一处理指令,生成待测文件的目标文件指纹,并将目标文件指纹与文件指纹库进行匹配,得到与待测文件相似的目标敏感文件;通过决策模块,根据目标敏感文件的文件参数,生成与待测文件对应的处理策略,解决了现有技术中无法计算待测文件与敏感文件的相似度的问题,可以快速有效地计算待测文件与敏感文件的文件相似度,进而可以根据文件相似度实现更细粒度的文件去重或者数据防泄漏。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1