一种敏感数据泄露检索方法

文档序号:25169517发布日期:2021-05-25 14:38阅读:38来源:国知局
一种敏感数据泄露检索方法

本发明涉及数据检索领域,尤其涉及一种敏感数据泄露检索方法。



背景技术:

当前诸多敏感数据存储在互联网服务器上,包括个人隐私,商业机密等不宜公开的内容。由于服务器设置不当或者管理人员操作不当,导致敏感数据被搜索引擎爬虫爬取,构成互联网公开。



技术实现要素:

针对现有技术中的上述不足,本发明提供了一种敏感数据泄露检索方法,可以很好的对隐私泄漏的检索。

为了达到上述发明目的,本发明采用的具体方案为:

一种敏感数据泄露检索方法,包括以下步骤:

步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;

步骤二:识别:识别哪些是敏感数据、隐私数据;

步骤三:过滤:判断相同敏感数据的源数据;

步骤四:追根溯源:追踪源数据泄露的源头;

步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。

优选的,所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。

优选的,所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。

优选的,所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。

优选的,所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。

优选的,所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。

优选的,所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。

优选的,所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。

优选的,所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。

本发明的有益效果为:对隐私的泄漏进行检索,发现泄漏源头,并且进行预警,可很好的服务与用户。

附图说明

图1是本发明一种敏感数据泄露检索方法的流程图。

具体实施方式

以下通过具体实施例进一步描述本发明,但本发明不仅仅限于以下实施例。在本发明的范围内或者在不脱离本发明的内容、精神和范围内,对本发明进行的变更、组合或替换,对于本领域的技术人员来说是显而易见的,且包含在本发明的范围之内。

一种敏感数据泄露检索方法,包括以下步骤:

步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;

步骤二:识别:识别哪些是敏感数据、隐私数据;

步骤三:过滤:判断相同敏感数据的源数据;

步骤四:追根溯源:追踪源数据泄露的源头;

步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。

所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。

所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。

所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。

所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。

所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。

所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。

所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。

所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。。

以上所述仅为本发明专利的较佳实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之内。



技术特征:

1.一种敏感数据泄露检索方法,其特征在于:包括以下步骤:

步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;

步骤二:识别:识别哪些是敏感数据、隐私数据;

步骤三:过滤:判断相同敏感数据的源数据;

步骤四:追根溯源:追踪源数据泄露的源头;

步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。

2.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。

3.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。

4.根据权利要求3所述的一种敏感数据泄露检索方法,其特征在于:所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。

5.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。

6.根据权利要求5所述的一种敏感数据泄露检索方法,其特征在于:所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。

7.根据权利要求6所述的一种敏感数据泄露检索方法,其特征在于:所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。

8.根据权利要求7所述的一种敏感数据泄露检索方法,其特征在于:所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。

9.根据权利要求8所述的一种敏感数据泄露检索方法,其特征在于:所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。


技术总结
一种敏感数据泄露检索方法,包括以下步骤:步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;步骤二:识别:识别哪些是敏感数据、隐私数据;步骤三:过滤:判断相同敏感数据的源数据;步骤四:追根溯源:追踪源数据泄露的源头;步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。

技术研发人员:丁锋
受保护的技术使用者:大连理工大学
技术研发日:2021.01.30
技术公布日:2021.05.25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1