本发明涉及数据检索领域,尤其涉及一种敏感数据泄露检索方法。
背景技术:
当前诸多敏感数据存储在互联网服务器上,包括个人隐私,商业机密等不宜公开的内容。由于服务器设置不当或者管理人员操作不当,导致敏感数据被搜索引擎爬虫爬取,构成互联网公开。
技术实现要素:
针对现有技术中的上述不足,本发明提供了一种敏感数据泄露检索方法,可以很好的对隐私泄漏的检索。
为了达到上述发明目的,本发明采用的具体方案为:
一种敏感数据泄露检索方法,包括以下步骤:
步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;
步骤二:识别:识别哪些是敏感数据、隐私数据;
步骤三:过滤:判断相同敏感数据的源数据;
步骤四:追根溯源:追踪源数据泄露的源头;
步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。
优选的,所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。
优选的,所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。
优选的,所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。
优选的,所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。
优选的,所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。
优选的,所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。
优选的,所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。
优选的,所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。
本发明的有益效果为:对隐私的泄漏进行检索,发现泄漏源头,并且进行预警,可很好的服务与用户。
附图说明
图1是本发明一种敏感数据泄露检索方法的流程图。
具体实施方式
以下通过具体实施例进一步描述本发明,但本发明不仅仅限于以下实施例。在本发明的范围内或者在不脱离本发明的内容、精神和范围内,对本发明进行的变更、组合或替换,对于本领域的技术人员来说是显而易见的,且包含在本发明的范围之内。
一种敏感数据泄露检索方法,包括以下步骤:
步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;
步骤二:识别:识别哪些是敏感数据、隐私数据;
步骤三:过滤:判断相同敏感数据的源数据;
步骤四:追根溯源:追踪源数据泄露的源头;
步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。
所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。
所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。
所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。
所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。
所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。
所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。
所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。
所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。。
以上所述仅为本发明专利的较佳实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之内。
1.一种敏感数据泄露检索方法,其特征在于:包括以下步骤:
步骤一:数据收集:基于搜索引擎进行泄露的隐私数据收集;
步骤二:识别:识别哪些是敏感数据、隐私数据;
步骤三:过滤:判断相同敏感数据的源数据;
步骤四:追根溯源:追踪源数据泄露的源头;
步骤五:预警:对泄露源头进行预警,提醒个人或机构数据泄露风险。
2.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述数据收集是通过web服务程序接口,向搜索引擎数据交换接口提交查询请求,然后解析搜索引擎返回的查询结果,实现数据收集。
3.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述识别是将用户提交的拟查询敏感数据作为用户关键词,将用户关键词与搜索引擎关键词进行匹配组合后,提交搜索引擎,进而实现对检索结果进行采集。
4.根据权利要求3所述的一种敏感数据泄露检索方法,其特征在于:所述敏感数据为用户提供的关键词和用户提交的样本图片、音频或视频。
5.根据权利要求1所述的一种敏感数据泄露检索方法,其特征在于:所述过滤是对取得的不同数据文件分别进行hash运算,对取得的hash值进行比较,相同者为同一文件。
6.根据权利要求5所述的一种敏感数据泄露检索方法,其特征在于:所述过滤包括数据过滤和数据清洗,用于去除空表和无关数据以及去除非敏感内容。
7.根据权利要求6所述的一种敏感数据泄露检索方法,其特征在于:所述追根溯源是对检索到的敏感数据文件相关数据进行比较,通过比对数据文件生成时间、链接生成时间、web页面生成时间等数据,选择时间较早者作为源头。
8.根据权利要求7所述的一种敏感数据泄露检索方法,其特征在于:所述追根溯源包括数据集成和数据展示,所述数据集成用于地址溯源和内容保存,所述数据展示是通过列表、地图或雷达的形式进行展示。
9.根据权利要求8所述的一种敏感数据泄露检索方法,其特征在于:所述预警是根据数据过滤和数据清洗以后,通过数据集成,最终在数据展示环节通过图表生成预警报告。