一种敏感信息泄露监控并联动大模型分析的方法与流程

文档序号：37658431发布日期：2024-04-18 20:32阅读：50来源：国知局

本发明属于企业信息泄露监控方法，尤其涉及一种敏感信息泄露监控并联动大模型分析的方法。

背景技术：

1、企业信息安全管理中，信息泄露问题是一个高风险问题。例如，企业员工由于安全意识不足，将企业内部的代码、配置文件等上传到github上，相关信息如果被黑客利用，从中挖掘到敏感信息如云平台ak信息、远程数据库连接信息等，则可能导致企业数据系统被直接攻击或利用。因此，需要具备检测与监控企业是否存在信息在互联网平台泄露的能力。

2、传统方案中，多以配置检测规则，然后构建爬虫平台基于检测规则调用各平台接口查询相关数据，例如，企业域名是demoxxx.com，将此配置为规则，当在外部平台例如github上扫描到包含该关键字的代码则会记录为一个告警，此方法的确可以有效识别代码泄露风险，但却存在误报较高的问题，关键字可能出现在非敏感文件或泄露文件中，大量的告警导致有效告警被淹没，只能人工逐条对告警进行审计分析，耗费的人力成本极大，因此，亟需一种可以提升检测结果有效率、降低人工成本的方法。

技术实现思路

1、为了克服现有互联网平台企业信息泄露监控方法误报率高、可靠性低、人工成本过高的缺陷，本发明提出了一种新的敏感信息泄露监控并联动大模型分析的方法。

2、本发明旨在解决如何识别企业敏感信息泄露的问题，并给出了较为可靠、低误报告警结果的方法。本发明方法的设计架构如下：通过维护挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，通过标准大模型辅助提示词工程，对信息泄露数据进行初步研判产出大模型初步研判数据，由于标准大模型未进行过专项强化，识别能力相对有限，因此进行人工订正分析数据，产出大模型微调训练数据，使用该数据对标准大模型在信息泄露领域进行专项增强，得到微调加强大模型。以此模型为底座，对企业敏感信息监控规则联动爬虫程序产出的告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定等，最后产出泄露风险判定结果数据，人工对判定结果数据进行确认与处置，确认与处置后的数据被自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

3、本发明的整体技术构思包括：构建一种通过宽泛的挖掘类审计规则联动爬虫与标准大模型来构造信息泄露研判数据的方法；以及一种使用信息泄露微调增强模型联动检测规则为上下文研判爬虫结果数据的方法；以及一种结合人工处置结果持续构建信息泄露告警研判训练数据的方法。

4、具体地，本发明提供了一种敏感信息泄露监控并联动大模型分析的方法，本方法包括：

5、s1.生成大模型微调训练数据集：构造挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，利用标准大模型对通用信息泄露数据进行分析产出大模型研判数据，人工订正大模型研判数据生成大模型微调训练数据集；

6、s2.生成微调加强大模型：基于大模型微调训练数据集对标准大模型进行敏感信息泄露微调训练，生成微调加强大模型；

7、s3.实施信息泄露告警分析：利用微调加强大模型对企业敏感信息监控规则联动爬虫程序产出的信息泄露告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定，然后输出泄露风险判定结果数据，人工对判定结果数据进行确认与处置，确认与处置后的数据自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

8、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s1中所述的生成大模型微调训练数据集，包括：

9、s11.构建挖掘类审计规则；

10、s12.爬虫程序解析挖掘类审计规则并对规则中的关键字调用外部平台接口进行查询检测，识别是否有包含监控关键字的内容，如果找到则输出为通用信息泄露数据；

11、s13.利用标准大模型对通用信息泄露数据进行敏感信息泄露分析，产出大模型研判数据；

12、s14.当上步产出的大模型研判数据与研判目标不相符时，人工订正大模型研判数据，修改研判数据的内容或格式，并生成大模型微调训练数据集。

13、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s11中所述的挖掘类审计规则包括通用的敏感信息策略和包含企业基础信息的宽泛规则。挖掘类审计规则设置较为宽泛的目的是保障结果数据中存在真实的敏感信息泄露以及非敏感信息泄露等各类复杂数据，模拟后续正式监控规则需要识别的数据场景。

14、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s13中所述的标准大模型包括但不限于：llama、百川、chatgpt4。

15、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s2中所述的对标准大模型进行敏感信息泄露微调训练是通过选择开源的标准大模型作为基座模型进行本地训练来完成的；所述的基座模型包括但不限于：llama、百川、chatgpt4、或者单独构建的大模型底座。

16、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s2中所述的微调训练使用全参微调或lora微调方式。

17、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s3中所述的实施信息泄露告警分析，包括：

18、s31.构建企业敏感信息监控规则；

19、s32.爬虫程序基于企业敏感信息监控规则进行持续检测，发现匹配关键字的数据后，将检测规则与疑似信息泄露的完整内容，传递给微调加强大模型进行研判分析；

20、s33.微调加强大模型确认是否是敏感信息泄露，并进行具体原因分析和威胁程度判定，然后输出泄露风险判定结果数据；

21、s34.人工对判定结果数据进行确认与处置，确认后的事件按照企业标准流程进行应急响应处置；

22、s35.确认与处置后的数据被自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

23、进一步地，本发明敏感信息泄露监控并联动大模型分析的方法步骤s31中所述的企业敏感信息监控规则用于监控企业敏感信息，所述的企业敏感信息包括但不限于：企业域名信息、代码头信息、企业内部的ip地址和环境信息。

24、另外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述的敏感信息泄露监控并联动大模型分析的方法的步骤。

25、另一方面，本发明还提供了一种敏感信息泄露监控并联动大模型分析的系统，本系统包括：

26、大模型微调训练数据集生成模块：构造挖掘类审计规则并联动爬虫程序，获取通用信息泄露数据，利用标准大模型对通用信息泄露数据进行分析产出大模型研判数据，人工订正大模型研判数据生成大模型微调训练数据集；

27、微调加强大模型生成模块：基于大模型微调训练数据集对标准大模型进行敏感信息泄露微调训练，生成微调加强大模型；

28、信息泄露告警分析模块：利用微调加强大模型对企业敏感信息监控规则联动爬虫程序产出的信息泄露告警数据进行研判，确认是否是敏感信息泄露，并进行威胁程度判定，然后输出泄露风险判定结果数据，人工对判定结果数据进行确认与处置，确认与处置后的数据自动治理到大模型微调训练数据集中，供大模型进行持续能力更新。

29、综上，本发明敏感信息泄露监控并联动大模型分析的方法通过挖掘类审计规则联动爬虫采集训练数据并联动标准大模型和人工标注的方式高效地构造了大量真实信息泄露研判数据，通过标准微调技术提升了大模型对此类告警的研判能力。本方法同时联动规则引擎，以规则为上下文对告警信息进行分析，准确解释了基于规则产出的告警数据，使得安全工程师可以聚焦到有真实威胁的信息泄露事件中，而不被海量无效告警淹没。通过本方法监控信息泄露事件可靠性高、误报率大幅降低，并可节省大量的人工成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许祥
技术所有人：中电云计算技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。