本申请涉及网络安全,特别涉及一种大语言模型微调数据集的构建方法、装置及电子设备。
背景技术:
1、当前,大语言模型(large language model,llm)在不同领域的应用越来越广泛,但针对特定领域(比如,网络安全)的模型微调仍面临数据不足的问题。虽然已有研究表明数据质量比数据数量更为重要,但目前缺乏用于网络安全领域的高质量训练数据。
技术实现思路
1、本申请提供了一种大语言模型微调数据集的构建方法、装置及电子设备,具体方案如下:
2、本申请实施例提供了一种大语言模型微调数据集的构建方法,包括:
3、调用安全知识库对初始种子指令集对应的查询向量进行检索,从存储于所述安全知识库内的多个向量集中筛选出与所述查询向量相似度大于第一预设阈值的候选向量集,所述安全知识库为基于本地的网络安全文本数据预先构建的知识库;
4、将所述候选向量集对应的待选指令集输入至大语言模型,通过自指导生成方法扩展所述待选指令集,获得扩展指令集;
5、度量所述扩展指令集的多样性,从所述扩展指令集中筛选出熵值小于第二预设阈值的分散指令集,所述熵值与所述多样性呈反比;
6、采用rouge_l分数对所述分散指令集进行质量评估,过滤掉质量不达标的指令,获得微调数据集,所述微调数据集用于对所述大语言模型进行训练
7、可选地,在本申请实施例中,所述采用rouge_l分数对所述分散指令集进行质量评估,过滤掉质量不达标的指令,获得微调数据集,包括:
8、获得所述分散指令集与参考指令集的最长公共子序列长度;
9、根据所述最长公共子序列长度与所述参考指令集,获得所述分散指令集的所述rouge_l分数;
10、从所述分散指令集中,过滤掉所述rouge_l分数大于等于预设的最低分数门限值的指令,获得微调数据集。
11、可选地,在本申请实施例中,所述度量所述扩展指令集的多样性,包括:
12、获得所述扩展指令集的概率分布;
13、根据所述概率分布获得所述扩展指令集的熵值;
14、根据所述熵值度量所述扩展指令集的多样性。
15、可选地,在本申请实施例中,在所述调用安全知识库对初始种子指令集对应的查询向量进行检索之前,所述装置还包括构建单元,所述构建单元具体用于:
16、获取来自本地的网络安全文本数据,并对所述网络安全文本数据进行向量化处理,获得相应的向量集;
17、根据所述向量集以及所述向量集对应的原始数据,构建安全知识库。
18、可选地,在本申请实施例中,所述扩展单元具体用于:
19、确定与所述候选向量集对应的所述待选指令集;
20、将所述待选指令集输入至所述大语言模型,通过调用提示词工程的生成函数,多轮迭代扩展所述待选指令集,生成所述扩展指令集。
21、相应地,本申请实施例提供了一种大语言模型微调数据集的构建装置,包括:
22、检索单元,用于调用安全知识库对初始种子指令集对应的查询向量进行检索,从存储于所述安全知识库内的多个向量集中筛选出与所述查询向量相似度大于第一预设阈值的候选向量集,所述安全知识库为基于本地的网络安全文本数据预先构建的知识库;
23、扩展单元,用于将所述候选向量集对应的待选指令集输入至大语言模型,通过自指导生成方法扩展所述待选指令集,获得扩展指令集;
24、度量单元,用于度量所述扩展指令集的多样性,从所述扩展指令集中筛选出熵值小于第二预设阈值的分散指令集,所述熵值与所述多样性呈反比;
25、质量评估单元,用于采用rouge_l分数对所述分散指令集进行质量评估,过滤掉质量不达标的指令,获得微调数据集,所述微调数据集用于对所述大语言模型进行训练。
26、可选地,在本申请实施例中,所述质量评估单元具体用于:
27、获得所述分散指令集与参考指令集的最长公共序列长度;
28、根据所述最长公共序列长度与所述参考指令集,获得所述分散指令集的所述rouge_l分数;
29、从所述分散指令集中,过滤掉所述rouge_l分数大于等于预设的最低分数门限值的指令,获得微调数据集。
30、可选地,在本申请实施例中,所述度量单元具体用于:
31、获得所述扩展指令集的概率分布;
32、根据所述概率分布获得所述扩展指令集的熵值;
33、根据所述熵值度量所述扩展指令集的多样性。
34、可选地,在本申请实施例中,所述扩展单元具体用于:
35、确定与所述候选向量集对应的所述待选指令集;
36、将所述待选指令集输入至所述大语言模型,通过调用提示词工程的生成函数,多轮迭代扩展所述待选指令集,生成所述扩展指令集。
37、相应地,本申请实施例提供了一种电子设备,包括:
38、存储器,用于存放计算机程序;
39、处理器,用于执行所述存储器上所存放的计算机程序时,实现如上面任一项所述的方法步骤。
40、相应地,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上面任一项所述的方法步骤。
41、本申请实施例的有益效果如下:
42、本申请实施例提供了一种大语言模型微调数据集的构建方法、装置及电子设备,其中,通过该构建方法,首先,调用安全知识库对初始种子指令集对应的查询向量进行检索,从存储于安全知识库内的多个向量集中筛选出与查询向量之间的相似度大于第一预设阈值的候选向量集;其中,安全知识库为基于本地的网络安全文本数据预先构建的知识库。如此一来,通过本地化的安全知识库,减少了对外部数据源的依赖,降低了数据泄露和隐私风险。然后,将候选向量集对应的待选指令集输入至大语言模型,通过自指导生成方法扩展待选指令集,获得扩展指令集。如此一来,解决了数据稀缺性的问题。
43、然后,度量扩展指令集的多样性,从扩展指令集中筛选出熵值小于第二预设阈值的分散指令集,其中,熵值越小,扩展指令集的多样性越好。如此一来,可以筛选出符合多样性需求的指令集。然后,采用rouge_l分数对分散指令集进行质量评估,过滤掉质量不达标的指令,获得用于微调大语言模型数据集。如此一来,确保了数据集的高质量和准确性。
1.一种大语言模型微调数据集的构建方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述采用rouge_l分数对所述分散指令集进行质量评估,过滤掉质量不达标的指令,获得微调数据集,包括:
3.如权利要求1所述的方法,其特征在于,所述度量所述扩展指令集的多样性,包括:
4.如权利要求1-3任一项所述的方法,其特征在于,在所述调用安全知识库对初始种子指令集对应的查询向量进行检索之前,所述方法还包括:
5.如权利要求1-3任一项所述的方法,其特征在于,所述将所述候选向量集对应的待选指令集输入至大语言模型,通过自指导生成方法扩展所述待选指令集,获得扩展指令集,包括:
6.一种大语言模型微调数据集的构建装置,其特征在于,包括:
7.如权利要求6所述的装置,其特征在于,所述质量评估单元具体用于:
8.如权利要求6所述的装置,其特征在于,所述度量单元具体用于:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。